RAG com Qdrant + LangChain
Como montar uma stack de Retrieval-Augmented Generation (RAG) usando Qdrant como vector database e LangChain como orquestrador, em uma VPS Rollin Host.
Quando usar RAG
Use Retrieval-Augmented Generation (RAG) quando você precisa que a IA responda sobre conteúdo específico — manuais, base de conhecimento interna, documentação de produto — sem treinar um modelo do zero. O LLM continua respondendo, mas com contexto buscado de uma base vetorial.
Arquitetura
PDF / Markdown / Notion ──▶ embeddings ──▶ Qdrant
│
Pergunta do usuário ──▶ embedding ──▶ search ──▶ contexto + LLM ──▶ resposta
Stack
- Qdrant — vector database, roda em Docker
- LangChain (Python ou Node) — orquestrador de chunks, embeddings e prompt
- OpenAI ada-002 ou bge-m3 self-hosted — modelo de embeddings
- Servidor: VPS Plus (8 GB RAM, 4 vCPU, 160 GB)
Próximos passos
Em breve publicaremos o tutorial completo com código pronto. Enquanto isso:
- Instalar Ollama em VPS (para rodar embeddings locais)
- n8n + EvolutionAPI + OpenAI (para integrar o RAG ao WhatsApp)
Última atualização: