RAG com Qdrant + LangChain

Como montar uma stack de Retrieval-Augmented Generation (RAG) usando Qdrant como vector database e LangChain como orquestrador, em uma VPS Rollin Host.

Quando usar RAG

Use Retrieval-Augmented Generation (RAG) quando você precisa que a IA responda sobre conteúdo específico — manuais, base de conhecimento interna, documentação de produto — sem treinar um modelo do zero. O LLM continua respondendo, mas com contexto buscado de uma base vetorial.

Arquitetura

PDF / Markdown / Notion ──▶ embeddings ──▶ Qdrant
                                              │
       Pergunta do usuário ──▶ embedding ──▶ search ──▶ contexto + LLM ──▶ resposta

Stack

Qdrant — vector database, roda em Docker
LangChain (Python ou Node) — orquestrador de chunks, embeddings e prompt
OpenAI ada-002 ou bge-m3 self-hosted — modelo de embeddings
Servidor: VPS Plus (8 GB RAM, 4 vCPU, 160 GB)

Próximos passos

Em breve publicaremos o tutorial completo com código pronto. Enquanto isso:

Instalar Ollama em VPS (para rodar embeddings locais)
n8n + EvolutionAPI + OpenAI (para integrar o RAG ao WhatsApp)

Última atualização: 15 de abril de 2026