RAG (Retrieval-Augmented Generation, ou "geração aumentada por recuperação") é a técnica que conecta um modelo de IA à sua própria base de conhecimento, fazendo o agente responder com os seus dados — manuais, documentos, catálogo, histórico — em vez de inventar. É o que transforma um LLM genérico num assistente que realmente conhece o seu negócio.
Por que RAG existe
Um LLM sozinho só sabe o que aprendeu no treino — ele não conhece os seus produtos, preços ou políticas, e quando não sabe, alucina (responde com confiança algo errado). Treinar um modelo do zero com os seus dados é caro e lento.
RAG resolve isso sem retreinar: em vez de ensinar o modelo, você dá a ele a fonte certa na hora da pergunta.
Como funciona, em 4 passos
- Indexação: seus documentos são quebrados em pedaços e convertidos em embeddings (vetores numéricos que representam o significado). Esses vetores ficam num banco vetorial.
- Pergunta: o usuário pergunta algo ao agente.
- Recuperação: o sistema busca no banco vetorial os trechos mais relevantes para aquela pergunta.
- Geração: o LLM recebe a pergunta mais os trechos recuperados e gera a resposta baseada neles — com a fonte real à mão.
O resultado: respostas precisas, atualizáveis (basta reindexar) e com muito menos alucinação.
O que é preciso para rodar RAG
- Um banco de dados vetorial (Qdrant, Weaviate, Milvus) para guardar e buscar os embeddings. A Rollin oferece banco vetorial hospedado gerenciado.
- Um modelo de embeddings e um LLM para gerar a resposta — que pode ser uma API ou um modelo open-source no seu servidor para LLM, com privacidade total dos dados.
- Uma forma de alimentar a base. Para transformar sites e documentos em texto limpo, o Firecrawl faz o web scraping com IA.
RAG na prática
A maioria dos bons agentes de atendimento usa RAG por baixo: é assim que o bot do WhatsApp responde com a sua tabela de preços ou a sua política de troca, e não com um chute. Montar a pipeline (indexação, banco vetorial, recuperação, LLM) é trabalhoso — por isso entregamos a infraestrutura pronta e gerenciada.
Resumo: RAG dá conhecimento próprio a um LLM conectando-o a um banco vetorial com os seus dados. O agente busca a fonte certa na hora e responde com base nela — preciso, atualizável e sem alucinar.