Servidor cloud pré-configurado com Ollama, Open WebUI e RAG. Rode Llama 3, Mistral e Mixtral no seu servidor — sem cobrança por mensagem, sem rate limit, sem mandar dados pra fora.
Quatro motivos pra parar de pagar OpenAI por mensagem
IA self-hosted faz sentido quando privacidade, custo previsível e independência valem mais que a última feature do GPT.
Privacidade total · LGPD
Seus dados nunca saem do servidor. Zero envio pra OpenAI, Anthropic ou Google. Crítico pra saúde, jurídico, financeiro e qualquer dado sensível regido pela LGPD.
Custo fixo mensal
Você paga só o servidor. Sem cobrança por token, sem surpresa no fim do mês. R$ 59 ou R$ 599 fixos — independente de você processar 1k ou 100M tokens.
Sem rate limit · sem fila
Modelo só seu, processamento dedicado. Roda batches grandes (classificação, extração, embedding) sem esperar quota da OpenAI esgotar nem pagar tier premium.
Modelos open-source
Llama 3, Mistral, Mixtral, Qwen, DeepSeek — toda a família open-source roda nativamente via Ollama. Troque de modelo em segundos sem reescrever código.
Stack inclusa
Tudo pré-configurado · acessa pelo browser em 5 minutos
Setup automático: contratou, recebeu credenciais, abriu o Open WebUI e já tá conversando com a IA. Sem Docker, sem comando, sem dor de cabeça.
Ollama
Gerenciador de modelos open-source. Baixa, roda e troca modelos com 1 comando. Suporta Llama 3, Mistral, Mixtral, Qwen, Phi, Gemma, DeepSeek e dezenas de outros.
Open WebUI
Interface tipo ChatGPT pra você e sua equipe usarem no browser. Conversas salvas, multi-usuário, upload de documentos pra RAG, prompts compartilhados.
pgvector / Qdrant
Banco vetorial pra RAG (Retrieval-Augmented Generation). Indexe seus documentos e a IA responde com base no seu conteúdo, citando fonte. Plus+ tem Qdrant dedicado.
n8n · automação
Plus e Master vêm com n8n integrado. Conecte sua IA a Gmail, WhatsApp, Sheets, CRM, ERP — workflows visuais sem código, com nó Ollama nativo.
Compatibilidade
Quais modelos rodam em cada tier
Ollama tem 100+ modelos. A tabela mostra o sweet spot por tier — modelos maiores rodam, mas com latência mais alta.
Sim, mais lento que GPU dedicada. Llama 3 8B em CPU faz 8-15 tokens/segundo — usável pra chat e automação, devagar pra streaming em tempo real. Pra uso humano (chat, RAG, automação) funciona bem; pra latência sub-segundo precisa GPU dedicada. Estamos avaliando tiers com GPU pra 2026.
Posso trocar de modelo depois?
Sim, sem custo. Ollama tem 100+ modelos no catálogo (Llama, Mistral, Mixtral, Qwen, DeepSeek, Phi, Gemma, CodeLlama, etc). Você baixa quantos quiser e troca por comando. Só limite é o espaço em disco do plano.
Como funciona o RAG (busca semântica)?
A partir do plano Pro vem com pgvector instalado. Você sobe seus documentos (PDF, DOCX, MD), o sistema gera embeddings e indexa. Quando perguntar pra IA, ela consulta seus docs antes de responder e cita a fonte. Plus e Master têm Qdrant dedicado pra performance maior.
Posso integrar com WhatsApp / n8n / sistemas?
Sim. A partir do Plus vem n8n pré-instalado com nó Ollama nativo — você monta workflows visuais conectando Gmail, WhatsApp, Google Sheets, Postgres, APIs HTTP. Workflows comuns: classificar tickets, gerar resumos, responder leads, transcrever áudios.
É possível fazer fine-tuning?
Fine-tuning completo precisa GPU — não dá em CPU. Mas LoRA leve (modelos 3B-7B) roda nos planos Master/Enterprise com algumas horas de treino. Pra fine-tuning sério, recomendamos rodar localmente com GPU consumer (RTX 4090) e fazer deploy do modelo treinado no servidor.
Quais dados ficam no servidor?
TUDO: prompts, respostas, documentos do RAG, histórico de conversa. Zero envio pra terceiros. Apropriado pra LGPD desde o plano Start. No plano Enterprise vem com logs auditáveis, criptografia em disco e isolamento de rede pra compliance financeira/saúde.
Posso conectar via API (igual OpenAI)?
Sim. Ollama expõe API REST 100% compatível com OpenAI — basta apontar o SDK pra http://seu-servidor.rollin.host/v1 e usar como se fosse OpenAI. A partir do Master vem com LiteLLM pra proxy multi-modelo, balanceamento e rate limiting próprio.
O servidor cai se modelo travar?
Não. Ollama roda como processo isolado, monitorado via systemd. Se modelo travar, reinicia sozinho sem afetar o servidor. Backup diário automático da configuração e dos modelos baixados. Pra alta disponibilidade real (HA) recomendamos 2 servidores com Caddy load balancer.
Pronto pra hospedar seu projeto de IA?
Comece em 5 minutos. Migração gratuita, suporte 24/7 em português e garantia de reembolso em 7 dias.