Migração 100% grátis + 1 mês grátis com cupom MIGRAR1MES · novos clientes em planos até R$ 200/mês Migrar agora
IA com seus dados · zero envio pra OpenAI/Google

Sua IA própria, no seu servidor.

Servidor cloud pré-configurado com Ollama, Open WebUI e RAG. Rode Llama 3, Mistral e Mixtral no seu servidor — sem cobrança por mensagem, sem rate limit, sem mandar dados pra fora.

5 planos · pré-instalação automática

Escolha pelo modelo que você quer rodar

Cada plano vem com um VPS dimensionado pro modelo recomendado. Pode trocar o modelo a qualquer momento — Ollama tem dezenas no catálogo.

Por que self-hosted

Quatro motivos pra parar de pagar OpenAI por mensagem

IA self-hosted faz sentido quando privacidade, custo previsível e independência valem mais que a última feature do GPT.

Privacidade total · LGPD

Seus dados nunca saem do servidor. Zero envio pra OpenAI, Anthropic ou Google. Crítico pra saúde, jurídico, financeiro e qualquer dado sensível regido pela LGPD.

Custo fixo mensal

Você paga só o servidor. Sem cobrança por token, sem surpresa no fim do mês. R$ 59 ou R$ 599 fixos — independente de você processar 1k ou 100M tokens.

Sem rate limit · sem fila

Modelo só seu, processamento dedicado. Roda batches grandes (classificação, extração, embedding) sem esperar quota da OpenAI esgotar nem pagar tier premium.

Modelos open-source

Llama 3, Mistral, Mixtral, Qwen, DeepSeek — toda a família open-source roda nativamente via Ollama. Troque de modelo em segundos sem reescrever código.

Stack inclusa

Tudo pré-configurado · acessa pelo browser em 5 minutos

Setup automático: contratou, recebeu credenciais, abriu o Open WebUI e já tá conversando com a IA. Sem Docker, sem comando, sem dor de cabeça.

Ollama

Gerenciador de modelos open-source. Baixa, roda e troca modelos com 1 comando. Suporta Llama 3, Mistral, Mixtral, Qwen, Phi, Gemma, DeepSeek e dezenas de outros.

Open WebUI

Interface tipo ChatGPT pra você e sua equipe usarem no browser. Conversas salvas, multi-usuário, upload de documentos pra RAG, prompts compartilhados.

pgvector / Qdrant

Banco vetorial pra RAG (Retrieval-Augmented Generation). Indexe seus documentos e a IA responde com base no seu conteúdo, citando fonte. Plus+ tem Qdrant dedicado.

n8n · automação

Plus e Master vêm com n8n integrado. Conecte sua IA a Gmail, WhatsApp, Sheets, CRM, ERP — workflows visuais sem código, com nó Ollama nativo.

Compatibilidade

Quais modelos rodam em cada tier

Ollama tem 100+ modelos. A tabela mostra o sweet spot por tier — modelos maiores rodam, mas com latência mais alta.

PlanoModelos recomendadosVelocidade aprox.Casos de uso
Start (12 GB) Llama 3.2 3B · Phi-3 Mini · Gemma 2B 15-30 tok/s Chatbot simples, extração de dados, classificação
Pro (24 GB) Llama 3 8B · Mistral 7B · Qwen 2.5 7B 10-18 tok/s Atendimento, RAG sobre docs, agentes leves
Plus (48 GB) Mixtral 8x7B · Qwen 2.5 14B · CodeLlama 13B 6-12 tok/s RAG corporativo, multi-projeto, automação n8n
Master (96 GB) Llama 3 70B Q6 · Mixtral 8x7B · Qwen 32B 4-8 tok/s Análise complexa, multi-modelo simultâneo, RAG enterprise
Enterprise (120 GB) Mixtral 8x22B · Llama 3 70B Q8 · DeepSeek V3 2-5 tok/s Compliance LGPD, isolamento, auditoria, modelos 141B
Quando self-hosted ganha

Self-hosted vs OpenAI API · quando faz sentido

Conta simples: a partir de quantos tokens/mês o custo fixo do servidor compensa o custo variável da OpenAI.

VolumeOpenAI GPT-4o-miniRollin IA CloudVeredito
100k tokens/mês R$ 8 R$ 65 OpenAI ganha (baixo volume)
1M tokens/mês R$ 80 R$ 65 Empata (Start já compensa)
10M tokens/mês R$ 800 R$ 129 Self-hosted Pro 6× mais barato
100M tokens/mês R$ 8.000 R$ 549 Self-hosted Master 14× mais barato
Dados sensíveis Não aplicável (LGPD) R$ 699 Self-hosted Enterprise · única opção viável
Perguntas frequentes

Quem nunca rodou IA self-hosted, costuma perguntar:

Outra dúvida? Abre um ticket.

É lento sem GPU?

Sim, mais lento que GPU dedicada. Llama 3 8B em CPU faz 8-15 tokens/segundo — usável pra chat e automação, devagar pra streaming em tempo real. Pra uso humano (chat, RAG, automação) funciona bem; pra latência sub-segundo precisa GPU dedicada. Estamos avaliando tiers com GPU pra 2026.

Posso trocar de modelo depois?

Sim, sem custo. Ollama tem 100+ modelos no catálogo (Llama, Mistral, Mixtral, Qwen, DeepSeek, Phi, Gemma, CodeLlama, etc). Você baixa quantos quiser e troca por comando. Só limite é o espaço em disco do plano.

Como funciona o RAG (busca semântica)?

A partir do plano Pro vem com pgvector instalado. Você sobe seus documentos (PDF, DOCX, MD), o sistema gera embeddings e indexa. Quando perguntar pra IA, ela consulta seus docs antes de responder e cita a fonte. Plus e Master têm Qdrant dedicado pra performance maior.

Posso integrar com WhatsApp / n8n / sistemas?

Sim. A partir do Plus vem n8n pré-instalado com nó Ollama nativo — você monta workflows visuais conectando Gmail, WhatsApp, Google Sheets, Postgres, APIs HTTP. Workflows comuns: classificar tickets, gerar resumos, responder leads, transcrever áudios.

É possível fazer fine-tuning?

Fine-tuning completo precisa GPU — não dá em CPU. Mas LoRA leve (modelos 3B-7B) roda nos planos Master/Enterprise com algumas horas de treino. Pra fine-tuning sério, recomendamos rodar localmente com GPU consumer (RTX 4090) e fazer deploy do modelo treinado no servidor.

Quais dados ficam no servidor?

TUDO: prompts, respostas, documentos do RAG, histórico de conversa. Zero envio pra terceiros. Apropriado pra LGPD desde o plano Start. No plano Enterprise vem com logs auditáveis, criptografia em disco e isolamento de rede pra compliance financeira/saúde.

Posso conectar via API (igual OpenAI)?

Sim. Ollama expõe API REST 100% compatível com OpenAI — basta apontar o SDK pra http://seu-servidor.rollin.host/v1 e usar como se fosse OpenAI. A partir do Master vem com LiteLLM pra proxy multi-modelo, balanceamento e rate limiting próprio.

O servidor cai se modelo travar?

Não. Ollama roda como processo isolado, monitorado via systemd. Se modelo travar, reinicia sozinho sem afetar o servidor. Backup diário automático da configuração e dos modelos baixados. Pra alta disponibilidade real (HA) recomendamos 2 servidores com Caddy load balancer.

Pronto pra hospedar seu projeto de IA?

Comece em 5 minutos. Migração gratuita, suporte 24/7 em português e garantia de reembolso em 7 dias.