Migração 100% grátis · nossa equipe migra tudo pra você e o 1º mês fica por nossa conta · novos clientes Migrar agora

Agente de IA no WhatsApp por R$ 299/mês · stack montada e gerenciada pelo nosso time Quero meu agente

VPS com OpenClaw pré-instalado · 1ª mensalidade de ~~R$ 56,90~~ por R$ 29,99 (-47%) · gerenciada pela Rollin Quero a VPS

VPS com Hermes Agent pré-instalado · 1ª mensalidade de ~~R$ 56,90~~ por R$ 29,99 (-47%) · gerenciada pela Rollin Quero a VPS

Hospedagem com 30 dias de garantia · Não gostou? Devolvemos 100%, sem perguntas. Ver hospedagem

IA com seus dados · zero envio pra OpenAI/Google

Sua IA própria, no seu servidor.

Servidor cloud pré-configurado com Ollama, Open WebUI e RAG. Rode Llama 3, Mistral e Mixtral no seu servidor — sem cobrança por mensagem, sem rate limit, sem mandar dados pra fora.

Ver os 5 planos Por que self-hosted?

Servidor IA Cloud Rollin Host é um VPS pré-configurado com Ollama, Open WebUI, pgvector e Qdrant para rodar LLMs open-source (Llama 3, Mistral, Mixtral, Qwen) no seu próprio servidor. 5 planos de R$ 89 a R$ 789/mês, com até 96 GB de RAM para rodar Llama 3 70B Q6 ou Mixtral 8x22B Q4. Setup automático em 5 minutos, API REST compatível com OpenAI, dados 100% privados (LGPD), faturamento em real e suporte humano 24/7 em português.

5 planos · pré-instalação automática

Escolha pelo modelo que você quer rodar

Cada plano vem com um VPS dimensionado pro modelo recomendado. Pode trocar o modelo a qualquer momento — Ollama tem dezenas no catálogo.

Start

IA Cloud Start

R$ 89,00/mês

sem fidelidade · cancele quando quiser

Contratar agora Falar com humano

8 GB RAM · 4 vCPU AMD EPYC · 75 GB NVMe
Ollama + Open WebUI pré-instalados
Roda Phi-3 Mini · Gemma 2B · Llama 3.2 3B Q4
API REST 100% compatível com OpenAI
HTTPS automático com seu subdomínio
Backup diário dos modelos e chats
Suporte humano 24/7 em PT-BR

Mais escolhido

IA Cloud Pro

R$ 129,00/mês

sem fidelidade · cancele quando quiser

Contratar agora Falar com humano

12 GB RAM · 6 vCPU AMD EPYC · 100 GB NVMe
Tudo do Start + pgvector pra RAG
Roda Llama 3.2 3B · Mistral 7B Q4 · Qwen 2.5 7B Q4
Upload de documentos com indexação automática
Multi-usuário no Open WebUI com permissões
API com chave própria por equipe

Plus

IA Cloud Plus

R$ 229,00/mês

sem fidelidade · cancele quando quiser

Contratar agora Falar com humano

24 GB RAM · 8 vCPU AMD EPYC · 200 GB NVMe
Tudo do Pro + Qdrant + n8n
Roda Llama 3 8B · Mistral 7B FP16 · Qwen 2.5 14B Q4
Workflows n8n com nó Ollama nativo
RAG corporativo multi-projeto
Backup criptografado em disco

Master

IA Cloud Master

R$ 599,00/mês

sem fidelidade · cancele quando quiser

Contratar agora Falar com humano

64 GB RAM · 16 vCPU AMD EPYC · 300 GB NVMe
Tudo do Plus + LiteLLM proxy multi-modelo
Roda Mixtral 8x7B · Llama 3 70B Q4 · Qwen 32B
Múltiplos modelos em paralelo (8B-13B) ou 1 grande
Rate limiting e balanceamento próprios
Suporte prioritário com SLA 4h

Enterprise

IA Cloud Enterprise

R$ 789,00/mês

sem fidelidade · cancele quando quiser

Contratar agora Falar com humano

96 GB RAM · 18 vCPU AMD EPYC · 350 GB NVMe
Tudo do Master + logs auditáveis LGPD
Roda Llama 3 70B Q6 · Mixtral 8x22B Q4 · DeepSeek V3 Q4
Isolamento de rede + criptografia em disco
Conformidade pra bancos / jurídico / saúde
SLA 99,9% contratual · onboarding dedicado

Por que self-hosted

Quatro motivos pra parar de pagar OpenAI por mensagem

IA self-hosted faz sentido quando privacidade, custo previsível e independência valem mais que a última feature do GPT.

Privacidade total · LGPD

Seus dados nunca saem do servidor. Zero envio pra OpenAI, Anthropic ou Google. Crítico pra saúde, jurídico, financeiro e qualquer dado sensível regido pela LGPD.

Custo fixo mensal

Você paga só o servidor. Sem cobrança por token, sem surpresa no fim do mês. R$ 89 ou R$ 789 fixos — independente de você processar 1k ou 100M tokens.

Sem rate limit · sem fila

Modelo só seu, processamento dedicado. Roda batches grandes (classificação, extração, embedding) sem esperar quota da OpenAI esgotar nem pagar tier premium.

Modelos open-source

Llama 3, Mistral, Mixtral, Qwen, DeepSeek — toda a família open-source roda nativamente via Ollama. Troque de modelo em segundos sem reescrever código.

Stack inclusa

Tudo pré-configurado · acessa pelo browser em 5 minutos

Setup automático: contratou, recebeu credenciais, abriu o Open WebUI e já tá conversando com a IA. Sem Docker, sem comando, sem dor de cabeça.

Ollama

Gerenciador de modelos open-source. Baixa, roda e troca modelos com 1 comando. Suporta Llama 3, Mistral, Mixtral, Qwen, Phi, Gemma, DeepSeek e dezenas de outros.

Open WebUI

Interface tipo ChatGPT pra você e sua equipe usarem no browser. Conversas salvas, multi-usuário, upload de documentos pra RAG, prompts compartilhados.

pgvector / Qdrant

Banco vetorial pra RAG (Retrieval-Augmented Generation). Indexe seus documentos e a IA responde com base no seu conteúdo, citando fonte. Plus+ tem Qdrant dedicado.

n8n · automação

Plus e Master vêm com n8n integrado. Conecte sua IA a Gmail, WhatsApp, Sheets, CRM, ERP — workflows visuais sem código, com nó Ollama nativo.

Compatibilidade

Quais modelos rodam em cada tier

Ollama tem 100+ modelos. A tabela mostra o sweet spot por tier — modelos maiores rodam, mas com latência mais alta.

Plano	Modelos recomendados	Velocidade aprox.	Casos de uso
Start (8 GB)	Phi-3 Mini · Gemma 2B · Llama 3.2 3B Q4	20-40 tok/s	Chatbot simples, extração de dados, classificação
Pro (12 GB)	Llama 3.2 3B · Mistral 7B Q4 · Qwen 7B Q4	12-22 tok/s	Atendimento, RAG sobre docs, agentes leves
Plus (24 GB)	Llama 3 8B · Mistral 7B FP16 · Qwen 14B Q4	8-15 tok/s	RAG corporativo, multi-projeto, automação n8n
Master (64 GB)	Mixtral 8x7B · Llama 3 70B Q4 · Qwen 32B	4-9 tok/s	Análise complexa, multi-modelo simultâneo, RAG enterprise
Enterprise (96 GB)	Llama 3 70B Q6 · Mixtral 8x22B Q4 · DeepSeek V3 Q4	2-6 tok/s	Compliance LGPD, isolamento, auditoria, modelos 141B+

Quando self-hosted ganha

Self-hosted vs OpenAI API · quando faz sentido

Conta simples: a partir de quantos tokens/mês o custo fixo do servidor compensa o custo variável da OpenAI.

Volume	OpenAI GPT-4o-mini	Rollin IA Cloud	Veredito
100k tokens/mês	R$ 8	R$ 89	OpenAI ganha (baixo volume)
1M tokens/mês	R$ 80	R$ 89	Empata (Start já compensa)
10M tokens/mês	R$ 800	R$ 129	Self-hosted Pro 6× mais barato
100M tokens/mês	R$ 8.000	R$ 599	Self-hosted Master 13× mais barato
Dados sensíveis	Não aplicável (LGPD)	R$ 789	Self-hosted Enterprise · única opção viável

Por que escolher Rollin IA Cloud em vez de Together.ai, Replicate ou RunPod

Recurso	Rollin IA Cloud	Together.ai	Replicate	RunPod
Cobrança	Mensal fixo (R$ 89-789)	Por token	Por segundo	Por hora de GPU
Dado fica em	Seu servidor (LGPD)	Infra deles (US)	Infra deles (US)	Pod alocado
Stack inclusa	Ollama + WebUI + RAG	API only	API only	Você instala
Roda em CPU	Sim (todos os planos)	Só GPU	Só GPU	Só GPU
Faturamento BR	NF-e + PIX	USD	USD	USD
Suporte humano PT-BR	24/7	Apenas inglês	Apenas inglês	Apenas inglês

Servidor IA Cloud em números

DatacenterSão Paulo, Brasil (Tier III)
HardwareAMD EPYC + NVMe RAID
Planos5 (Start R$ 89 → Enterprise R$ 789)
RAM máxima96 GB (roda Llama 3 70B Q6 ou Mixtral 8x22B Q4)
Stack pré-instaladaOllama + Open WebUI + pgvector + Qdrant + n8n
SetupAutomático em 5 minutos (cloud-init)
Modelos suportados100+ via Ollama (Llama, Mistral, Mixtral, Qwen, DeepSeek)
APIREST 100% compatível com OpenAI

Perguntas frequentes

Quem nunca rodou IA self-hosted, costuma perguntar:

Outra dúvida? Abre um ticket.

O que é o Servidor IA Cloud da Rollin Host?

É um servidor VPS pré-configurado com Ollama, Open WebUI, pgvector e Qdrant para rodar LLMs open-source (Llama 3, Mistral, Mixtral, Qwen, DeepSeek) no seu próprio servidor. 5 planos de R$ 89 a R$ 789/mês, com setup automático em 5 minutos. Você acessa pelo navegador (tipo ChatGPT) e via API REST compatível com OpenAI.

Quanto custa rodar IA self-hosted na Rollin Host?

De R$ 89/mês (Start, 8 GB RAM, Phi-3 Mini) a R$ 789/mês (Enterprise, 96 GB RAM, Llama 3 70B Q6 ou Mixtral 8x22B Q4). O mais popular é o Pro a R$ 129/mês — 12 GB RAM, roda Llama 3.2 3B com RAG via pgvector. Sem fidelidade, sem cobrança por token. NF-e e pagamento em real (PIX, boleto, cartão).

É lento sem GPU?

Sim, mais lento que GPU dedicada. Llama 3 8B em CPU faz 8-15 tokens/segundo — usável pra chat e automação, devagar pra streaming em tempo real. Pra uso humano (chat, RAG, automação) funciona bem; pra latência sub-segundo precisa GPU dedicada. Estamos avaliando tiers com GPU pra 2026.

Self-hosted vale a pena vs OpenAI?

Vale a partir de ~1 milhão de tokens/mês (Start R$ 89 praticamente empata com R$ 80 da OpenAI no mesmo volume). A 10M tokens/mês, o Pro fica 6x mais barato; a 100M tokens, o Master fica 13x mais barato. Para dados sensíveis (LGPD), self-hosted é a única opção viável — APIs públicas não atendem compliance de saúde/jurídico/financeiro.

Posso trocar de modelo depois?

Sim, sem custo. Ollama tem 100+ modelos no catálogo (Llama, Mistral, Mixtral, Qwen, DeepSeek, Phi, Gemma, CodeLlama, etc). Você baixa quantos quiser e troca por comando. Só limite é o espaço em disco do plano.

Como funciona o RAG (busca semântica)?

A partir do plano Pro vem com pgvector instalado. Você sobe seus documentos (PDF, DOCX, MD), o sistema gera embeddings e indexa. Quando perguntar pra IA, ela consulta seus docs antes de responder e cita a fonte. Plus e Master têm Qdrant dedicado pra performance maior.

Posso integrar com WhatsApp / n8n / sistemas?

Sim. A partir do Plus vem n8n pré-instalado com nó Ollama nativo — você monta workflows visuais conectando Gmail, WhatsApp, Google Sheets, Postgres, APIs HTTP. Workflows comuns: classificar tickets, gerar resumos, responder leads, transcrever áudios.

É possível fazer fine-tuning?

Fine-tuning completo precisa GPU — não dá em CPU. Mas LoRA leve (modelos 3B-7B) roda nos planos Master/Enterprise com algumas horas de treino. Pra fine-tuning sério, recomendamos rodar localmente com GPU consumer (RTX 4090) e fazer deploy do modelo treinado no servidor.

Quais dados ficam no servidor?

TUDO: prompts, respostas, documentos do RAG, histórico de conversa. Zero envio pra terceiros. Apropriado pra LGPD desde o plano Start. No plano Enterprise vem com logs auditáveis, criptografia em disco e isolamento de rede pra compliance financeira/saúde.

Posso conectar via API (igual OpenAI)?

Sim. Ollama expõe API REST 100% compatível com OpenAI — basta apontar o SDK pra http://seu-servidor.rollin.host/v1 e usar como se fosse OpenAI. A partir do Master vem com LiteLLM pra proxy multi-modelo, balanceamento e rate limiting próprio.

Como migrar da OpenAI para o Servidor IA Cloud?

Em 3 passos: 1) contrate o plano (Pro é o mais comum para começar), 2) altere a base_url do SDK OpenAI para a URL do seu servidor (ex.: https://seu-servidor.rollin.host/v1), 3) escolha o modelo Ollama equivalente (Llama 3 8B substitui GPT-3.5; Mixtral substitui GPT-4 em muitos casos). Tempo médio de migração: 1-2 horas.

O servidor cai se modelo travar?

Não. Ollama roda como processo isolado, monitorado via systemd. Se modelo travar, reinicia sozinho sem afetar o servidor. Backup diário automático da configuração e dos modelos baixados. Pra alta disponibilidade real (HA) recomendamos 2 servidores com Caddy load balancer.

A Rollin Host é confiável para IA self-hosted?

Sim — Rollin Serviços Digitais e Tecnologia LTDA é empresa brasileira com datacenter Tier III internacional, com CDN no Brasil, NF-e, faturamento em real e suporte humano 24/7 em português. Primeira cloud brasileira especializada em IA, com produtos dedicados a LLM, GPU, vector DB e agentes WhatsApp.

Pronto pra hospedar seu projeto de IA?

Comece em 5 minutos. Migração gratuita, suporte 24/7 em português e garantia de reembolso de 7 dias (30 dias em hospedagem de sites e WordPress).

Contratar agora Falar no WhatsApp