Migração 100% grátis + 1 mês grátis com cupom MIGRAR1MES · novos clientes em planos até R$ 200/mês Migrar agora
IA com seus dados · zero envio pra OpenAI/Google

Sua IA própria, no seu servidor.

Servidor cloud pré-configurado com Ollama, Open WebUI e RAG. Rode Llama 3, Mistral e Mixtral no seu servidor — sem cobrança por mensagem, sem rate limit, sem mandar dados pra fora.

Servidor IA Cloud Rollin Host é um VPS pré-configurado com Ollama, Open WebUI, pgvector e Qdrant para rodar LLMs open-source (Llama 3, Mistral, Mixtral, Qwen) no seu próprio servidor. 5 planos de R$ 65 a R$ 699/mês, com até 120 GB de RAM para rodar Mixtral 8x22B. Setup automático em 5 minutos, API REST compatível com OpenAI, dados 100% privados (LGPD), faturamento em real e suporte humano 24/7 em português.

5 planos · pré-instalação automática

Escolha pelo modelo que você quer rodar

Cada plano vem com um VPS dimensionado pro modelo recomendado. Pode trocar o modelo a qualquer momento — Ollama tem dezenas no catálogo.

Por que self-hosted

Quatro motivos pra parar de pagar OpenAI por mensagem

IA self-hosted faz sentido quando privacidade, custo previsível e independência valem mais que a última feature do GPT.

Privacidade total · LGPD

Seus dados nunca saem do servidor. Zero envio pra OpenAI, Anthropic ou Google. Crítico pra saúde, jurídico, financeiro e qualquer dado sensível regido pela LGPD.

Custo fixo mensal

Você paga só o servidor. Sem cobrança por token, sem surpresa no fim do mês. R$ 59 ou R$ 599 fixos — independente de você processar 1k ou 100M tokens.

Sem rate limit · sem fila

Modelo só seu, processamento dedicado. Roda batches grandes (classificação, extração, embedding) sem esperar quota da OpenAI esgotar nem pagar tier premium.

Modelos open-source

Llama 3, Mistral, Mixtral, Qwen, DeepSeek — toda a família open-source roda nativamente via Ollama. Troque de modelo em segundos sem reescrever código.

Stack inclusa

Tudo pré-configurado · acessa pelo browser em 5 minutos

Setup automático: contratou, recebeu credenciais, abriu o Open WebUI e já tá conversando com a IA. Sem Docker, sem comando, sem dor de cabeça.

Ollama

Gerenciador de modelos open-source. Baixa, roda e troca modelos com 1 comando. Suporta Llama 3, Mistral, Mixtral, Qwen, Phi, Gemma, DeepSeek e dezenas de outros.

Open WebUI

Interface tipo ChatGPT pra você e sua equipe usarem no browser. Conversas salvas, multi-usuário, upload de documentos pra RAG, prompts compartilhados.

pgvector / Qdrant

Banco vetorial pra RAG (Retrieval-Augmented Generation). Indexe seus documentos e a IA responde com base no seu conteúdo, citando fonte. Plus+ tem Qdrant dedicado.

n8n · automação

Plus e Master vêm com n8n integrado. Conecte sua IA a Gmail, WhatsApp, Sheets, CRM, ERP — workflows visuais sem código, com nó Ollama nativo.

Compatibilidade

Quais modelos rodam em cada tier

Ollama tem 100+ modelos. A tabela mostra o sweet spot por tier — modelos maiores rodam, mas com latência mais alta.

PlanoModelos recomendadosVelocidade aprox.Casos de uso
Start (12 GB) Llama 3.2 3B · Phi-3 Mini · Gemma 2B 15-30 tok/s Chatbot simples, extração de dados, classificação
Pro (24 GB) Llama 3 8B · Mistral 7B · Qwen 2.5 7B 10-18 tok/s Atendimento, RAG sobre docs, agentes leves
Plus (48 GB) Mixtral 8x7B · Qwen 2.5 14B · CodeLlama 13B 6-12 tok/s RAG corporativo, multi-projeto, automação n8n
Master (96 GB) Llama 3 70B Q6 · Mixtral 8x7B · Qwen 32B 4-8 tok/s Análise complexa, multi-modelo simultâneo, RAG enterprise
Enterprise (120 GB) Mixtral 8x22B · Llama 3 70B Q8 · DeepSeek V3 2-5 tok/s Compliance LGPD, isolamento, auditoria, modelos 141B
Quando self-hosted ganha

Self-hosted vs OpenAI API · quando faz sentido

Conta simples: a partir de quantos tokens/mês o custo fixo do servidor compensa o custo variável da OpenAI.

VolumeOpenAI GPT-4o-miniRollin IA CloudVeredito
100k tokens/mês R$ 8 R$ 65 OpenAI ganha (baixo volume)
1M tokens/mês R$ 80 R$ 65 Empata (Start já compensa)
10M tokens/mês R$ 800 R$ 129 Self-hosted Pro 6× mais barato
100M tokens/mês R$ 8.000 R$ 549 Self-hosted Master 14× mais barato
Dados sensíveis Não aplicável (LGPD) R$ 699 Self-hosted Enterprise · única opção viável

Por que escolher Rollin IA Cloud em vez de Together.ai, Replicate ou RunPod

RecursoRollin IA CloudTogether.aiReplicateRunPod
Cobrança Mensal fixo (R$ 65-699) Por token Por segundo Por hora de GPU
Dado fica em Seu servidor (LGPD) Infra deles (US) Infra deles (US) Pod alocado
Stack inclusa Ollama + WebUI + RAG API only API only Você instala
Roda em CPU Sim (todos os planos) Só GPU Só GPU Só GPU
Faturamento BR NF-e + PIX USD USD USD
Suporte humano PT-BR 24/7 Apenas inglês Apenas inglês Apenas inglês

Servidor IA Cloud em números

  • DatacenterSão Paulo, Brasil (Tier III)
  • HardwareAMD EPYC + NVMe RAID
  • Planos5 (Start R$ 65 → Enterprise R$ 699)
  • RAM máxima120 GB (roda Mixtral 8x22B)
  • Stack pré-instaladaOllama + Open WebUI + pgvector + Qdrant + n8n
  • SetupAutomático em 5 minutos (cloud-init)
  • Modelos suportados100+ via Ollama (Llama, Mistral, Mixtral, Qwen, DeepSeek)
  • APIREST 100% compatível com OpenAI
Perguntas frequentes

Quem nunca rodou IA self-hosted, costuma perguntar:

Outra dúvida? Abre um ticket.

O que é o Servidor IA Cloud da Rollin Host?

É um servidor VPS pré-configurado com Ollama, Open WebUI, pgvector e Qdrant para rodar LLMs open-source (Llama 3, Mistral, Mixtral, Qwen, DeepSeek) no seu próprio servidor. 5 planos de R$ 65 a R$ 699/mês, com setup automático em 5 minutos. Você acessa pelo navegador (tipo ChatGPT) e via API REST compatível com OpenAI.

Quanto custa rodar IA self-hosted na Rollin Host?

De R$ 65/mês (Start, 12 GB RAM, Llama 3.2 3B) a R$ 699/mês (Enterprise, 120 GB RAM, Mixtral 8x22B). O mais popular é o Pro a R$ 129/mês — 24 GB RAM, roda Llama 3 8B com RAG via pgvector. Sem fidelidade, sem cobrança por token. NF-e e pagamento em real (PIX, boleto, cartão).

É lento sem GPU?

Sim, mais lento que GPU dedicada. Llama 3 8B em CPU faz 8-15 tokens/segundo — usável pra chat e automação, devagar pra streaming em tempo real. Pra uso humano (chat, RAG, automação) funciona bem; pra latência sub-segundo precisa GPU dedicada. Estamos avaliando tiers com GPU pra 2026.

Self-hosted vale a pena vs OpenAI?

Vale a partir de ~1 milhão de tokens/mês (Start R$ 65 já empata com R$ 80 da OpenAI no mesmo volume). A 10M tokens/mês, o Pro fica 6x mais barato; a 100M tokens, o Master fica 14x mais barato. Para dados sensíveis (LGPD), self-hosted é a única opção viável — APIs públicas não atendem compliance de saúde/jurídico/financeiro.

Posso trocar de modelo depois?

Sim, sem custo. Ollama tem 100+ modelos no catálogo (Llama, Mistral, Mixtral, Qwen, DeepSeek, Phi, Gemma, CodeLlama, etc). Você baixa quantos quiser e troca por comando. Só limite é o espaço em disco do plano.

Como funciona o RAG (busca semântica)?

A partir do plano Pro vem com pgvector instalado. Você sobe seus documentos (PDF, DOCX, MD), o sistema gera embeddings e indexa. Quando perguntar pra IA, ela consulta seus docs antes de responder e cita a fonte. Plus e Master têm Qdrant dedicado pra performance maior.

Posso integrar com WhatsApp / n8n / sistemas?

Sim. A partir do Plus vem n8n pré-instalado com nó Ollama nativo — você monta workflows visuais conectando Gmail, WhatsApp, Google Sheets, Postgres, APIs HTTP. Workflows comuns: classificar tickets, gerar resumos, responder leads, transcrever áudios.

É possível fazer fine-tuning?

Fine-tuning completo precisa GPU — não dá em CPU. Mas LoRA leve (modelos 3B-7B) roda nos planos Master/Enterprise com algumas horas de treino. Pra fine-tuning sério, recomendamos rodar localmente com GPU consumer (RTX 4090) e fazer deploy do modelo treinado no servidor.

Quais dados ficam no servidor?

TUDO: prompts, respostas, documentos do RAG, histórico de conversa. Zero envio pra terceiros. Apropriado pra LGPD desde o plano Start. No plano Enterprise vem com logs auditáveis, criptografia em disco e isolamento de rede pra compliance financeira/saúde.

Posso conectar via API (igual OpenAI)?

Sim. Ollama expõe API REST 100% compatível com OpenAI — basta apontar o SDK pra http://seu-servidor.rollin.host/v1 e usar como se fosse OpenAI. A partir do Master vem com LiteLLM pra proxy multi-modelo, balanceamento e rate limiting próprio.

Como migrar da OpenAI para o Servidor IA Cloud?

Em 3 passos: 1) contrate o plano (Pro é o mais comum para começar), 2) altere a base_url do SDK OpenAI para a URL do seu servidor (ex.: https://seu-servidor.rollin.host/v1), 3) escolha o modelo Ollama equivalente (Llama 3 8B substitui GPT-3.5; Mixtral substitui GPT-4 em muitos casos). Tempo médio de migração: 1-2 horas.

O servidor cai se modelo travar?

Não. Ollama roda como processo isolado, monitorado via systemd. Se modelo travar, reinicia sozinho sem afetar o servidor. Backup diário automático da configuração e dos modelos baixados. Pra alta disponibilidade real (HA) recomendamos 2 servidores com Caddy load balancer.

A Rollin Host é confiável para IA self-hosted?

Sim — Rollin Serviços Digitais e Tecnologia LTDA é empresa brasileira com datacenter Tier III em São Paulo, NF-e, faturamento em real e suporte humano 24/7 em português. Primeira cloud brasileira especializada em IA, com produtos dedicados a LLM, GPU, vector DB e agentes WhatsApp.

Pronto pra hospedar seu projeto de IA?

Comece em 5 minutos. Migração gratuita, suporte 24/7 em português e garantia de reembolso em 7 dias.