Migração 100% grátis · nossa equipe migra tudo pra você e o 1º mês fica por nossa conta · novos clientes Migrar agora

Agente de IA no WhatsApp por R$ 299/mês · stack montada e gerenciada pelo nosso time Quero meu agente

VPS com OpenClaw pré-instalado · 1ª mensalidade de ~~R$ 56,90~~ por R$ 29,99 (-47%) · gerenciada pela Rollin Quero a VPS

VPS com Hermes Agent pré-instalado · 1ª mensalidade de ~~R$ 56,90~~ por R$ 29,99 (-47%) · gerenciada pela Rollin Quero a VPS

Hospedagem com 30 dias de garantia · Não gostou? Devolvemos 100%, sem perguntas. Ver hospedagem

IA con tus datos · cero envío a OpenAI/Google

Tu IA propia, en tu servidor.

Servidor cloud preconfigurado con Ollama, Open WebUI y RAG. Ejecuta Llama 3, Mistral y Mixtral en tu servidor — sin cobro por mensaje, sin rate limit, sin enviar datos afuera.

Ver los 5 planes ¿Por qué self-hosted?

Servidor IA Cloud Rollin Host es un VPS preconfigurado con Ollama, Open WebUI, pgvector y Qdrant para ejecutar LLMs open-source (Llama 3, Mistral, Mixtral, Qwen) en tu propio servidor. 5 planes desde US$ 16 hasta US$ 143/mes, con hasta 96 GB de RAM para ejecutar Llama 3 70B Q6 o Mixtral 8x22B Q4. Setup automático en 5 minutos, API REST compatible con OpenAI, datos 100% privados (LGPD) y soporte humano 24/7.

5 planes · preinstalación automática

Elige por el modelo que quieres ejecutar

Cada plan viene con un VPS dimensionado al modelo recomendado. Puedes cambiar el modelo en cualquier momento.

Start

IA Cloud Start

US$ 16.18/mes

sin permanencia · cancela cuando quieras

Contratar ahora Hablar con una persona

8 GB RAM · 4 vCPU AMD EPYC · 75 GB NVMe
Ollama + Open WebUI pré-instalados
Roda Phi-3 Mini · Gemma 2B · Llama 3.2 3B Q4
API REST 100% compatível com OpenAI
HTTPS automático com seu subdomínio
Backup diário dos modelos e chats
Suporte humano 24/7 em PT-BR

Mais escolhido

IA Cloud Pro

US$ 23.45/mes

sin permanencia · cancela cuando quieras

Contratar ahora Hablar con una persona

12 GB RAM · 6 vCPU AMD EPYC · 100 GB NVMe
Tudo do Start + pgvector pra RAG
Roda Llama 3.2 3B · Mistral 7B Q4 · Qwen 2.5 7B Q4
Upload de documentos com indexação automática
Multi-usuário no Open WebUI com permissões
API com chave própria por equipe

Plus

IA Cloud Plus

US$ 41.64/mes

sin permanencia · cancela cuando quieras

Contratar ahora Hablar con una persona

24 GB RAM · 8 vCPU AMD EPYC · 200 GB NVMe
Tudo do Pro + Qdrant + n8n
Roda Llama 3 8B · Mistral 7B FP16 · Qwen 2.5 14B Q4
Workflows n8n com nó Ollama nativo
RAG corporativo multi-projeto
Backup criptografado em disco

Master

IA Cloud Master

US$ 108.91/mes

sin permanencia · cancela cuando quieras

Contratar ahora Hablar con una persona

64 GB RAM · 16 vCPU AMD EPYC · 300 GB NVMe
Tudo do Plus + LiteLLM proxy multi-modelo
Roda Mixtral 8x7B · Llama 3 70B Q4 · Qwen 32B
Múltiplos modelos em paralelo (8B-13B) ou 1 grande
Rate limiting e balanceamento próprios
Suporte prioritário com SLA 4h

Enterprise

IA Cloud Enterprise

US$ 143.45/mes

sin permanencia · cancela cuando quieras

Contratar ahora Hablar con una persona

96 GB RAM · 18 vCPU AMD EPYC · 350 GB NVMe
Tudo do Master + logs auditáveis LGPD
Roda Llama 3 70B Q6 · Mixtral 8x22B Q4 · DeepSeek V3 Q4
Isolamento de rede + criptografia em disco
Conformidade pra bancos / jurídico / saúde
SLA 99,9% contratual · onboarding dedicado

Por qué self-hosted

Cuatro razones para dejar de pagar OpenAI por mensaje

La IA self-hosted tiene sentido cuando privacidad, costo predecible e independencia valen más que la última feature de GPT.

Privacidad total

Tus datos nunca salen del servidor. Cero envío a OpenAI, Anthropic o Google. Crítico para salud, legal, financiero y cualquier dato sensible.

Costo fijo mensual

Pagas solo el servidor. Sin cobro por token, sin sorpresas. US$ 16 o US$ 143 fijos, sin importar 1k o 100M tokens procesados.

Sin rate limit · sin cola

Modelo dedicado, procesamiento exclusivo. Ejecuta batches grandes sin esperar quota de OpenAI ni pagar tier premium.

Modelos open-source

Llama 3, Mistral, Mixtral, Qwen, DeepSeek — toda la familia open-source corre nativamente vía Ollama. Cambia de modelo en segundos.

Stack incluida

Todo preconfigurado · accedes desde el navegador en 5 minutos

Setup automático: contratas, recibes credenciales, abres Open WebUI y ya estás conversando con la IA.

Ollama

Gestor de modelos open-source. Descarga, ejecuta y cambia modelos con 1 comando. Soporta Llama 3, Mistral, Mixtral, Qwen, Phi, Gemma, DeepSeek y decenas más.

Open WebUI

Interfaz tipo ChatGPT para tu equipo en el navegador. Conversaciones guardadas, multi-usuario, upload de docs para RAG, prompts compartidos.

pgvector / Qdrant

Base vectorial para RAG. Indexa tus documentos y la IA responde con base en tu contenido, citando fuente. Plus+ trae Qdrant dedicado.

n8n · automatización

Plus y Master vienen con n8n integrado. Conecta tu IA a Gmail, WhatsApp, Sheets, CRM, ERP — workflows visuales sin código.

Compatibilidad

Qué modelos corren en cada tier

Ollama tiene 100+ modelos. La tabla muestra el sweet spot por tier.

Plan	Modelos recomendados	Velocidad aprox.	Casos de uso
Start (8 GB)	Phi-3 Mini · Gemma 2B · Llama 3.2 3B Q4	20-40 tok/s	Chatbot simple, extracción de datos, clasificación
Pro (12 GB)	Llama 3.2 3B · Mistral 7B Q4 · Qwen 7B Q4	12-22 tok/s	Atención, RAG sobre docs, agentes ligeros
Plus (24 GB)	Llama 3 8B · Mistral 7B FP16 · Qwen 14B Q4	8-15 tok/s	RAG corporativo, multi-proyecto, automatización n8n
Master (64 GB)	Mixtral 8x7B · Llama 3 70B Q4 · Qwen 32B	4-9 tok/s	Análisis complejo, múltiples modelos simultáneos
Enterprise (96 GB)	Llama 3 70B Q6 · Mixtral 8x22B Q4 · DeepSeek V3 Q4	2-6 tok/s	Compliance, aislamiento, auditoría

Cuándo gana self-hosted

Self-hosted vs OpenAI API · cuándo tiene sentido

Cuenta simple: a partir de cuántos tokens/mes el costo fijo del servidor compensa el variable de OpenAI.

Volume	OpenAI GPT-4o-mini	Rollin IA Cloud	Veredito
100k tokens/mes	US$ 1.5	US$ 16	OpenAI gana (volumen bajo)
1M tokens/mes	US$ 16	US$ 16	Empata (Start compensa)
10M tokens/mes	US$ 160	US$ 23	Self-hosted Pro 7× más barato
100M tokens/mes	US$ 1.600	US$ 109	Self-hosted Master 15× más barato
Datos sensibles	No aplicable	US$ 143	Self-hosted Enterprise · única opción viable

Por qué elegir Rollin IA Cloud en lugar de Together.ai, Replicate o RunPod

Recurso	Rollin IA Cloud	Together.ai	Replicate	RunPod
Cobro	Mensual fijo (US$ 16-143)	Por token	Por segundo	Por hora de GPU
Dato queda en	Tu servidor (LGPD)	Su infra (US)	Su infra (US)	Pod asignado
Stack incluida	Ollama + WebUI + RAG	Solo API	Solo API	Tú instalas
Corre en CPU	Sí (todos los planes)	Solo GPU	Solo GPU	Solo GPU
Facturación BR	NF-e + PIX	USD	USD	USD
Soporte humano	24/7	Solo inglés	Solo inglés	Solo inglés

Servidor IA Cloud en números

DatacenterSão Paulo, Brasil (Tier III)
HardwareAMD EPYC + NVMe RAID
Planes5 (Start US$ 16 → Enterprise US$ 143)
RAM máxima96 GB (corre Llama 3 70B Q6 o Mixtral 8x22B Q4)
Stack preinstaladaOllama + Open WebUI + pgvector + Qdrant + n8n
SetupAutomático en 5 minutos (cloud-init)
Modelos soportados100+ vía Ollama
APIREST 100% compatible con OpenAI

Preguntas frecuentes

Quien nunca ejecutó IA self-hosted, suele preguntar:

¿Otra duda? Abre un ticket.

¿Qué es el Servidor IA Cloud de Rollin Host?

Es un VPS preconfigurado con Ollama, Open WebUI, pgvector y Qdrant para ejecutar LLMs open-source (Llama 3, Mistral, Mixtral, Qwen, DeepSeek) en tu propio servidor. 5 planes desde US$ 16 hasta US$ 143/mes, con setup automático en 5 minutos. Accedes desde el navegador (tipo ChatGPT) y vía API REST compatible con OpenAI.

¿Cuánto cuesta ejecutar IA self-hosted en Rollin Host?

Desde US$ 16/mes (Start, 8 GB RAM, Phi-3 Mini) hasta US$ 143/mes (Enterprise, 96 GB RAM, Llama 3 70B Q6 o Mixtral 8x22B Q4). El más popular es Pro a US$ 23/mes — 12 GB RAM, corre Llama 3.2 3B con RAG vía pgvector. Sin permanencia, sin cobro por token.

¿Es lento sin GPU?

Sí, más lento que GPU dedicada. Llama 3 8B en CPU hace 8-15 tokens/segundo — usable para chat y automatización, lento para streaming en tiempo real.

¿Self-hosted vale la pena vs OpenAI?

Vale a partir de ~1 millón de tokens/mes (Start US$ 16 ya empata con US$ 16 de OpenAI al mismo volumen). A 10M tokens/mes, el Pro queda 7x más barato; a 100M tokens, el Master queda 15x más barato. Para datos sensibles (LGPD), self-hosted es la única opción viable.

¿Puedo cambiar de modelo después?

Sí, sin costo. Ollama tiene 100+ modelos. Cambias por comando, solo límite es el espacio en disco.

¿Cómo funciona el RAG?

Desde el plan Pro viene con pgvector. Subes documentos, el sistema genera embeddings e indexa. La IA responde citando la fuente.

¿Puedo integrar con WhatsApp / n8n?

Sí, desde el Plus viene n8n con nodo Ollama nativo. Workflows comunes: clasificar tickets, responder leads, transcribir audios.

¿Es posible hacer fine-tuning?

Fine-tuning completo necesita GPU. LoRA ligero (3B-7B) corre en Master/Enterprise con algunas horas de entrenamiento.

¿Qué datos quedan en el servidor?

TODO: prompts, respuestas, documentos RAG, historial. Cero envío a terceros.

¿Puedo conectar vía API (como OpenAI)?

Sí. Ollama expone API REST 100% compatible con OpenAI. Solo apunta el SDK a http://tu-servidor/v1.

¿Cómo migrar de OpenAI al Servidor IA Cloud?

En 3 pasos: 1) contrata el plan (Pro es el más común para empezar), 2) cambia base_url del SDK OpenAI a la URL de tu servidor, 3) elige el modelo Ollama equivalente (Llama 3 8B reemplaza GPT-3.5; Mixtral reemplaza GPT-4 en muchos casos). Tiempo medio de migración: 1-2 horas.

¿Se cae el servidor si el modelo se traba?

No. Ollama corre como proceso aislado, monitoreado vía systemd. Reinicia solo si traba.

¿Rollin Host es confiable para IA self-hosted?

Sí — Rollin Serviços Digitais e Tecnologia LTDA es una empresa brasileña con datacenter Tier III internacional, con CDN en Brasil, NF-e, facturación en real y soporte humano 24/7. Primera nube brasileña especializada en IA.

Pronto pra hospedar seu projeto de IA?

Comece em 5 minutos. Migração gratuita, suporte 24/7 em português e garantia de reembolso de 7 dias (30 dias em hospedagem de sites e WordPress).

Contratar agora Falar no WhatsApp