Migração 100% grátis + 1 mês grátis com cupom MIGRAR1MES · novos clientes em planos até R$ 200/mês Migrar agora
IA con tus datos · cero envío a OpenAI/Google

Tu IA propia, en tu servidor.

Servidor cloud preconfigurado con Ollama, Open WebUI y RAG. Ejecuta Llama 3, Mistral y Mixtral en tu servidor — sin cobro por mensaje, sin rate limit, sin enviar datos afuera.

Servidor IA Cloud Rollin Host es un VPS preconfigurado con Ollama, Open WebUI, pgvector y Qdrant para ejecutar LLMs open-source (Llama 3, Mistral, Mixtral, Qwen) en tu propio servidor. 5 planes desde US$ 12 hasta US$ 140/mes, con hasta 120 GB de RAM para ejecutar Mixtral 8x22B. Setup automático en 5 minutos, API REST compatible con OpenAI, datos 100% privados (LGPD) y soporte humano 24/7.

5 planes · preinstalación automática

Elige por el modelo que quieres ejecutar

Cada plan viene con un VPS dimensionado al modelo recomendado. Puedes cambiar el modelo en cualquier momento.

Por qué self-hosted

Cuatro razones para dejar de pagar OpenAI por mensaje

La IA self-hosted tiene sentido cuando privacidad, costo predecible e independencia valen más que la última feature de GPT.

Privacidad total

Tus datos nunca salen del servidor. Cero envío a OpenAI, Anthropic o Google. Crítico para salud, legal, financiero y cualquier dato sensible.

Costo fijo mensual

Pagas solo el servidor. Sin cobro por token, sin sorpresas. US$ 12 o US$ 120 fijos, sin importar 1k o 100M tokens procesados.

Sin rate limit · sin cola

Modelo dedicado, procesamiento exclusivo. Ejecuta batches grandes sin esperar quota de OpenAI ni pagar tier premium.

Modelos open-source

Llama 3, Mistral, Mixtral, Qwen, DeepSeek — toda la familia open-source corre nativamente vía Ollama. Cambia de modelo en segundos.

Stack incluida

Todo preconfigurado · accedes desde el navegador en 5 minutos

Setup automático: contratas, recibes credenciales, abres Open WebUI y ya estás conversando con la IA.

Ollama

Gestor de modelos open-source. Descarga, ejecuta y cambia modelos con 1 comando. Soporta Llama 3, Mistral, Mixtral, Qwen, Phi, Gemma, DeepSeek y decenas más.

Open WebUI

Interfaz tipo ChatGPT para tu equipo en el navegador. Conversaciones guardadas, multi-usuario, upload de docs para RAG, prompts compartidos.

pgvector / Qdrant

Base vectorial para RAG. Indexa tus documentos y la IA responde con base en tu contenido, citando fuente. Plus+ trae Qdrant dedicado.

n8n · automatización

Plus y Master vienen con n8n integrado. Conecta tu IA a Gmail, WhatsApp, Sheets, CRM, ERP — workflows visuales sin código.

Compatibilidad

Qué modelos corren en cada tier

Ollama tiene 100+ modelos. La tabla muestra el sweet spot por tier.

PlanModelos recomendadosVelocidad aprox.Casos de uso
Start Llama 3.2 3B · Phi-3 Mini · Gemma 2B 15-30 tok/s Chatbot simple, extracción de datos, clasificación
Pro Llama 3 8B · Mistral 7B · Qwen 2.5 7B 8-15 tok/s Atención, RAG sobre docs, agentes ligeros
Plus Llama 3 8B · Qwen 2.5 14B · CodeLlama 13B 5-10 tok/s RAG corporativo, multi-proyecto, automatización n8n
Master Mixtral 8x7B · Llama 3 70B Q4 · Qwen 2.5 32B 3-8 tok/s Análisis complejo, múltiples modelos simultáneos
Enterprise Llama 3 70B · Mixtral 8x22B · DeepSeek V3 2-5 tok/s Compliance, aislamiento, auditoría
Cuándo gana self-hosted

Self-hosted vs OpenAI API · cuándo tiene sentido

Cuenta simple: a partir de cuántos tokens/mes el costo fijo del servidor compensa el variable de OpenAI.

VolumeOpenAI GPT-4o-miniRollin IA CloudVeredito
100k tokens/mes US$ 1.5 US$ 12 OpenAI gana (volumen bajo)
1M tokens/mes US$ 16 US$ 12 Empata (Start compensa)
10M tokens/mes US$ 160 US$ 26 Self-hosted Pro 6× más barato
100M tokens/mes US$ 1.600 US$ 78 Self-hosted Master 20× más barato
Datos sensibles No aplicable US$ 120 Self-hosted Enterprise · única opción viable

Por qué elegir Rollin IA Cloud en lugar de Together.ai, Replicate o RunPod

RecursoRollin IA CloudTogether.aiReplicateRunPod
Cobro Mensual fijo (US$ 12-140) Por token Por segundo Por hora de GPU
Dato queda en Tu servidor (LGPD) Su infra (US) Su infra (US) Pod asignado
Stack incluida Ollama + WebUI + RAG Solo API Solo API Tú instalas
Corre en CPU Sí (todos los planes) Solo GPU Solo GPU Solo GPU
Facturación BR NF-e + PIX USD USD USD
Soporte humano 24/7 Solo inglés Solo inglés Solo inglés

Servidor IA Cloud en números

  • DatacenterSão Paulo, Brasil (Tier III)
  • HardwareAMD EPYC + NVMe RAID
  • Planes5 (Start US$ 12 → Enterprise US$ 140)
  • RAM máxima120 GB (corre Mixtral 8x22B)
  • Stack preinstaladaOllama + Open WebUI + pgvector + Qdrant + n8n
  • SetupAutomático en 5 minutos (cloud-init)
  • Modelos soportados100+ vía Ollama
  • APIREST 100% compatible con OpenAI
Preguntas frecuentes

Quien nunca ejecutó IA self-hosted, suele preguntar:

¿Otra duda? Abre un ticket.

¿Qué es el Servidor IA Cloud de Rollin Host?

Es un VPS preconfigurado con Ollama, Open WebUI, pgvector y Qdrant para ejecutar LLMs open-source (Llama 3, Mistral, Mixtral, Qwen, DeepSeek) en tu propio servidor. 5 planes desde US$ 12 hasta US$ 140/mes, con setup automático en 5 minutos. Accedes desde el navegador (tipo ChatGPT) y vía API REST compatible con OpenAI.

¿Cuánto cuesta ejecutar IA self-hosted en Rollin Host?

Desde US$ 12/mes (Start, 12 GB RAM, Llama 3.2 3B) hasta US$ 140/mes (Enterprise, 120 GB RAM, Mixtral 8x22B). El más popular es Pro a US$ 26/mes — 24 GB RAM, corre Llama 3 8B con RAG vía pgvector. Sin permanencia, sin cobro por token.

¿Es lento sin GPU?

Sí, más lento que GPU dedicada. Llama 3 8B en CPU hace 8-15 tokens/segundo — usable para chat y automatización, lento para streaming en tiempo real.

¿Self-hosted vale la pena vs OpenAI?

Vale a partir de ~1 millón de tokens/mes (Start US$ 12 ya empata con US$ 16 de OpenAI al mismo volumen). A 10M tokens/mes, el Pro queda 6x más barato; a 100M tokens, el Master queda 20x más barato. Para datos sensibles (LGPD), self-hosted es la única opción viable.

¿Puedo cambiar de modelo después?

Sí, sin costo. Ollama tiene 100+ modelos. Cambias por comando, solo límite es el espacio en disco.

¿Cómo funciona el RAG?

Desde el plan Pro viene con pgvector. Subes documentos, el sistema genera embeddings e indexa. La IA responde citando la fuente.

¿Puedo integrar con WhatsApp / n8n?

Sí, desde el Plus viene n8n con nodo Ollama nativo. Workflows comunes: clasificar tickets, responder leads, transcribir audios.

¿Es posible hacer fine-tuning?

Fine-tuning completo necesita GPU. LoRA ligero (3B-7B) corre en Master/Enterprise con algunas horas de entrenamiento.

¿Qué datos quedan en el servidor?

TODO: prompts, respuestas, documentos RAG, historial. Cero envío a terceros.

¿Puedo conectar vía API (como OpenAI)?

Sí. Ollama expone API REST 100% compatible con OpenAI. Solo apunta el SDK a http://tu-servidor/v1.

¿Cómo migrar de OpenAI al Servidor IA Cloud?

En 3 pasos: 1) contrata el plan (Pro es el más común para empezar), 2) cambia base_url del SDK OpenAI a la URL de tu servidor, 3) elige el modelo Ollama equivalente (Llama 3 8B reemplaza GPT-3.5; Mixtral reemplaza GPT-4 en muchos casos). Tiempo medio de migración: 1-2 horas.

¿Se cae el servidor si el modelo se traba?

No. Ollama corre como proceso aislado, monitoreado vía systemd. Reinicia solo si traba.

¿Rollin Host es confiable para IA self-hosted?

Sí — Rollin Serviços Digitais e Tecnologia LTDA es una empresa brasileña con datacenter Tier III en São Paulo, NF-e, facturación en real y soporte humano 24/7. Primera nube brasileña especializada en IA.

Pronto pra hospedar seu projeto de IA?

Comece em 5 minutos. Migração gratuita, suporte 24/7 em português e garantia de reembolso em 7 dias.