Servidor cloud preconfigurado con Ollama, Open WebUI y RAG. Ejecuta Llama 3, Mistral y Mixtral en tu servidor — sin cobro por mensaje, sin rate limit, sin enviar datos afuera.
Servidor IA Cloud Rollin Host es un VPS preconfigurado con Ollama, Open WebUI, pgvector y Qdrant para ejecutar LLMs open-source (Llama 3, Mistral, Mixtral, Qwen) en tu propio servidor. 5 planes desde US$ 12 hasta US$ 140/mes, con hasta 120 GB de RAM para ejecutar Mixtral 8x22B. Setup automático en 5 minutos, API REST compatible con OpenAI, datos 100% privados (LGPD) y soporte humano 24/7.
5 planes · preinstalación automática
Elige por el modelo que quieres ejecutar
Cada plan viene con un VPS dimensionado al modelo recomendado. Puedes cambiar el modelo en cualquier momento.
Es un VPS preconfigurado con Ollama, Open WebUI, pgvector y Qdrant para ejecutar LLMs open-source (Llama 3, Mistral, Mixtral, Qwen, DeepSeek) en tu propio servidor. 5 planes desde US$ 12 hasta US$ 140/mes, con setup automático en 5 minutos. Accedes desde el navegador (tipo ChatGPT) y vía API REST compatible con OpenAI.
¿Cuánto cuesta ejecutar IA self-hosted en Rollin Host?
Desde US$ 12/mes (Start, 12 GB RAM, Llama 3.2 3B) hasta US$ 140/mes (Enterprise, 120 GB RAM, Mixtral 8x22B). El más popular es Pro a US$ 26/mes — 24 GB RAM, corre Llama 3 8B con RAG vía pgvector. Sin permanencia, sin cobro por token.
¿Es lento sin GPU?
Sí, más lento que GPU dedicada. Llama 3 8B en CPU hace 8-15 tokens/segundo — usable para chat y automatización, lento para streaming en tiempo real.
¿Self-hosted vale la pena vs OpenAI?
Vale a partir de ~1 millón de tokens/mes (Start US$ 12 ya empata con US$ 16 de OpenAI al mismo volumen). A 10M tokens/mes, el Pro queda 6x más barato; a 100M tokens, el Master queda 20x más barato. Para datos sensibles (LGPD), self-hosted es la única opción viable.
¿Puedo cambiar de modelo después?
Sí, sin costo. Ollama tiene 100+ modelos. Cambias por comando, solo límite es el espacio en disco.
¿Cómo funciona el RAG?
Desde el plan Pro viene con pgvector. Subes documentos, el sistema genera embeddings e indexa. La IA responde citando la fuente.
¿Puedo integrar con WhatsApp / n8n?
Sí, desde el Plus viene n8n con nodo Ollama nativo. Workflows comunes: clasificar tickets, responder leads, transcribir audios.
¿Es posible hacer fine-tuning?
Fine-tuning completo necesita GPU. LoRA ligero (3B-7B) corre en Master/Enterprise con algunas horas de entrenamiento.
¿Qué datos quedan en el servidor?
TODO: prompts, respuestas, documentos RAG, historial. Cero envío a terceros.
¿Puedo conectar vía API (como OpenAI)?
Sí. Ollama expone API REST 100% compatible con OpenAI. Solo apunta el SDK a http://tu-servidor/v1.
¿Cómo migrar de OpenAI al Servidor IA Cloud?
En 3 pasos: 1) contrata el plan (Pro es el más común para empezar), 2) cambia base_url del SDK OpenAI a la URL de tu servidor, 3) elige el modelo Ollama equivalente (Llama 3 8B reemplaza GPT-3.5; Mixtral reemplaza GPT-4 en muchos casos). Tiempo medio de migración: 1-2 horas.
¿Se cae el servidor si el modelo se traba?
No. Ollama corre como proceso aislado, monitoreado vía systemd. Reinicia solo si traba.
¿Rollin Host es confiable para IA self-hosted?
Sí — Rollin Serviços Digitais e Tecnologia LTDA es una empresa brasileña con datacenter Tier III en São Paulo, NF-e, facturación en real y soporte humano 24/7. Primera nube brasileña especializada en IA.
Pronto pra hospedar seu projeto de IA?
Comece em 5 minutos. Migração gratuita, suporte 24/7 em português e garantia de reembolso em 7 dias.