¿Qué es el Servidor para LLM de Rollin Host?
Es un servidor con GPU NVIDIA dedicada, pensado para alojar y ejecutar LLMs (Large Language Models) open-source — como Llama 3, Mistral, DeepSeek, Qwen y Gemma. Viene con Ollama, vLLM y llama.cpp preinstalados. Ejecutas inferencia y, en el plan Pro, fine-tuning, con la GPU 100% tuya.
¿Qué plan elegir — Inferencia o Pro?
El plan Inferencia (GPU 20 GB) sirve modelos de 7B a 13B en producción sólida — Llama 3 8B, Mistral 7B, Phi-3, Gemma 2. El plan Pro (GPU 96 GB) corre modelos grandes (Llama 3 70B, Mixtral 8×22B, DeepSeek R1) y permite fine-tuning.
¿Cuánto cuesta alojar un LLM en Rollin Host?
El plan Inferencia cuesta US$ 649,80/mes y el Pro US$ 2.575,80/mes. Hay un cargo de setup único de US$ 259,80 (cubre la preparación del servidor con GPU, drivers CUDA y las herramientas de IA). Sin permanencia.
¿En cuánto tiempo queda listo el servidor?
El aprovisionamiento de servidores con GPU toma hasta 48 horas hábiles. A diferencia de una VPS común, los servidores GPU tienen stock limitado y preparación dedicada. El flujo es: solicitas el plan, confirmamos disponibilidad y entrega, y aprovisionamos.
¿Los datos quedan privados?
Sí, totalmente. El modelo corre en tu servidor — prompts, respuestas y datos de entrenamiento nunca salen de tu infraestructura. Es la diferencia fundamental con APIs como OpenAI o Anthropic, donde todo el contenido se envía a servidores de terceros.
¿Qué modelos y herramientas funcionan?
Cualquier LLM open-source: Llama 3, Mistral, Mixtral, DeepSeek, Qwen, Gemma, Phi-3 y otros. Las herramientas Ollama, vLLM y llama.cpp ya vienen instaladas. En el plan Pro también Hugging Face Transformers, Accelerate y PEFT para fine-tuning.
¿Puedo hacer fine-tuning?
Sí, en el plan Pro (GPU 96 GB). Soporta LoRA, QLoRA, DPO y DeepSpeed — adaptas un modelo open-source a tus datos y dominio. El plan Inferencia se enfoca en servir modelos, no entrenar.
¿Vale la pena alojar un LLM propio en lugar de usar OpenAI?
Vale cuando el volumen es alto (a partir de ~10 millones de tokens/mes) o cuando los datos son sensibles (salud, legal, financiero). El costo es fijo (sin sorpresas por token), los datos quedan en tu infraestructura y cambias de modelo sin reescribir código. Para volumen bajo y datos no sensibles, la API per-token sigue siendo más barata.
¿Cuál es la diferencia entre el Servidor para LLM y el Servidor IA Cloud?
El Servidor para LLM tiene GPU NVIDIA dedicada — alto rendimiento para inferencia en producción y fine-tuning. El Servidor IA Cloud corre Ollama en CPU (sin GPU), mucho más barato, ideal para chat interno, RAG corporativo y automatizaciones donde 8-15 tokens/segundo ya alcanzan.
¿Cómo migrar de OpenAI/Anthropic al Servidor para LLM?
Ollama y vLLM exponen una API REST 100% compatible con OpenAI — solo apuntas el SDK a la URL de tu servidor (ej.: https://tu-servidor.rollin.host/v1) y lo usas como si fuera OpenAI. Modelos open-source equivalentes al GPT-4 (Llama 3 70B, Mixtral 8×22B, DeepSeek R1) corren en el plan Pro.
¿Rollin Host es confiable para infraestructura de IA?
Sí — Rollin Serviços Digitais e Tecnologia LTDA es una empresa brasileña con datacenter Tier III en São Paulo, NF-e, facturación en real y soporte humano 24/7. Es la primera nube brasileña especializada en IA, con productos dedicados a LLM, GPU, vector DB y agentes WhatsApp.
¿Hay soporte humano?
Sí — soporte humano 24/7, con gente que entiende CUDA, Ollama, vLLM y fine-tuning. Rollin Host es una empresa brasileña (Rollin Serviços Digitais e Tecnologia LTDA).