Migração 100% grátis + 1 mês grátis com cupom MIGRAR1MES · novos clientes em planos até R$ 200/mês Migrar agora
IA con tus datos · cero envío a OpenAI/Google

Tu IA propia, en tu servidor.

Servidor cloud preconfigurado con Ollama, Open WebUI y RAG. Ejecuta Llama 3, Mistral y Mixtral en tu servidor — sin cobro por mensaje, sin rate limit, sin enviar datos afuera.

5 planes · preinstalación automática

Elige por el modelo que quieres ejecutar

Cada plan viene con un VPS dimensionado al modelo recomendado. Puedes cambiar el modelo en cualquier momento.

Por qué self-hosted

Cuatro razones para dejar de pagar OpenAI por mensaje

La IA self-hosted tiene sentido cuando privacidad, costo predecible e independencia valen más que la última feature de GPT.

Privacidad total

Tus datos nunca salen del servidor. Cero envío a OpenAI, Anthropic o Google. Crítico para salud, legal, financiero y cualquier dato sensible.

Costo fijo mensual

Pagas solo el servidor. Sin cobro por token, sin sorpresas. US$ 12 o US$ 120 fijos, sin importar 1k o 100M tokens procesados.

Sin rate limit · sin cola

Modelo dedicado, procesamiento exclusivo. Ejecuta batches grandes sin esperar quota de OpenAI ni pagar tier premium.

Modelos open-source

Llama 3, Mistral, Mixtral, Qwen, DeepSeek — toda la familia open-source corre nativamente vía Ollama. Cambia de modelo en segundos.

Stack incluida

Todo preconfigurado · accedes desde el navegador en 5 minutos

Setup automático: contratas, recibes credenciales, abres Open WebUI y ya estás conversando con la IA.

Ollama

Gestor de modelos open-source. Descarga, ejecuta y cambia modelos con 1 comando. Soporta Llama 3, Mistral, Mixtral, Qwen, Phi, Gemma, DeepSeek y decenas más.

Open WebUI

Interfaz tipo ChatGPT para tu equipo en el navegador. Conversaciones guardadas, multi-usuario, upload de docs para RAG, prompts compartidos.

pgvector / Qdrant

Base vectorial para RAG. Indexa tus documentos y la IA responde con base en tu contenido, citando fuente. Plus+ trae Qdrant dedicado.

n8n · automatización

Plus y Master vienen con n8n integrado. Conecta tu IA a Gmail, WhatsApp, Sheets, CRM, ERP — workflows visuales sin código.

Compatibilidad

Qué modelos corren en cada tier

Ollama tiene 100+ modelos. La tabla muestra el sweet spot por tier.

PlanModelos recomendadosVelocidad aprox.Casos de uso
Start Llama 3.2 3B · Phi-3 Mini · Gemma 2B 15-30 tok/s Chatbot simple, extracción de datos, clasificación
Pro Llama 3 8B · Mistral 7B · Qwen 2.5 7B 8-15 tok/s Atención, RAG sobre docs, agentes ligeros
Plus Llama 3 8B · Qwen 2.5 14B · CodeLlama 13B 5-10 tok/s RAG corporativo, multi-proyecto, automatización n8n
Master Mixtral 8x7B · Llama 3 70B Q4 · Qwen 2.5 32B 3-8 tok/s Análisis complejo, múltiples modelos simultáneos
Enterprise Llama 3 70B · Mixtral 8x22B · DeepSeek V3 2-5 tok/s Compliance, aislamiento, auditoría
Cuándo gana self-hosted

Self-hosted vs OpenAI API · cuándo tiene sentido

Cuenta simple: a partir de cuántos tokens/mes el costo fijo del servidor compensa el variable de OpenAI.

VolumeOpenAI GPT-4o-miniRollin IA CloudVeredito
100k tokens/mes US$ 1.5 US$ 12 OpenAI gana (volumen bajo)
1M tokens/mes US$ 16 US$ 12 Empata (Start compensa)
10M tokens/mes US$ 160 US$ 26 Self-hosted Pro 6× más barato
100M tokens/mes US$ 1.600 US$ 78 Self-hosted Master 20× más barato
Datos sensibles No aplicable US$ 120 Self-hosted Enterprise · única opción viable
Preguntas frecuentes

Quien nunca ejecutó IA self-hosted, suele preguntar:

¿Otra duda? Abre un ticket.

¿Es lento sin GPU?

Sí, más lento que GPU dedicada. Llama 3 8B en CPU hace 8-15 tokens/segundo — usable para chat y automatización, lento para streaming en tiempo real.

¿Puedo cambiar de modelo después?

Sí, sin costo. Ollama tiene 100+ modelos. Cambias por comando, solo límite es el espacio en disco.

¿Cómo funciona el RAG?

Desde el plan Pro viene con pgvector. Subes documentos, el sistema genera embeddings e indexa. La IA responde citando la fuente.

¿Puedo integrar con WhatsApp / n8n?

Sí, desde el Plus viene n8n con nodo Ollama nativo. Workflows comunes: clasificar tickets, responder leads, transcribir audios.

¿Es posible hacer fine-tuning?

Fine-tuning completo necesita GPU. LoRA ligero (3B-7B) corre en Master/Enterprise con algunas horas de entrenamiento.

¿Qué datos quedan en el servidor?

TODO: prompts, respuestas, documentos RAG, historial. Cero envío a terceros.

¿Puedo conectar vía API (como OpenAI)?

Sí. Ollama expone API REST 100% compatible con OpenAI. Solo apunta el SDK a http://tu-servidor/v1.

¿Se cae el servidor si el modelo se traba?

No. Ollama corre como proceso aislado, monitoreado vía systemd. Reinicia solo si traba.

Pronto pra hospedar seu projeto de IA?

Comece em 5 minutos. Migração gratuita, suporte 24/7 em português e garantia de reembolso em 7 dias.