Comparativa tecnica

Ollama, Together.ai o RunPod: cual elegir para LLM open-source?

Hospedar Llama 3, Mistral, Qwen y otros modelos open-source se volvio estrategia comun en 2026 — por costo, privacidad o customizacion. Las tres opciones principales: correr Ollama en VPS/CPU, usar API gestionada como Together.ai o alquilar GPU on-demand en RunPod.

TL;DR

Ollama en VPS Rollin (CPU) corre modelos pequenos cuantizados (Llama 3 8B, Phi-3, Qwen 2.5 7B) con latencia estable, sin fila de API, y costo fijo de R$ 169,90-439,00/mes. Together.ai es API gestionada con inferencia rapida y precios por token, sin operacion. RunPod ofrece GPU on-demand para modelos grandes (70B+) o fine-tuning.

Tabla comparativa

Recurso	Ollama en VPS Rollin	Together.ai	RunPod
Tipo de servicio	Self-hosted CPU	API gestionada (serverless)	GPU on-demand (IaaS)
Hardware	AMD EPYC + NVMe (CPU)	GPUs gestionadas	RTX 4090 / A100 / H100
Modelos soportados	Llama 3 8B, Mistral 7B, Qwen 2.5, Phi-3	Llama 3 70B, Mixtral, DeepSeek, +100	Cualquier modelo open-source
Latencia	Estable — sin fila de API compartida	200-400ms (US/UE)	150-350ms (varia)
Costo entrada	R$ 169,90/mes (Pro 4)	Pay-per-token	US$ 0.30-3.50/hora GPU
Costo por millon de tokens	Diluido en fijo	~US$ 0.20-0.90	Calculado por hora de GPU
Modelos grandes 70B+	Inviable en CPU	Soportado nativamente	Si, GPU adecuada
Fine-tuning	Limitado (CPU lento)	Si, gestionado	Si, control total en GPU
Privacidad (donde estan los datos?)	Tu VPS dedicada — bajo tu control (LGPD c/ salvaguardas)	Servidores Together (US, +DPA)	Servidores RunPod (US/UE)
Cold start	Cero	~1-5s (serverless)	30-120s (boot GPU)
Throughput tokens/seg	20-60 tok/s (8B en CPU)	50-200 tok/s	100-500 tok/s
Cobro	Fijo en reales (R$)	Por uso en USD	Por hora en USD
Vendor lock-in	Cero (open-source)	Medio (API propietaria)	Bajo
Operacion	Tu gestionas Ollama	Cero — solo la API	Tu subes Docker + container
Soporte humano en portugues	Si, 24/7 via Rollin	Solo ingles	Solo ingles

Pros de Ollama en VPS Rollin

Costo fijo previsible en reales
Latencia estable, sin fila de API compartida
Datos nunca salen de tu VPS
Corre en la misma maquina que n8n, EvolutionAPI, Qdrant
Cero cold start
Soporte humano 24/7 en portugues
Open-source: Llama, Mistral, Qwen, Phi

Pros de Together.ai

Acceso inmediato a 100+ modelos
Inferencia rapida con GPU
Pay-per-token
Sin ops
Excelente para cargas variables
Documentacion buena y SDKs
Soporta fine-tuning gestionado

Pros de RunPod

GPU on-demand: RTX 4090, A100, H100
Pricing horario flexible
Corre cualquier modelo
Ideal para fine-tuning
Modo serverless tambien disponible
Comunidad activa, templates Docker

Contras de Ollama en VPS Rollin

CPU limita modelos grandes
Throughput menor que GPU
Sin auto-scaling
Fine-tuning serio necesita GPU
Tu gestionas updates de Ollama

Contras de Together.ai

Latencia 200-400ms desde Brasil
Cobro en USD con IOF
Datos en servidores Together — DPA para LGPD
En volumen alto y estable, mas caro que self-hosted
Sin soporte en portugues
Limites de rate en modelos populares

Contras de RunPod

Cold start de 30-120s
Cobro en USD por hora
Tu eres responsable por Docker
Disponibilidad variable de GPUs
Sin soporte en portugues
Sin region BR

Cuando elegir cada

Usa Ollama en VPS Rollin si:

Corres chat o RAG con modelos hasta 13B en portugues, volumen previsible. Privacidad critica. Quieres latencia estable, sin fila de API compartida.

Usa Together.ai si:

Necesitas Llama 3 70B sin invertir en GPU. Cargas variables — prototipos, picos. Equipo pequeno sin DevOps.

Usa RunPod si:

Vas a hacer fine-tuning. Necesitas GPU para workloads especificos. Quieres control total del ambiente.

Usa combinacion si:

Ollama en VPS Rollin para produccion + Together.ai para fallback en modelos grandes + RunPod para fine-tuning.

Veredicto

Para la mayoria de casos brasilenos, Ollama en VPS Rollin entrega el mejor costo-beneficio con privacidad total y latencia estable. Honestamente, si necesitas modelo 70B+, Together.ai es claramente superior. RunPod es la herramienta correcta para fine-tuning. Rollin Host no ofrece GPU dedicada en 2026, asi que si tu caso es fine-tuning serio, usa RunPod sin culpa.

Preguntas frecuentes

Puedo correr Llama 3 8B en CPU?

Si. Con cuantizacion Q4 o Q5 (GGUF), Llama 3 8B corre en VPS con 8-16 GB RAM y AMD EPYC entrega 20-40 tokens/segundo.

Cuanto cuesta Together.ai en 2026?

Together.ai cobra por token. Llama 3 8B cuesta ~US$ 0.20/M tokens, Llama 3 70B en torno de US$ 0.90/M tokens.

RunPod tiene datacenter en Brasil?

En 2026, RunPod no tiene region en Brasil. Las regiones mas usadas son US-East, US-West y EU.

Ollama soporta function calling?

Si, desde la version 0.3+ Ollama soporta tool/function calling con modelos compatibles.

Puedo hacer fine-tuning en Ollama?

Tecnicamente si, pero impractico en CPU. Para fine-tuning serio, usa RunPod con GPU.

Together.ai es LGPD compatible?

Together.ai ofrece DPA firmable. Como datos pasan por servidores en EE.UU., revisa el caso con tu DPO.

Cual VPS Rollin recomendada para Ollama?

Pro 4 (R$ 169,90/mes) corre Llama 3 8B Q4. Para Mistral 7B + RAG simultaneo, Pro 6.

Cual el throughput de Llama 3 70B en RunPod?

En una A100 80GB, Llama 3 70B FP8 entrega ~80-150 tokens/segundo. En H100, sube a ~200-400 tok/s.

Puedo embedar con Ollama?

Si. Ollama soporta modelos de embedding como nomic-embed-text y mxbai-embed-large.

Together.ai tiene chat playground?

Si, Together.ai tiene playground web para probar modelos antes de integrar via API.

Como subir Ollama en una VPS Rollin?

curl -fsSL https://ollama.com/install.sh | sh — luego ollama pull llama3.1:8b-instruct-q4_K_M.

RunPod vs Vast.ai, cual es mejor?

RunPod tiene UX mas pulida y templates oficiales. Vast.ai es mas barato pero con mas friccion. Para equipos sin DevOps, RunPod.

Listo para hospedar tu LLM open-source con privacidad?

VPS Cloud AMD EPYC + NVMe desde R$ 169,90/mes. Ollama, Llama 3, Mistral en minutos.

Ver VPS para LLM