Comparativo tecnico

Ollama, Together.ai ou RunPod: qual escolher pra LLM open-source?

Hospedar Llama 3, Mistral, Qwen e outros modelos open-source virou estrategia comum em 2026 — seja por custo (token API ficou previsivel), privacidade (dados nao saem do controle) ou customizacao (fine-tuning livre). As tres opcoes principais sao: rodar Ollama em VPS/CPU, usar API gerenciada como Together.ai ou alugar GPU on-demand no RunPod. Cada uma resolve um caso diferente.

TL;DR

Ollama em VPS Rollin (CPU) roda modelos pequenos quantizados (Llama 3 8B, Phi-3, Qwen 2.5 7B) com latencia estavel, sem fila de API, e custo fixo de R$ 169,90-439,00/mes. Together.ai e API gerenciada com inferencia rapida e precos por token (~US$ 0.20-0.90 por milhao de tokens dependendo do modelo), sem operacao. RunPod oferece GPU on-demand (RTX 4090, A100, H100) pra modelos grandes (70B+) ou fine-tuning, pagando por hora. Para chat/RAG corporativo com volume moderado, Ollama em VPS Rollin da melhor relacao custo-privacidade. Para escala variavel ou modelos enormes, Together.ai e RunPod sao mais eficientes.

Tabela comparativa

Recurso	Ollama em VPS Rollin	Together.ai	RunPod
Tipo de servico	Self-hosted CPU	API gerenciada (serverless)	GPU on-demand (IaaS)
Hardware	AMD EPYC + NVMe (CPU)	GPUs gerenciadas (variavel)	RTX 4090 / A100 / H100
Modelos suportados	Llama 3 8B, Mistral 7B, Qwen 2.5, Phi-3 (quantizados)	Llama 3 70B, Mixtral, DeepSeek, +100 modelos	Qualquer modelo open-source
Latencia	Estavel — sem fila de API compartilhada	200-400ms (US/UE)	150-350ms (varia por regiao)
Custo entrada	R$ 169,90/mes (Pro 4)	Pay-per-token (sem fixo)	US$ 0.30-3.50/hora GPU
Custo por milhao de tokens	Diluido no fixo (alto volume = barato)	~US$ 0.20-0.90 (varia por modelo)	Calculado por hora de GPU
Modelos grandes 70B+	Inviavel em CPU (muito lento)	Suportado nativamente	Sim, GPU adequada
Fine-tuning	Limitado (CPU lento)	Sim, gerenciado	Sim, controle total na GPU
Privacidade (dados ficam onde?)	Sua VPS dedicada — sob seu controle (LGPD c/ salvaguardas)	Servidores Together (US, +DPA)	Servidores RunPod (US/UE)
Cold start	Zero (sempre rodando)	~1-5s (serverless)	30-120s (boot da GPU)
Throughput tokens/seg	20-60 tok/s (8B em CPU)	50-200 tok/s	100-500 tok/s (GPU)
Cobranca	Fixa em real (R$)	Por uso em USD	Por hora em USD
Vendor lock-in	Zero (open-source)	Medio (API proprietaria)	Baixo (voce roda o que quiser)
Operacao	Voce gerencia Ollama + atualiza modelos	Zero — so a API	Voce sobe Docker + container
Suporte humano em PT-BR	Sim, 24/7 via Rollin	Apenas ingles	Apenas ingles

Pros do Ollama em VPS Rollin

Custo fixo previsivel em real, sem surpresa de USD
Latencia estavel, sem fila de API compartilhada
Dados nunca saem da sua VPS — privacidade maxima
Roda na mesma maquina que n8n, EvolutionAPI, Qdrant — stack unificada
Zero cold start: modelo sempre carregado
Suporte humano 24/7 em portugues
Open-source: usa Llama, Mistral, Qwen, Phi com licenca livre

Pros do Together.ai

Acesso imediato a 100+ modelos (Llama 3 70B, Mixtral, DeepSeek)
Inferencia rapida com GPU gerenciada (50-200 tok/s)
Pay-per-token: paga so o que usa
Sem ops — voce so chama a API
Excelente pra cargas variavies ou pico imprevisivel
Documentacao boa e SDKs em Python, Node, Go
Suporta fine-tuning gerenciado

Pros do RunPod

GPU on-demand: RTX 4090, A100, H100 quando voce precisa
Pricing horario flexivel (use 2h, pague 2h)
Roda qualquer modelo — total liberdade tecnica
Ideal para fine-tuning e treino de adapters (LoRA, QLoRA)
Modo serverless tambem disponivel para inferencia
Comunidade ativa, templates Docker prontos

Contras do Ollama em VPS Rollin

CPU limita modelos grandes — 70B+ e inviavel em VPS comum
Throughput menor que GPU (20-60 tok/s vs 100-500 tok/s)
Sem auto-scaling em pico — voce paga pelo recurso fixo
Fine-tuning serio precisa de GPU (use RunPod pra isso)
Voce gerencia updates e quantizacao do Ollama

Contras do Together.ai

Latencia 200-400ms do Brasil (regiao mais proxima e US)
Cobranca em USD com IOF — custo final 15-20% maior
Dados passam pelos servidores Together — precisa DPA pra LGPD
Em volume alto e estavel, fica mais caro que self-hosted
Sem suporte em portugues
Limites de rate em modelos populares no plano basico

Contras do RunPod

Cold start de 30-120s ao subir GPU
Cobranca em USD por hora
Voce e responsavel por subir Docker e configurar
Disponibilidade variavel — GPUs populares (H100) podem nao ter
Sem suporte em portugues
Latencia depende da regiao escolhida (nao tem BR)

Quando escolher cada

Use Ollama em VPS Rollin se:

Voce roda chat ou RAG com modelos ate 13B em portugues, com volume previsivel. Privacidade e critica (dados de cliente, contratos, dados pessoais). Quer latencia estavel, sem fila de API compartilhada. Stack ja inclui n8n, EvolutionAPI ou Qdrant na mesma maquina.

Use Together.ai se:

Voce precisa de Llama 3 70B, Mixtral 8x22B ou modelo grande sem investir em GPU. Cargas variavies — protótipos, picos sazonais. Time pequeno sem DevOps pra gerenciar inferencia.

Use RunPod se:

Voce vai fazer fine-tuning ou treino de adapters (LoRA). Precisa de GPU pra workloads de hora especificos (batch processing, embeddings em massa). Quer controle total do ambiente.

Use combinacao se:

Padrao em times maduros: Ollama em VPS Rollin pra inferencia em producao com privacidade + Together.ai pra fallback em modelos grandes pontuais + RunPod pra fine-tuning periodico.

Veredito

Para a maioria dos casos brasileiros (chatbot WhatsApp via EvolutionAPI, RAG corporativo, agentes de automacao com n8n), Ollama em VPS Rollin entrega o melhor custo-beneficio com privacidade total e latencia estavel. Honestamente, se voce precisa de modelo 70B+ (Llama 3 70B, Mixtral 8x22B), nao tem como rodar em CPU — Together.ai e claramente superior por preco e simplicidade. RunPod e a ferramenta certa pra fine-tuning, mas overkill pra inferencia diaria. A Rollin Host nao oferece GPU dedicada em 2026, entao se seu caso e fine-tuning serio, use RunPod sem culpa.

Perguntas frequentes

Posso rodar Llama 3 8B em CPU?

Sim. Com quantizacao Q4 ou Q5 (GGUF), Llama 3 8B roda em VPS com 8-16 GB RAM e AMD EPYC entrega 20-40 tokens/segundo. Suficiente pra chat responsivo.

Quanto custa Together.ai em 2026?

Together.ai cobra por token. Llama 3 8B custa ~US$ 0.20/M tokens, Llama 3 70B em torno de US$ 0.90/M tokens. Consulte o site oficial para valores atualizados.

RunPod tem datacenter no Brasil?

Em 2026, RunPod nao tem regiao no Brasil. As regioes mais usadas sao US-East, US-West e EU.

Ollama suporta function calling?

Sim, desde a versao 0.3+ Ollama suporta tool/function calling com modelos compativeis (Llama 3.1, Mistral Nemo, Qwen 2.5).

Posso fazer fine-tuning no Ollama?

Tecnicamente sim, mas e impraticavel em CPU. Para fine-tuning serio (LoRA, QLoRA), use RunPod com GPU.

Together.ai e LGPD compativel?

Together.ai oferece DPA assinavel. Como os dados passam por servidores nos EUA, sempre revise o caso de uso com seu DPO antes de adotar pra dados sensiveis.

Qual VPS Rollin recomendada pra Ollama?

Pro 4 (R$ 169,90/mes) roda Llama 3 8B Q4. Para Mistral 7B + RAG simultaneo, Pro 6. Para multiplos modelos ou modelo 13B, Pro 8.

Qual o throughput de Llama 3 70B no RunPod?

Em uma A100 80GB, Llama 3 70B FP8 entrega ~80-150 tokens/segundo. Em uma H100, sobe pra ~200-400 tok/s. Em RTX 4090 (24GB), exige quantizacao agressiva.

Posso embedar com Ollama?

Sim. Ollama suporta modelos de embedding como nomic-embed-text e mxbai-embed-large. Para Vector DB local + Ollama na mesma VPS, latencia e zero.

Together.ai tem chat playground?

Sim, Together.ai tem playground web pra testar modelos antes de integrar via API.

Como subir Ollama numa VPS Rollin?

curl -fsSL https://ollama.com/install.sh | sh — depois ollama pull llama3.1:8b-instruct-q4_K_M. Documentacao completa no portal Rollin.

RunPod vs Vast.ai, qual o melhor?

RunPod tem UX mais polida e templates oficiais (vLLM, TGI, ComfyUI). Vast.ai costuma ser mais barato mas com mais friccao operacional. Para times sem DevOps, RunPod.

Pronto pra hospedar seu LLM open-source com privacidade?

VPS Cloud AMD EPYC + NVMe a partir de R$ 169,90/mes. Ollama, Llama 3, Mistral em minutos. CDN no Brasil, suporte 24/7.

Ver VPS para LLM