Migração 100% grátis + 1 mês grátis com cupom MIGRAR1MES · novos clientes em planos até R$ 200/mês Migrar agora
Comparativo tecnico

Ollama, Together.ai ou RunPod: qual escolher pra LLM open-source?

Hospedar Llama 3, Mistral, Qwen e outros modelos open-source virou estrategia comum em 2026 — seja por custo (token API ficou previsivel), privacidade (dados nao saem do controle) ou customizacao (fine-tuning livre). As tres opcoes principais sao: rodar Ollama em VPS/CPU, usar API gerenciada como Together.ai ou alugar GPU on-demand no RunPod. Cada uma resolve um caso diferente.

TL;DR

Ollama em VPS Rollin (CPU) roda modelos pequenos quantizados (Llama 3 8B, Phi-3, Qwen 2.5 7B) com latencia 30-80ms para o Brasil e custo fixo de R$ 89,90-199,90/mes. Together.ai e API gerenciada com inferencia rapida e precos por token (~US$ 0.20-0.90 por milhao de tokens dependendo do modelo), sem operacao. RunPod oferece GPU on-demand (RTX 4090, A100, H100) pra modelos grandes (70B+) ou fine-tuning, pagando por hora. Para chat/RAG corporativo com volume moderado, Ollama em VPS brasileira da melhor relacao custo-privacidade. Para escala variavel ou modelos enormes, Together.ai e RunPod sao mais eficientes.

Tabela comparativa

RecursoOllama em VPS RollinTogether.aiRunPod
Tipo de servicoSelf-hosted CPUAPI gerenciada (serverless)GPU on-demand (IaaS)
HardwareAMD EPYC + NVMe (CPU)GPUs gerenciadas (variavel)RTX 4090 / A100 / H100
Modelos suportadosLlama 3 8B, Mistral 7B, Qwen 2.5, Phi-3 (quantizados)Llama 3 70B, Mixtral, DeepSeek, +100 modelosQualquer modelo open-source
Latencia para Brasil30-80ms (datacenter SP)200-400ms (US/UE)150-350ms (varia por regiao)
Custo entradaR$ 89,90/mes (Pro 10)Pay-per-token (sem fixo)US$ 0.30-3.50/hora GPU
Custo por milhao de tokensDiluido no fixo (alto volume = barato)~US$ 0.20-0.90 (varia por modelo)Calculado por hora de GPU
Modelos grandes 70B+Inviavel em CPU (muito lento)Suportado nativamenteSim, GPU adequada
Fine-tuningLimitado (CPU lento)Sim, gerenciadoSim, controle total na GPU
Privacidade (dados ficam onde?)Sua VPS no Brasil (LGPD)Servidores Together (US, +DPA)Servidores RunPod (US/UE)
Cold startZero (sempre rodando)~1-5s (serverless)30-120s (boot da GPU)
Throughput tokens/seg20-60 tok/s (8B em CPU)50-200 tok/s100-500 tok/s (GPU)
CobrancaFixa em real (R$)Por uso em USDPor hora em USD
Vendor lock-inZero (open-source)Medio (API proprietaria)Baixo (voce roda o que quiser)
OperacaoVoce gerencia Ollama + atualiza modelosZero — so a APIVoce sobe Docker + container
Suporte humano em PT-BRSim, 24/7 via RollinApenas inglesApenas ingles

Pros do Ollama em VPS Rollin

  • Custo fixo previsivel em real, sem surpresa de USD
  • Latencia minima para Brasil (30-80ms)
  • Dados nunca saem da sua VPS — privacidade maxima
  • Roda na mesma maquina que n8n, EvolutionAPI, Qdrant — stack unificada
  • Zero cold start: modelo sempre carregado
  • Suporte humano 24/7 em portugues
  • Open-source: usa Llama, Mistral, Qwen, Phi com licenca livre

Pros do Together.ai

  • Acesso imediato a 100+ modelos (Llama 3 70B, Mixtral, DeepSeek)
  • Inferencia rapida com GPU gerenciada (50-200 tok/s)
  • Pay-per-token: paga so o que usa
  • Sem ops — voce so chama a API
  • Excelente pra cargas variavies ou pico imprevisivel
  • Documentacao boa e SDKs em Python, Node, Go
  • Suporta fine-tuning gerenciado

Pros do RunPod

  • GPU on-demand: RTX 4090, A100, H100 quando voce precisa
  • Pricing horario flexivel (use 2h, pague 2h)
  • Roda qualquer modelo — total liberdade tecnica
  • Ideal para fine-tuning e treino de adapters (LoRA, QLoRA)
  • Modo serverless tambem disponivel para inferencia
  • Comunidade ativa, templates Docker prontos

Contras do Ollama em VPS Rollin

  • CPU limita modelos grandes — 70B+ e inviavel em VPS comum
  • Throughput menor que GPU (20-60 tok/s vs 100-500 tok/s)
  • Sem auto-scaling em pico — voce paga pelo recurso fixo
  • Fine-tuning serio precisa de GPU (use RunPod pra isso)
  • Voce gerencia updates e quantizacao do Ollama

Contras do Together.ai

  • Latencia 200-400ms do Brasil (regiao mais proxima e US)
  • Cobranca em USD com IOF — custo final 15-20% maior
  • Dados passam pelos servidores Together — precisa DPA pra LGPD
  • Em volume alto e estavel, fica mais caro que self-hosted
  • Sem suporte em portugues
  • Limites de rate em modelos populares no plano basico

Contras do RunPod

  • Cold start de 30-120s ao subir GPU
  • Cobranca em USD por hora
  • Voce e responsavel por subir Docker e configurar
  • Disponibilidade variavel — GPUs populares (H100) podem nao ter
  • Sem suporte em portugues
  • Latencia depende da regiao escolhida (nao tem BR)

Quando escolher cada

Use Ollama em VPS Rollin se:

Voce roda chat ou RAG com modelos ate 13B em portugues, com volume previsivel. Privacidade e critica (dados de cliente, contratos, dados pessoais). Quer latencia minima para usuarios no Brasil. Stack ja inclui n8n, EvolutionAPI ou Qdrant na mesma maquina.

Use Together.ai se:

Voce precisa de Llama 3 70B, Mixtral 8x22B ou modelo grande sem investir em GPU. Cargas variavies — protótipos, picos sazonais. Time pequeno sem DevOps pra gerenciar inferencia.

Use RunPod se:

Voce vai fazer fine-tuning ou treino de adapters (LoRA). Precisa de GPU pra workloads de hora especificos (batch processing, embeddings em massa). Quer controle total do ambiente.

Use combinacao se:

Padrao em times maduros: Ollama em VPS Rollin pra inferencia em producao com privacidade + Together.ai pra fallback em modelos grandes pontuais + RunPod pra fine-tuning periodico.

Veredito

Para a maioria dos casos brasileiros (chatbot WhatsApp via EvolutionAPI, RAG corporativo, agentes de automacao com n8n), Ollama em VPS Rollin entrega o melhor custo-beneficio com privacidade total e latencia minima. Honestamente, se voce precisa de modelo 70B+ (Llama 3 70B, Mixtral 8x22B), nao tem como rodar em CPU — Together.ai e claramente superior por preco e simplicidade. RunPod e a ferramenta certa pra fine-tuning, mas overkill pra inferencia diaria. A Rollin Host nao oferece GPU dedicada em 2026, entao se seu caso e fine-tuning serio, use RunPod sem culpa.

Perguntas frequentes

Posso rodar Llama 3 8B em CPU?

Sim. Com quantizacao Q4 ou Q5 (GGUF), Llama 3 8B roda em VPS com 8-16 GB RAM e AMD EPYC entrega 20-40 tokens/segundo. Suficiente pra chat responsivo.

Quanto custa Together.ai em 2026?

Together.ai cobra por token. Llama 3 8B custa ~US$ 0.20/M tokens, Llama 3 70B em torno de US$ 0.90/M tokens. Consulte o site oficial para valores atualizados.

RunPod tem datacenter no Brasil?

Em 2026, RunPod nao tem regiao no Brasil. As regioes mais usadas sao US-East, US-West e EU.

Ollama suporta function calling?

Sim, desde a versao 0.3+ Ollama suporta tool/function calling com modelos compativeis (Llama 3.1, Mistral Nemo, Qwen 2.5).

Posso fazer fine-tuning no Ollama?

Tecnicamente sim, mas e impraticavel em CPU. Para fine-tuning serio (LoRA, QLoRA), use RunPod com GPU.

Together.ai e LGPD compativel?

Together.ai oferece DPA assinavel. Como os dados passam por servidores nos EUA, sempre revise o caso de uso com seu DPO antes de adotar pra dados sensiveis.

Qual VPS Rollin recomendada pra Ollama?

Pro 10 (R$ 89,90/mes) roda Llama 3 8B Q4. Para Mistral 7B + RAG simultaneo, Pro 20. Para multiplos modelos ou modelo 13B, Pro 30.

Qual o throughput de Llama 3 70B no RunPod?

Em uma A100 80GB, Llama 3 70B FP8 entrega ~80-150 tokens/segundo. Em uma H100, sobe pra ~200-400 tok/s. Em RTX 4090 (24GB), exige quantizacao agressiva.

Posso embedar com Ollama?

Sim. Ollama suporta modelos de embedding como nomic-embed-text e mxbai-embed-large. Para Vector DB local + Ollama na mesma VPS, latencia e zero.

Together.ai tem chat playground?

Sim, Together.ai tem playground web pra testar modelos antes de integrar via API.

Como subir Ollama numa VPS Rollin?

curl -fsSL https://ollama.com/install.sh | sh — depois ollama pull llama3.1:8b-instruct-q4_K_M. Documentacao completa no portal Rollin.

RunPod vs Vast.ai, qual o melhor?

RunPod tem UX mais polida e templates oficiais (vLLM, TGI, ComfyUI). Vast.ai costuma ser mais barato mas com mais friccao operacional. Para times sem DevOps, RunPod.

Pronto pra hospedar seu LLM open-source com privacidade?

VPS Cloud AMD EPYC + NVMe a partir de R$ 89,90/mes. Ollama, Llama 3, Mistral em minutos. Dados no Brasil, suporte 24/7.

Ver VPS para LLM