Migração 100% grátis + 1 mês grátis com cupom MIGRAR1MES · novos clientes em planos até R$ 200/mês Migrar agora

LLMs self-hosted · Visão geral

Quando faz sentido rodar LLMs no seu próprio servidor — Ollama, vLLM, llama.cpp — e como escolher modelo, hardware e runtime.

Rodar LLM próprio resolve 3 problemas: custo previsível em alto volume, dados que não podem sair da sua infra (LGPD, compliance) e latência mínima quando o LLM está no mesmo data center da aplicação.

Quando NÃO faz sentido

Se você responde sim a alguma das três, fique no GPT/Claude

  • Volume < 10 milhões de tokens/mês? OpenAI/Anthropic sai mais barato
  • Precisa de GPT-4o-level de raciocínio? Modelos open ainda ficam um degrau abaixo
  • Não tem ninguém pra monitorar 24/7? GPU caindo às 3h da manhã não tem suporte da Anthropic

Quando faz total sentido

  • Volume alto (50M+ tokens/mês) — payback do servidor em 2-3 meses
  • Dados sensíveis que não podem ir pra API externa (saúde, jurídico, financeiro)
  • Embeddings em escala (RAG com milhões de docs)
  • Inferência batch (resumo de chamadas, classificação de tickets)

Guias

Hardware recomendado

ModeloQuantizaçãoVRAM mínimaPlano sugerido
Llama 3 8BQ4_K_M8 GBGPU Estação
Llama 3 70BQ4_K_M48 GBGPU Estúdio
Llama 3.1 405BQ4_K_M240 GBGPU Cluster
Qwen 2.5 72BQ4_K_M48 GBGPU Estúdio
DeepSeek V3 (671B)FP88× H100sob consulta

Custo comparativo

CenárioOpenAI GPT-4oLlama 3 70B (self-hosted)
10M tokens/mêsR$ 750R$ 4.500 (servidor inativo)
100M tokens/mêsR$ 7.500R$ 4.500
1B tokens/mêsR$ 75.000R$ 4.500 (com fila)

Acima de 20-30M tokens/mês, o self-hosted começa a fazer sentido.

Última atualização: