LLMs self-hosted · Visão geral
Quando faz sentido rodar LLMs no seu próprio servidor — Ollama, vLLM, llama.cpp — e como escolher modelo, hardware e runtime.
Rodar LLM próprio resolve 3 problemas: custo previsível em alto volume, dados que não podem sair da sua infra (LGPD, compliance) e latência mínima quando o LLM está no mesmo data center da aplicação.
Quando NÃO faz sentido
Se você responde sim a alguma das três, fique no GPT/Claude
- Volume < 10 milhões de tokens/mês? OpenAI/Anthropic sai mais barato
- Precisa de GPT-4o-level de raciocínio? Modelos open ainda ficam um degrau abaixo
- Não tem ninguém pra monitorar 24/7? GPU caindo às 3h da manhã não tem suporte da Anthropic
Quando faz total sentido
- Volume alto (50M+ tokens/mês) — payback do servidor em 2-3 meses
- Dados sensíveis que não podem ir pra API externa (saúde, jurídico, financeiro)
- Embeddings em escala (RAG com milhões de docs)
- Inferência batch (resumo de chamadas, classificação de tickets)
Guias
Instalar Ollama em VPS
A forma mais rápida de rodar Llama 3, Qwen, DeepSeek com API compatível OpenAI.
Servir Llama 3 com vLLM
Para produção: throughput 5x maior que Ollama via continuous batching.
Hardware recomendado
| Modelo | Quantização | VRAM mínima | Plano sugerido |
|---|---|---|---|
| Llama 3 8B | Q4_K_M | 8 GB | GPU Estação |
| Llama 3 70B | Q4_K_M | 48 GB | GPU Estúdio |
| Llama 3.1 405B | Q4_K_M | 240 GB | GPU Cluster |
| Qwen 2.5 72B | Q4_K_M | 48 GB | GPU Estúdio |
| DeepSeek V3 (671B) | FP8 | 8× H100 | sob consulta |
Custo comparativo
| Cenário | OpenAI GPT-4o | Llama 3 70B (self-hosted) |
|---|---|---|
| 10M tokens/mês | R$ 750 | R$ 4.500 (servidor inativo) |
| 100M tokens/mês | R$ 7.500 | R$ 4.500 |
| 1B tokens/mês | R$ 75.000 | R$ 4.500 (com fila) |
Acima de 20-30M tokens/mês, o self-hosted começa a fazer sentido.
Última atualização: