LLMs self-hosted · Visão geral

Quando faz sentido rodar LLMs no seu próprio servidor — Ollama, vLLM, llama.cpp — e como escolher modelo, hardware e runtime.

Rodar LLM próprio resolve 3 problemas: custo previsível em alto volume, dados que não podem sair da sua infra (LGPD, compliance) e latência mínima quando o LLM está no mesmo data center da aplicação.

Quando NÃO faz sentido

Se você responde sim a alguma das três, fique no GPT/Claude

Volume < 10 milhões de tokens/mês? OpenAI/Anthropic sai mais barato
Precisa de GPT-4o-level de raciocínio? Modelos open ainda ficam um degrau abaixo
Não tem ninguém pra monitorar 24/7? GPU caindo às 3h da manhã não tem suporte da Anthropic

Quando faz total sentido

Volume alto (50M+ tokens/mês) — payback do servidor em 2-3 meses
Dados sensíveis que não podem ir pra API externa (saúde, jurídico, financeiro)
Embeddings em escala (RAG com milhões de docs)
Inferência batch (resumo de chamadas, classificação de tickets)

Guias

Instalar Ollama em VPS

A forma mais rápida de rodar Llama 3, Qwen, DeepSeek com API compatível OpenAI.

Servir Llama 3 com vLLM

Para produção: throughput 5x maior que Ollama via continuous batching.

Hardware recomendado

Modelo	Quantização	VRAM mínima	Plano sugerido
Llama 3 8B	Q4_K_M	8 GB	GPU Estação
Llama 3 70B	Q4_K_M	48 GB	GPU Estúdio
Llama 3.1 405B	Q4_K_M	240 GB	GPU Cluster
Qwen 2.5 72B	Q4_K_M	48 GB	GPU Estúdio
DeepSeek V3 (671B)	FP8	8× H100	sob consulta

Custo comparativo

Cenário	OpenAI GPT-4o	Llama 3 70B (self-hosted)
10M tokens/mês	R$ 750	R$ 4.500 (servidor inativo)
100M tokens/mês	R$ 7.500	R$ 4.500
1B tokens/mês	R$ 75.000	R$ 4.500 (com fila)

Acima de 20-30M tokens/mês, o self-hosted começa a fazer sentido.

Última atualização: 15 de abril de 2026