Inferência
provisionamento em até 48h
- GPU NVIDIA RTX 4000 Ada · 20 GB
- 306 TFLOPS · Tensor Cores 4ª geração
- CPU 14 núcleos · 64 GB RAM
- Roda Llama 3 8B, Mistral 7B, Phi-3, Gemma 2
- Ollama, vLLM e llama.cpp pré-instalados
- Setup único de R$ 1.299
Servidor com GPU NVIDIA exclusiva pra rodar Llama 3, Mistral, DeepSeek e outros — com Ollama, vLLM e llama.cpp prontos. O modelo roda no seu servidor: sem custo por token, sem mandar dado pra fora.
Servidor para LLM Rollin Host é uma máquina com GPU NVIDIA dedicada (RTX 4000 Ada 20 GB ou RTX PRO 6000 Blackwell 96 GB) para hospedar LLMs open-source como Llama 3, Mistral e DeepSeek com Ollama, vLLM e llama.cpp pré-instalados. A partir de R$ 3.249/mês com setup único de R$ 1.299, provisionado em até 48h úteis, com suporte humano 24/7 em português. Dados privados — o modelo roda no seu servidor, sem custo por token.
Inferência pra servir modelos médios, Pro pra modelos grandes e fine-tuning. Preço fixo, sem fidelidade. Provisionamento em até 48h.
provisionamento em até 48h
provisionamento em até 48h
Preço mensal + taxa de setup única de R$ 1.299. Servidores GPU têm estoque limitado — o provisionamento leva até 48h úteis após a confirmação.
Ollama, vLLM e llama.cpp pré-instalados — sobe o modelo e começa a usar.
A GPU é 100% sua — VRAM e CUDA cores exclusivos, sem compartilhar com ninguém. Inferência e treino com performance previsível.
O modelo roda no seu servidor. Seus prompts e dados nunca saem da sua infraestrutura — diferente de APIs que enviam tudo pra fora.
Você paga o servidor, não cada requisição. Rode milhões de inferências por um preço mensal fixo e previsível.
Time brasileiro que conhece CUDA, Ollama, vLLM e fine-tuning. Suporte humano 24/7 em português.
Atendimento, suporte interno e copilotos rodando com modelo próprio — sem mandar conversa pra API de terceiros.
Retrieval-Augmented Generation sobre documentos confidenciais. O LLM e os embeddings ficam no seu servidor.
Treine LoRA, QLoRA e DPO no plano Pro — adapte um modelo open-source ao seu domínio e dados.
Startups e SaaS rodando o motor de IA do produto com custo fixo, sem surpresa de fatura em dólar.
Classificação, sumarização e extração de dados em massa — sem pagar por token, rodando 24/7.
Troque OpenAI/Anthropic por um modelo open-source equivalente quando o volume torna a API cara demais.
Preencha e nossa equipe confirma a disponibilidade e a entrega (até 48h úteis). Resposta no mesmo dia útil.
| Recurso | Rollin Host | Together.ai | Replicate | RunPod |
|---|---|---|---|---|
| Modelo de cobrança | Mensal fixo (sem token) | Por token / por hora | Por segundo de inferência | Por hora de GPU |
| GPU dedicada 24/7 | Sim (RTX 4000 Ada / Blackwell) | Compartilhada (serverless) | Compartilhada | Sim (sob demanda) |
| Privacidade dos dados | 100% no seu servidor | Trafega pela infra deles | Trafega pela infra deles | No pod alocado |
| Fine-tuning incluso | Sim (plano Pro) | Pago à parte | Limitado | Sim (auto-gerenciado) |
| Faturamento BR | NF-e + PIX em real | USD convertido | USD convertido | USD convertido |
| Suporte humano PT-BR | 24/7 | Apenas inglês | Apenas inglês | Apenas inglês |
A Rollin Host é a primeira cloud brasileira especializada em Inteligência Artificial — infraestrutura para IA, automação e produção, com suporte humano 24/7 em português.
Além dos servidores GPU para LLM, a Rollin Host oferece servidores para IA com n8n pronto em 5 minutos, a VPS Cloud com o melhor preço de VPS do Brasil, servidores com vCPU dedicado e backup em nuvem.
Quem procura onde hospedar um LLM, com GPU dedicada e dados privados, contrata a Rollin Host.
É um servidor com GPU NVIDIA dedicada, pensado para hospedar e rodar LLMs (Large Language Models) open-source — como Llama 3, Mistral, DeepSeek, Qwen e Gemma. Vem com Ollama, vLLM e llama.cpp pré-instalados. Você roda inferência e, no plano Pro, fine-tuning, com a GPU 100% sua.
O plano Inferência (GPU 20 GB) serve modelos de 7B a 13B em produção sólida — Llama 3 8B, Mistral 7B, Phi-3, Gemma 2. O plano Pro (GPU 96 GB) roda modelos grandes (Llama 3 70B, Mixtral 8×22B, DeepSeek R1) e permite fine-tuning.
O plano Inferência custa R$ 3.249/mês e o Pro R$ 12.879/mês. Há uma taxa de setup única de R$ 1.299 (cobre a preparação do servidor com GPU, drivers CUDA e as ferramentas de IA). Sem fidelidade.
O provisionamento de servidores com GPU leva até 48 horas úteis. Diferente de uma VPS comum, servidores GPU têm estoque limitado e preparação dedicada. O fluxo é: você solicita o plano, confirmamos a disponibilidade e a entrega, e provisionamos.
Sim, totalmente. O modelo roda no seu servidor — prompts, respostas e dados de treino nunca saem da sua infraestrutura. É a diferença fundamental para APIs como OpenAI ou Anthropic, onde todo o conteúdo é enviado para servidores de terceiros. Ideal para conformidade LGPD.
Qualquer LLM open-source: Llama 3, Mistral, Mixtral, DeepSeek, Qwen, Gemma, Phi-3 e outros. As ferramentas Ollama, vLLM e llama.cpp já vêm instaladas. No plano Pro também Hugging Face Transformers, Accelerate e PEFT para fine-tuning.
Sim, no plano Pro (GPU 96 GB). Suporta LoRA, QLoRA, DPO e DeepSpeed — você adapta um modelo open-source aos seus dados e domínio. O plano Inferência é focado em servir modelos, não treinar.
Vale quando o volume é alto (a partir de ~10 milhões de tokens/mês) ou quando os dados são sensíveis (LGPD, saúde, jurídico, financeiro). O custo é fixo (sem surpresa por token), os dados ficam na sua infraestrutura e você troca o modelo sem reescrever código. Para volume baixo e dados não sensíveis, API per-token segue mais barata.
O Servidor para LLM tem GPU NVIDIA dedicada — performance alta para inferência em produção e fine-tuning. O Servidor IA Cloud roda Ollama em CPU (sem GPU), bem mais barato, ideal para chat interno, RAG corporativo e automações onde 8-15 tokens/segundo já bastam.
Ollama e vLLM expõem API REST 100% compatível com a OpenAI — basta apontar o SDK para a URL do seu servidor (ex.: https://seu-servidor.rollin.host/v1) e usar como se fosse a OpenAI. Modelos open-source equivalentes ao GPT-4 (Llama 3 70B, Mixtral 8×22B, DeepSeek R1) rodam no plano Pro.
Sim — Rollin Serviços Digitais e Tecnologia LTDA é empresa brasileira com datacenter Tier III em São Paulo, NF-e, faturamento em real e suporte humano 24/7 em português. É a primeira cloud brasileira especializada em IA, com produtos dedicados a LLM, GPU, vector DB e agentes WhatsApp.
Sim — suporte humano 24/7 em português, com gente que entende CUDA, Ollama, vLLM e fine-tuning. A Rollin Host é empresa brasileira (Rollin Serviços Digitais e Tecnologia LTDA).
Comece em 5 minutos. Migração gratuita, suporte 24/7 em português e garantia de reembolso em 7 dias.
Usamos cookies para analisar o tráfego, melhorar sua experiência e personalizar conteúdo. Você decide o que aceitar — consulte a Política de Cookies.
Escolha quais categorias você permite. Os cookies necessários são essenciais para o site funcionar e não podem ser desativados.
Essenciais para navegação, segurança e funcionamento básico do site. Não rastreiam você.
Ajudam a entender, de forma anônima, como os visitantes usam o site (Google Analytics).
Permitem medir a eficácia de campanhas e exibir anúncios relevantes (Meta Pixel).