Whisper · faster-whisper · WhisperX

Áudio em texto com Whisper hospedado no seu servidor.

Q: O que é o Whisper?

Whisper é o modelo open source da OpenAI para reconhecimento de fala (speech-to-text). Suporta 99 idiomas, com excelente acurácia em português brasileiro. Inclui detecção automática de idioma, geração de legendas (SRT/VTT) e tradução para inglês.

Q: CPU ou GPU — qual escolher?

CPU (whisper.cpp): processa em tempo real ou levemente acima — ideal para volumes baixos (até 500 min/dia) ou jobs em background sem urgência. GPU (faster-whisper em L4 ou L40S): processa 10-30× mais rápido que tempo real, suporta paralelismo, ideal para produção (transcrição de podcasts em massa, calls de venda em tempo quase real, legendagem automatizada).

Q: Quais variantes vocês instalam?

whisper.cpp (CPU otimizado), faster-whisper (CTranslate2 quantizado, 4× mais rápido que original), WhisperX (com diarização automática de falantes via pyannote) e Distil-Whisper (modelo destilado, 50% mais rápido com perda mínima de qualidade). Você escolhe a que faz mais sentido pro seu caso.

Q: Funciona com português brasileiro?

Sim, excelente performance em PT-BR. O Whisper-large-v3 tem WER (Word Error Rate) de ~5% em português — comparável a Google Cloud Speech e Azure Speech, mas rodando no seu próprio servidor sem custo por minuto.

Q: O áudio fica armazenado?

Por padrão não — o áudio é processado e descartado, mantendo só o resultado da transcrição. Se você quiser persistir áudio + transcript pra histórico/auditoria, configuramos storage S3-compat dedicado (LGPD-compliant). Tudo no seu ambiente.

Q: Tem diarização (quem falou o quê)?

Sim, via WhisperX + pyannote.audio. Transcrição já vem segmentada por falante (Speaker 1: ..., Speaker 2: ...). Útil pra calls de venda, atas de reunião, podcasts multi-host, depoimentos jurídicos.

Q: Em quanto tempo entregam?

CPU: 2-3 dias úteis. GPU: 5 dias úteis (provisionamento de hardware + instalação + teste). Inclui setup completo, API key, dashboard de monitoramento e onboarding técnico.

Whisper, faster-whisper e WhisperX pré-instalados em servidor brasileiro com GPU NVIDIA dedicada. Transcrição em PT-BR, geração de legendas, diarização de falantes, tradução. Sem custo por minuto, áudio fica no seu ambiente.

Ver planos Falar com especialista

Sem custo por minuto
WER ~5% em PT-BR
99 idiomas suportados
Diarização inclusa (GPU)

Por que Whisper gerenciado

Sem custo por minuto

APIs cloud cobram US$ 0,006-0,02 por minuto. Self-hosted você paga o servidor — transcreve 1.000h ou 100.000h pelo mesmo custo mensal.

Áudio no seu ambiente

O áudio (que pode conter dado sensível) nunca sai da sua infra. LGPD-compliant por padrão. Sem terceiros no caminho.

Stack à escolha

whisper.cpp (CPU), faster-whisper (GPU 4× rápido), WhisperX (com diarização) ou Distil-Whisper (50% mais rápido). Configuramos o que faz mais sentido.

API compatível com OpenAI

Endpoint REST igual à API oficial do OpenAI Whisper. Drop-in replacement em qualquer cliente — só troca a base URL.

Planos Whisper gerenciado

Hardware dimensionado pelo volume de áudio. CPU pra volumes leves; GPU L4 e L40S pra produção. Setup separado por tier.

Volume baixo

Whisper CPU

Até ~500 minutos de áudio/dia

R$ 329/mês

+ setup R$ 259 (parcela única) · sem fidelidade

Contratar pelo WhatsApp

8 vCPU AMD EPYC · 16 GB RAM · 200 GB NVMe
Sem GPU · whisper.cpp otimizado
Stack à escolha (whisper.cpp, faster-whisper, WhisperX)
API REST compatível com OpenAI
Suporte a 99 idiomas
Dashboard de uso e monitoramento
Suporte 24/7 brasileiro

Mais popular

Whisper GPU L4

Até ~10.000 minutos de áudio/dia

R$ 2.599/mês

+ setup R$ 1.299 (parcela única) · sem fidelidade

Contratar pelo WhatsApp

NVIDIA RTX 4000 Ada · 20 GB VRAM
Intel i5 · 64 GB RAM · 500 GB NVMe
Stack à escolha (whisper.cpp, faster-whisper, WhisperX)
API REST compatível com OpenAI
Suporte a 99 idiomas
Dashboard de uso e monitoramento
Suporte 24/7 brasileiro

Alto volume

Whisper Pro L40S

50.000+ minutos de áudio/dia

R$ 5.199/mês

+ setup R$ 1.299 (parcela única) · sem fidelidade

Contratar pelo WhatsApp

NVIDIA L40S · 48 GB VRAM ECC
Xeon 16 vCPUs · 128 GB RAM · 500 GB NVMe
Stack à escolha (whisper.cpp, faster-whisper, WhisperX)
API REST compatível com OpenAI
Suporte a 99 idiomas
Dashboard de uso e monitoramento
Suporte 24/7 brasileiro

Pagamento via Pix, boleto ou cartão (até 12x). Volumes acima de 50k min/dia ou requisitos especiais (multi-tenant, alta disponibilidade) — orçamento sob consulta.

Casos de uso

Calls de venda & atendimento

Transcrição automática de calls com diarização (vendedor vs. cliente). Alimenta CRM, treina agentes de IA, gera resumos.

Podcasts & mídia

Transcrição de episódios pra SEO (texto indexável), geração de legendas em múltiplos idiomas, criação de clipes a partir do transcript.

Reuniões & atas

Reuniões internas (Zoom, Meet, Teams) viram atas escritas com identificação de quem falou o quê. Integração com Notion, Slack.

Compliance & jurídico

Transcrição de depoimentos, audiências, calls regulatórias. LGPD-compliant — áudio nunca sai do seu ambiente.

Voice agents (Open Claw)

Whisper como STT em pipelines de voz: usuário fala, Whisper transcreve, LLM responde, TTS sintetiza voz. Latência baixa em GPU L4+.

Acessibilidade

Legendagem automática de aulas, vídeos institucionais e lives. Modelo Whisper-large-v3 entrega qualidade comparável a humano.

Perguntas frequentes

O que é o Whisper?

Modelo open source da OpenAI para reconhecimento de fala (speech-to-text). Suporta 99 idiomas, com excelente acurácia em português brasileiro. Inclui detecção automática de idioma, geração de legendas (SRT/VTT) e tradução para inglês.

CPU ou GPU — qual escolher?

CPU (whisper.cpp): processa em tempo real ou levemente acima — ideal pra volumes baixos (até 500 min/dia) ou jobs em background. GPU (faster-whisper em L4 ou L40S): processa 10-30× mais rápido que tempo real, suporta paralelismo, ideal pra produção.

Quais variantes vocês instalam?

whisper.cpp (CPU otimizado), faster-whisper (CTranslate2 quantizado, 4× mais rápido que original), WhisperX (com diarização via pyannote) e Distil-Whisper (modelo destilado, 50% mais rápido).

Funciona com português brasileiro?

Sim, excelente performance. Whisper-large-v3 tem WER de ~5% em PT-BR — comparável a Google Cloud Speech e Azure Speech, mas rodando no seu próprio servidor sem custo por minuto.

O áudio fica armazenado?

Por padrão não — áudio é processado e descartado, mantendo só o transcript. Se quiser persistir áudio + transcript pra histórico/auditoria, configuramos storage S3-compat dedicado (LGPD-compliant).

Tem API REST? Suporta webhooks?

Sim. Endpoint REST padrão (igual à API oficial OpenAI Whisper) — você manda o áudio, recebe o transcript em JSON. Webhooks pra jobs assíncronos longos. Drop-in replacement.

Tem diarização (quem falou o quê)?

Sim, via WhisperX + pyannote.audio. Transcrição vem segmentada por falante (Speaker 1: ..., Speaker 2: ...). Útil pra calls de venda, atas, podcasts multi-host.

Em quanto tempo entregam?

CPU: 2-3 dias úteis. GPU: 5 dias úteis. Inclui setup completo, API key, dashboard de monitoramento e onboarding técnico.

Pronto pra hospedar seu projeto de IA?

Comece em 5 minutos. Migração gratuita, suporte 24/7 em português e garantia de reembolso em 7 dias.

Contratar agora Falar no WhatsApp