Sem custo por minuto
APIs cloud cobram US$ 0,006-0,02 por minuto. Self-hosted você paga o servidor — transcreve 1.000h ou 100.000h pelo mesmo custo mensal.
Whisper, faster-whisper e WhisperX pré-instalados em servidor brasileiro com GPU NVIDIA dedicada. Transcrição em PT-BR, geração de legendas, diarização de falantes, tradução. Sem custo por minuto, áudio fica no seu ambiente.
APIs cloud cobram US$ 0,006-0,02 por minuto. Self-hosted você paga o servidor — transcreve 1.000h ou 100.000h pelo mesmo custo mensal.
O áudio (que pode conter dado sensível) nunca sai da sua infra. LGPD-compliant por padrão. Sem terceiros no caminho.
whisper.cpp (CPU), faster-whisper (GPU 4× rápido), WhisperX (com diarização) ou Distil-Whisper (50% mais rápido). Configuramos o que faz mais sentido.
Endpoint REST igual à API oficial do OpenAI Whisper. Drop-in replacement em qualquer cliente — só troca a base URL.
Hardware dimensionado pelo volume de áudio. CPU pra volumes leves; GPU L4 e L40S pra produção. Setup separado por tier.
Até ~500 minutos de áudio/dia
+ setup R$ 259 (parcela única) · sem fidelidade
Até ~10.000 minutos de áudio/dia
+ setup R$ 1.299 (parcela única) · sem fidelidade
50.000+ minutos de áudio/dia
+ setup R$ 1.299 (parcela única) · sem fidelidade
Pagamento via Pix, boleto ou cartão (até 12x). Volumes acima de 50k min/dia ou requisitos especiais (multi-tenant, alta disponibilidade) — orçamento sob consulta.
Transcrição automática de calls com diarização (vendedor vs. cliente). Alimenta CRM, treina agentes de IA, gera resumos.
Transcrição de episódios pra SEO (texto indexável), geração de legendas em múltiplos idiomas, criação de clipes a partir do transcript.
Reuniões internas (Zoom, Meet, Teams) viram atas escritas com identificação de quem falou o quê. Integração com Notion, Slack.
Transcrição de depoimentos, audiências, calls regulatórias. LGPD-compliant — áudio nunca sai do seu ambiente.
Whisper como STT em pipelines de voz: usuário fala, Whisper transcreve, LLM responde, TTS sintetiza voz. Latência baixa em GPU L4+.
Legendagem automática de aulas, vídeos institucionais e lives. Modelo Whisper-large-v3 entrega qualidade comparável a humano.
Modelo open source da OpenAI para reconhecimento de fala (speech-to-text). Suporta 99 idiomas, com excelente acurácia em português brasileiro. Inclui detecção automática de idioma, geração de legendas (SRT/VTT) e tradução para inglês.
CPU (whisper.cpp): processa em tempo real ou levemente acima — ideal pra volumes baixos (até 500 min/dia) ou jobs em background. GPU (faster-whisper em L4 ou L40S): processa 10-30× mais rápido que tempo real, suporta paralelismo, ideal pra produção.
whisper.cpp (CPU otimizado), faster-whisper (CTranslate2 quantizado, 4× mais rápido que original), WhisperX (com diarização via pyannote) e Distil-Whisper (modelo destilado, 50% mais rápido).
Sim, excelente performance. Whisper-large-v3 tem WER de ~5% em PT-BR — comparável a Google Cloud Speech e Azure Speech, mas rodando no seu próprio servidor sem custo por minuto.
Por padrão não — áudio é processado e descartado, mantendo só o transcript. Se quiser persistir áudio + transcript pra histórico/auditoria, configuramos storage S3-compat dedicado (LGPD-compliant).
Sim. Endpoint REST padrão (igual à API oficial OpenAI Whisper) — você manda o áudio, recebe o transcript em JSON. Webhooks pra jobs assíncronos longos. Drop-in replacement.
Sim, via WhisperX + pyannote.audio. Transcrição vem segmentada por falante (Speaker 1: ..., Speaker 2: ...). Útil pra calls de venda, atas, podcasts multi-host.
CPU: 2-3 dias úteis. GPU: 5 dias úteis. Inclui setup completo, API key, dashboard de monitoramento e onboarding técnico.
Comece em 5 minutos. Migração gratuita, suporte 24/7 em português e garantia de reembolso em 7 dias.