ElevenLabs ha incorporado a su catálogo Scribe v2 Realtime, un modelo de voz a texto (ASR) pensado para transcripción en directo con latencia aproximada de 150 ms (sin contar red/aplicación), disponible vía API y orientado a escenarios como agentes de voz, asistentes de reuniones y subtítulos en tiempo real. En la documentación oficial, Scribe v2 Realtime figura ya como modelo de referencia dentro de Speech-to-Text, con “real-time transcription” y baja latencia. [Reason Why]
La página general de modelos y el overview de documentación de ElevenLabs sitúan Scribe v2 Realtime junto a Scribe v1 (batch de alta precisión) y aclaran que la cifra de ~150 ms excluye la latencia de red/aplicación. [WinBuzzer]
Capacidades clave (según documentación y material oficial)
- Transcripción en tiempo real (~150 ms aprox.) y 99 idiomas en la ficha de modelo; Scribe v1 continúa para cargas no en vivo con diarización y marcas a nivel de palabra. [X]
- Integración por WebSocket/streaming para tiempo real (guías y referencia de streaming en la API).
- Modo de retención cero (Zero Retention Mode) para cargas sensibles en planes Enterprise, con eliminación inmediata de entradas/salidas y controles de logging.
- Agentes de voz: Scribe v2 Realtime puede operar en la Agents Platform de ElevenLabs (diseño, workflows, monitorización y operación).
Nota sobre precisión: el blog oficial de ElevenLabs atribuía a Scribe v1 mejoras de benchmark (FLEURS y Common Voice) frente a Whisper, Deepgram y Gemini; para v2 Realtime, ElevenLabs resalta la baja latencia y el soporte multilingüe. No hay aún una tabla pública de benchmarks independiente específica de v2 Realtime en la documentación.
Para qué casos de uso encaja
- Subtitulado en directo y eventos en vivo donde el retardo es crítico.
- Agentes conversacionales (soporte, ventas, in-product) que necesitan “entender” mientras el usuario habla y devolver respuesta inmediata (posible acoplamiento con TTS en baja latencia).
- Reuniones y reuniones híbridas: live notes, puntos de acción y follow-ups alimentados por transcripciones in situ.
Disponibilidad e implementación
- Documentación y quickstart de Speech-to-Text (con guía de integración y API).
- Streaming/tiempo real: guías de WebSockets y referencia de streaming para desarrollar clientes que envíen/reciban audio en continuo.
- Agents Platform: overview y quickstart para crear agentes con panel de métricas y orquestación.
- Cumplimiento y seguridad: Trust Center (SOC 2, ISO 27001, etc.; algunos informes requieren acceso) y Zero Retention Mode.
Contexto del producto
Scribe v2 Realtime complementa a Scribe v1 (orientado a máxima precisión en 99 idiomas para audio pregrabado y con diarización y word-level timestamps). El landing y el blog de ElevenLabs destacan que Scribe (familia) compite en precisión con proveedores líderes y que v2 Realtime aporta el eslabón de baja latencia para casos en vivo.


