Traducción de voz en tiempo real

Traducción de voz en tiempo real para que la conversación no se detenga.

Voxlingo traduce de voz a voz en tiempo real en más de 40 idiomas. Pensado para empresas europeas que operan a través de fronteras, n.º 2 mundial en benchmarks de pares de traducción centrados en el francés, y desplegable allí donde tus conversaciones deben quedarse.

Voice TranslationLive
FrançaisPouvez-vous confirmer le délai de livraison ?
文 ⇄ A · 0.8s
DeutschKönnen Sie den Liefertermin bestätigen?
voz → vozCOMET #2
The problem

La brecha que crece en silencio

El dolor

Tus clientes no hablan todos el idioma de tus agentes

Una aseguradora española gestiona siniestros en rumano, árabe y francés. Un contact center alemán dirige cada día llamadas en inglés, italiano y turco. Una eléctrica belga atiende en francés, neerlandés y árabe. Contratar perfiles multilingües es caro. Los servicios de intérprete cuestan 0,80–2,00 € por minuto. El abandono de llamadas sube cuando cliente y agente no comparten idioma.

El coste

Tu API de traducción es genérica. Tus conversaciones no

La mayoría de las API de traducción se entrenaron con datos emparejados con el inglés y se ajustaron para traducir pivotando por el inglés. Francés → inglés → polaco funciona pasablemente. Francés → polaco en directo, con el vocabulario, el acento y el ritmo de una conversación en tiempo real, no. Los modelos genéricos traducen de forma aceptable. No traducen de forma excepcional en los pares que tus usuarios hablan de verdad.

Con Voxist

Voz a voz es difícil. Pocos proveedores lo hacen bien

La traducción es una parte del problema. El ASR es otra. El TTS, una tercera. El streaming en tiempo real, con latencia percibida inferior al segundo, una cuarta. Coser cuatro sistemas de IA en una experiencia conversacional única que no parezca un menú telefónico es lo que separa a Voxlingo de un producto que promete «traducción en vivo» pero se rompe en cuanto quien llama deja de hablar con frases de manual.

How it works

De voz a voz, en un solo pipeline de streaming

1

Capturar

La voz de quien llama se captura en tiempo real por SIP, WebRTC o el SDK de Voxlingo. El ASR de Voxist identifica el idioma en menos de 100 ms y empieza a transcribir en menos de 200 ms, con una salida en streaming que muestra las palabras según se reconocen, no al final de la frase.

2

Traducir

La transcripción en streaming fluye hacia VoxTranslate, nuestro motor de traducción propio, n.º 2 mundial en COMET sobre 20 pares lingüísticos europeos centrados en el francés en benchmarks independientes. El motor gestiona vacilaciones, acentos, terminología técnica y cambios de idioma a mitad de frase — lo que hacen las conversaciones reales.

3

Hablar

Una voz neural natural pronuncia la traducción en el idioma de destino, con una prosodia y un ritmo que acompañan al hablante original. La preservación de la voz (traducir con la propia voz del hablante) está en la hoja de ruta para finales de 2026. Latencia percibida de extremo a extremo: menos de un segundo.

4

Desplegar

Voxlingo funciona en tres configuraciones: como API SaaS para desarrolladores, como despliegue gestionado dentro de un contact center Voxlive, o como stack totalmente on-premise, incluidos los modelos de traducción. Cloud, soberano o air-gapped — tú eliges, tus datos, tu perímetro.

Capabilities

Hecho para las tareas realmente difíciles

Traducción de voz a voz en tiempo real

ASR, MT y TTS en streaming, integrados en un único pipeline con latencia percibida inferior al segundo.

40+ idiomas, 1.600+ pares

profundidad de producción en los idiomas europeos, cobertura creciente en idiomas asiáticos y africanos. Cada par está medido y publicado en el leaderboard de Voxist.

N.º 2 mundial en COMET en pares centrados en el francés

por delante de DeepL en 17 de 20 pares, por delante de GPT-4o en 18 de 20, a solo 0,0025 puntos COMET del n.º 1 global. Benchmark independiente, metodología pública.

Funciones de modo conversación

gestión de vacilaciones, detección de cambio de idioma, vocabularios de dominio (jurídico, médico, financiero, técnico), preservación del contexto entre turnos.

Modo subtítulos en directo

cuando la salida de audio no es apropiada (reuniones, eventos, retransmisiones), la traducción se muestra como transcripción sincronizada en directo.

Hoja de ruta de preservación de la voz

para finales de 2026, Voxlingo traducirá con la voz del hablante original usando la investigación de clonación de voz del TTS de Voxist. Hoy se usa una voz neutra y natural en el idioma de destino.

Desplegable on-premise

incluidos los modelos de traducción. Uno de los muy pocos productos de traducción de voz en tiempo real que no exige un viaje de ida y vuelta a la nube.

Proof

N.º 2 mundial en COMET en pares europeos centrados en el francés

En benchmarks COMET independientes sobre 20 pares lingüísticos europeos centrados en el francés, el motor de traducción de Voxlingo es n.º 2 mundial — por delante de DeepL, GPT-4o, Claude y las variantes de EuroLLM. Voxlingo supera a DeepL en 17 de 20 pares y a GPT-4o en 18 de 20, a solo 0,0025 puntos COMET del n.º 1 global.

#2
mundial · pares centrados en el francés
17/20
pares por delante de DeepL
18/20
pares por delante de GPT-4o
40+
idiomas soportados
PairVoxlingoDeepLMargin
French → German4th7th+0.0038
German → French4th7th+0.0038
French → Polish3rd7th+0.0036
French → Spanish3rd8th+0.0036
French → Hungarian4th7th+0.0040
Lo que lo hace Voxist

Cuatro fortalezas, en cada conversación

Latencia

Latencia percibida inferior al segundo, de extremo a extremo

El pipeline de streaming de Voxlingo — ASR, MT, TTS — funciona con menos de un segundo de latencia percibida de extremo a extremo, en conversaciones reales con acentos reales y vacilaciones reales. El pipeline es Voxist de principio a fin: sin viajes a terceros, sin saltos de API, sin caída de calidad cuando una frase queda a medias.

Idiomas

Especializado, no genérico

Voxlingo está construido para los idiomas europeos, con el francés en el centro. La mayoría de las API de traducción se entrenaron con datos emparejados con el inglés y traducen pivotando por el inglés. Voxlingo se entrena con pares directos — francés ↔ alemán, francés ↔ polaco, francés ↔ húngaro — y por eso la diferencia COMET sobre DeepL es más visible precisamente en esos pares.

Soberanía

Soberano por defecto

Voxlingo es uno de los muy pocos productos de traducción de voz en tiempo real con opción de despliegue totalmente on-premise, incluidos los modelos de traducción. Cloud, soberano (OVHcloud, Scaleway) o air-gapped. RGPD-nativo. Listo para el Reglamento de IA de la UE. Para sectores regulados — sanidad, defensa, administración pública, finanzas — esta es la combinación que no existe en ningún otro sitio.

Resultados

Resultados que puedes medir

Los despliegues de Voxlingo dentro de contact centers Voxlive reportan latencia percibida inferior al segundo, inteligibilidad a la par de un intérprete humano y una reducción del 60–80 % del gasto en intérpretes en el primer trimestre. Cada afirmación procede de un cliente real o de un benchmark público.

La comparación

Una comparación corta y honesta

VoxlingoDeepL VoiceKUDOWordly
Voz a voz en tiempo real✅ (con intérprete)
N.º 2 mundial en COMET en pares centrados en el francésSin benchmarkN/AN/A
Despliegue on-premise
Creado en Europa
40+ idiomas, en crecimiento40+200+ (human)60+
Preservación de la voz (hoja de ruta)Finales de 2026Finales de 2026Solo humano
Works with

Una plataforma, seis productos, un flywheel

Voxlingo se integra como capacidad nativa dentro del contact center Voxlive, funcionando en el auricular del agente o como canal agente-cliente totalmente traducido.

captura una entrevista a un experto en francés; consulta el grafo de conocimiento resultante en polaco o en árabe. Voxlingo se encarga de la recuperación entre idiomas dentro de Voxcept.

graba una reunión en entornos con varios idiomas; Voxlingo traduce la transcripción bajo demanda, a cualquiera de los idiomas soportados.

Voxlingo está expuesto como API de traducción para desarrolladores en voxist.com/api. Misma autenticación, mismos SDK, precios transparentes en euros.

Cumplimiento y confianza
RGPD-nativoListo para el EU AI ActHoja de ruta SecNumCloudSOC 2 Type II y ISO 27001 (en curso)Alojamiento HDSGrabación de llamadas conforme a MiFID IIOpción on-premiseOpción air-gapped
FAQ

Tus preguntas, respondidas

¿Qué precisión tiene Voxlingo en los idiomas europeos?
Voxlingo es n.º 2 mundial en COMET en pares europeos centrados en el francés en benchmarks independientes, superando a DeepL en 17 de 20 pares y a GPT-4o en 18 de 20. Las puntuaciones detalladas por par se publican en el leaderboard de traducción de Voxist.
¿Cuál es la latencia de extremo a extremo?
Menos de un segundo de latencia percibida, de extremo a extremo, en conversaciones reales. Primer audio del ASR en menos de 200 ms, traducción en streaming según llega la transcripción, TTS renderizando en paralelo.
¿Voxlingo puede funcionar on-premise?
Sí — incluidos los modelos de traducción, el ASR y el TTS. Voxlingo es uno de los muy pocos productos de traducción de voz en tiempo real con esta opción. También se soportan la nube soberana (OVHcloud, Scaleway) y el despliegue air-gapped.
¿La voz traducida sonará como el hablante original?
Hoy, no — se usa una voz neutra y natural en el idioma de destino. La preservación de la voz, en la que la traducción se reproduce con la propia voz del hablante original, está en la hoja de ruta para finales de 2026 y usa la investigación propia de clonación de voz del TTS de Voxist.
¿Qué idiomas soporta Voxlingo?
Más de 40, con profundidad de producción en los idiomas europeos. Francés ↔ todos los grandes idiomas de la UE (alemán, español, italiano, portugués, neerlandés, polaco, checo, húngaro). Inglés ↔ el mismo conjunto. Árabe, ruso, turco, mandarín y japonés en cobertura soportada. La matriz completa está en las páginas de pares de idiomas de Voxlingo.
¿Cómo se compara Voxlingo con DeepL Voice?
DeepL Voice y Voxlingo son los dos productos europeos líderes en traducción de voz en tiempo real. Voxlingo supera a DeepL en benchmarks COMET centrados en el francés (17 de 20 pares), funciona por debajo del segundo de extremo a extremo y ofrece un despliegue on-premise que DeepL no tiene. DeepL tiene hoy más reconocimiento de marca y una integración más profunda con Microsoft Teams. Mira la comparativa completa.
¿Cómo se compara Voxlingo con KUDO o Wordly?
KUDO y Wordly son plataformas de traducción para eventos — grandes conferencias, eventos híbridos, retransmisiones. Voxlingo es un producto de traducción conversacional en tiempo real, optimizado para la traducción de voz uno a uno y en grupos pequeños, en contextos de contact center y comunicación de negocio. Quien evalúa KUDO frente a Voxlingo suele estar comprando para trabajos distintos.
¿Voxlingo funciona con nuestra plataforma SIP / WebRTC / de llamadas?
Sí. Voxlingo expone interfaces SIP, WebRTC y gRPC, además de SDK para Python, Node, Go, Rust, Java y .NET. Integración nativa con el contact center Voxlive; integración documentada con Cisco Webex (vía Mobility Services Platform), Microsoft Teams, Zoom, Genesys Cloud y NICE CXone.
¿Voxlingo gestiona acentos, cambios de idioma y vocabulario técnico?
Sí — son justo las cosas para las que el motor se entrenó específicamente. El cambio de idioma (alguien que pasa del español al inglés a mitad de frase) se detecta automáticamente. Los vocabularios de dominio (jurídico, médico, financiero, técnico) pueden ajustarse por cliente.
¿La app móvil de voxlingo.com es el mismo producto?
La app móvil es un escaparate de demostración pensado para que los usuarios experimenten la tecnología de primera mano. Funciona con el mismo motor de traducción que el producto empresarial, pero con límites diarios, sin SLA, sin soporte de integración, sin opción on-premise y sin ajuste de dominio. Para uso profesional, el producto empresarial es la puerta de entrada correcta.
¿Voxlingo puede traducir lengua de signos?
Hoy no. La traducción de lengua de signos es un problema técnico distinto — requiere reconocimiento de gestos, no de habla — y no está en la hoja de ruta de Voxlingo. KUDO ofrece cobertura de lengua de signos con intérpretes humanos si ese es el requisito.

Lleva tus operaciones multilingües sobre IA europea.

Reserva una demo de 30 minutos

Inglés y francés · Alojado en la UE · ningún audio se usa para entrenar modelos