La plataforma de Speech AI que mueve Voxist — y tu producto.
Reconocimiento de voz de nivel de producción, texto a voz neural, traducción automática, diarización de hablantes e identificación de idioma. Los mismos motores que mueven una plataforma de conocimiento Fortune 100 y un contact center Fortune 500. Precios transparentes en euros. Despliegue soberano desde el primer día.
$ curl https://api.voxist.com/v1/transcribe \ -H "Authorization: Bearer $VOXIST_API_KEY" \ -F audio=@call.wav \ -F language=fr -F diarize=true { "text": "bonjour, je vous appelle…", "language": "fr", "words": [{ "w":"bonjour", "t":0.12, "c":0.99 }] }
$ curl https://api.voxist.com/v1/synthesize \ -F text="Votre colis arrive demain." \ -F voice=fr_neural_1 -F format=wav
$ curl https://api.voxist.com/v1/translate \ -F from=fr -F to=de \ -F stream=true -F audio=@call.wav
La distancia que crece en silencio
Tu proveedor de Speech AI es estadounidense por defecto
Deepgram, AssemblyAI, ElevenLabs, Speechmatics (ahora de propiedad estadounidense), Cartesia. Todas las grandes API de Speech AI se construyen y alojan en Estados Unidos. El camino más barato hacia «IA de voz en nuestro producto» es el que pone el audio de tus clientes en una nube estadounidense, bajo el CLOUD Act, con el siguiente memorando de cumplimiento esperando a ser escrito. Has construido así porque no había alternativa real. Ahora la hay.
El inglés es el único idioma para el que realmente optimizaron
La mayoría de las API de Speech AI nacieron english-first y añadieron otros idiomas después. Los benchmarks lo muestran: tasas de error por palabra que se duplican al pasar del inglés al francés, que vuelven a empeorar con acentos regionales y que se rompen del todo con los cambios de idioma. Si tu producto sirve a usuarios europeos en cualquier idioma que no sea el inglés, estás pagando por un modelo que pierde frente a un motor especializado en las conversaciones que tus usuarios tienen de verdad.
Tu factura de infraestructura crece con el uso. No debería
Las API de Speech AI convencionales se facturan por minuto, y detrás de ese precio por minuto hay una GPU en alguna parte. A escala, estás financiando un alquiler de GPU con un buen margen. El ASR de Voxist funciona en CPU: 8,9 streams simultáneos por vCPU con un factor de tiempo real inferior a 1,05. La economía es distinta. La factura es distinta. El despliegue es distinto.
Seis endpoints, una plataforma, tres modelos de despliegue
| Endpoint | Qué hace |
|---|---|
| /v1/transcribe | Voz a texto. Streaming o batch. 40+ idiomas. |
| /v1/synthesize | Texto a voz. Voces neurales, clonación de voz disponible. |
| /v1/translate | Traducción automática. Texto o voz a voz en streaming. |
| /v1/diarize | Separación de hablantes. A menudo combinada con la transcripción. |
| /v1/detect-language | Identificación de idioma en menos de 100 ms, sobre audio o texto. |
| /v1/vad | Detección de actividad de voz. Desplegable en el edge. |
Tres modelos de despliegue
El predeterminado. Alojado en Europa (OVHcloud, Scaleway), RGPD-nativo, precios transparentes en euros por segundo de audio.
Tu propia VPC en la nube que elijas. Cifrado bring-your-own-key. Residencia de datos bajo tu control.
La plataforma completa en tu centro de datos, en tu hardware. Opción air-gapped para defensa y sector público.
Un SDK por cada lenguaje en el que programas de verdad. Python, Node.js, Go, Rust, Java, .NET. OpenAPI 3.0 para todo lo demás, WebRTC y gRPC para streaming, ejemplos ejecutables en cada página de la documentación.
Hecho para las tareas realmente difíciles
40+ idiomas con profundidad europea
francés con un 4,2 % de WER. Alemán, español, italiano, portugués, neerlandés, polaco, checo, húngaro, y creciendo. Cada idioma es de nivel de producción y se mide públicamente.
Streaming y batch
latencia de primer audio inferior a 200 ms para casos en tiempo real, procesamiento batch para cargas de documentos y grabaciones de alto volumen.
Diarización de hablantes
separación automática de hablantes, con marcas de tiempo por hablante y etiquetas consistentes en audios largos.
Traducción en 40+ idiomas
VoxTranslate, n.º 2 mundial en COMET en pares europeos centrados en el francés, por delante de DeepL en 17 de 20 pares.
TTS neural con clonación de voz
síntesis de voz de sonido natural. Clonación de voz a medida bajo petición. Preservación de la voz (clonación en tiempo real de la voz del hablante) en la hoja de ruta para finales de 2026.
Vocabularios de dominio
vocabularios médico, jurídico, técnico y financiero precargados. Vocabulario a medida por cliente en contratos enterprise.
Streaming en tiempo real por WebSocket y gRPC
para casos de uso en los que la latencia de ida y vuelta HTTP es el cuello de botella.
Marcas de tiempo y confianza por palabra
cada transcripción devuelve offsets y puntuaciones de confianza a nivel de palabra — aptos para subtítulos sincronizados, construcción de índices de búsqueda y supervisión de calidad.
Despliegue CPU-first
el ASR de Voxist funciona con 8,9 streams simultáneos por vCPU con un RTF inferior a 1,05. La mayoría de la competencia necesita infraestructura GPU para el tiempo real.
Los motores que mueven nuestros productos enterprise son los motores a los que llamas
No existe un ASR o un TTS «de nivel desarrollador» aparte en la API de Voxist. Exactamente los mismos modelos — los mismos checkpoints, los mismos datos de entrenamiento, la misma ingeniería — mueven la Dynamic AI Interview de Voxcept en un FMCG del Fortune 100, el contact center Voxlive y la base de 30.000 usuarios de Voxreply. Cuando llamas a /v1/transcribe, llamas al motor que gestiona tráfico empresarial a escala.
Cuatro pilares, siempre
Economía de ASR CPU-first
El motor ASR de Voxist sostiene 8,9 streams simultáneos por vCPU con un factor de tiempo real inferior a 1,05 — unas 3,5 veces la densidad de CPU de Speechmatics, y único entre los grandes proveedores de Speech AI en no exigir infraestructura GPU para el tiempo real. El coste por hora de audio, en CPU Intel estándar, es de 0,0047 €. Esa economía se traslada directamente a nuestros precios públicos — y a tu presupuesto de infraestructura si despliegas on-premise.
Profundidad francesa y europea, no una localización
ASR francés con un 4,2 % de WER. Traducción n.º 2 mundial en COMET en pares centrados en el francés, con las mayores diferencias sobre DeepL justo en los pares donde esperarías que ganara un motor especializado: francés ↔ alemán, francés ↔ polaco, francés ↔ húngaro. Cada idioma se mide públicamente en el leaderboard de Voxist, con metodología completa, actualizado cada mes.
Despliegue soberano desde el primer día
La API de Voxist es la única gran plataforma de Speech AI que ofrece los tres modelos de despliegue con paridad total de funciones: SaaS en nube europea, nube privada en tu VPC, y totalmente on-premise (incluidos los modelos) dentro de tu centro de datos. Para los sectores regulados — sanidad, defensa, sector público, finanzas — esta es la matriz de despliegue que no existe en ningún otro sitio.
Resultados sobre los que la documentación no miente
Cada afirmación de esta página enlaza a un benchmark público, a un despliegue de cliente o a una cifra documentada. El ranking COMET es independiente. El benchmark de eficiencia de CPU se publica con metodología completa. Las cifras de latencia son P95 de tráfico de producción, no de condiciones de laboratorio. Voxist Status (status.voxist.com) muestra en tiempo real la disponibilidad de la plataforma y el historial de incidentes.
Una comparación corta y honesta
| Voxist API | Deepgram | AssemblyAI | Speechmatics | ElevenLabs | |
|---|---|---|---|---|---|
| Creado y alojado en Europa | — | — | UK (US-owned) | — | |
| Francés con un 4,2 % de WER | English-first | English-first | Strong | N/A | |
| Despliegue CPU-first | GPU necesaria | GPU necesaria | Partial | GPU necesaria | |
| Opción on-premise | Limited | — | Limited | — | |
| Precios transparentes en euros | ❌ (USD) | ❌ (USD) | ❌ (USD) | ❌ (USD) | |
| 1000 minutos gratis, sin tarjeta | Gratuito limitado | Plan gratuito | Gratuito limitado | Plan gratuito |
Una plataforma, seis productos, un flywheel
/v1/transcribe + /v1/diarize + tu propio stack de LLM y retrieval.
/v1/transcribe en streaming + /v1/translate + extracción de intención de tu lado.
encadena /v1/transcribe → /v1/translate → /v1/synthesize sobre WebSocket.
combina ASR en streaming, TTS y el LLM que prefieras en un agente conectado por SIP.
/v1/transcribe en batch + /v1/diarize + tu propia capa de resumen.
Tus preguntas, respondidas
¿Cómo se compara la API de Voxist con Deepgram o AssemblyAI?
¿Puedo ejecutar la API de Voxist on-premise, incluidos los modelos?
¿Cuál es el SLA?
¿Entrenáis con mi audio?
¿Qué idiomas soportáis exactamente?
¿Qué diferencia hay entre la API de Voxist y Whisper de OpenAI / Azure / Google Cloud Speech?
¿Ofrecéis clonación de voz?
¿Puedo usar la API de Voxist para dictado médico, jurídico o financiero?
¿Cómo empiezo?
¿Hay una página de estado?
¿Tenéis comunidad / presencia open source?
Construye sobre la plataforma de Speech AI que procesa tráfico de producción.
Inglés y francés · Alojado en la UE · ningún audio se usa para entrenar modelos