Plataforma de Speech AI para desarrolladores

La plataforma de Speech AI que mueve Voxist — y tu producto.

Reconocimiento de voz de nivel de producción, texto a voz neural, traducción automática, diarización de hablantes e identificación de idioma. Los mismos motores que mueven una plataforma de conocimiento Fortune 100 y un contact center Fortune 500. Precios transparentes en euros. Despliegue soberano desde el primer día.

Obtén tu clave API Leer la documentación

api.voxist.com200 OK

$ curl https://api.voxist.com/v1/transcribe \
  -H "Authorization: Bearer $VOXIST_API_KEY" \
  -F audio=@call.wav \
  -F language=fr -F diarize=true

{
  "text": "bonjour, je vous appelle…",
  "language": "fr",
  "words": [{ "w":"bonjour", "t":0.12, "c":0.99 }]
}

$ curl https://api.voxist.com/v1/synthesize \
  -F text="Votre colis arrive demain." \
  -F voice=fr_neural_1 -F format=wav

$ curl https://api.voxist.com/v1/translate \
  -F from=fr -F to=de \
  -F stream=true -F audio=@call.wav

marcas de tiempo por palabraEUR / second8.9 streams/vCPU

El problema

La distancia que crece en silencio

El dolor

Tu proveedor de Speech AI es estadounidense por defecto

Deepgram, AssemblyAI, ElevenLabs, Speechmatics (ahora de propiedad estadounidense), Cartesia. Todas las grandes API de Speech AI se construyen y alojan en Estados Unidos. El camino más barato hacia «IA de voz en nuestro producto» es el que pone el audio de tus clientes en una nube estadounidense, bajo el CLOUD Act, con el siguiente memorando de cumplimiento esperando a ser escrito. Has construido así porque no había alternativa real. Ahora la hay.

El coste

El inglés es el único idioma para el que realmente optimizaron

La mayoría de las API de Speech AI nacieron english-first y añadieron otros idiomas después. Los benchmarks lo muestran: tasas de error por palabra que se duplican al pasar del inglés al francés, que vuelven a empeorar con acentos regionales y que se rompen del todo con los cambios de idioma. Si tu producto sirve a usuarios europeos en cualquier idioma que no sea el inglés, estás pagando por un modelo que pierde frente a un motor especializado en las conversaciones que tus usuarios tienen de verdad.

Con Voxist

Tu factura de infraestructura crece con el uso. No debería

Las API de Speech AI convencionales se facturan por minuto, y detrás de ese precio por minuto hay una GPU en alguna parte. A escala, estás financiando un alquiler de GPU con un buen margen. El ASR de Voxist funciona en CPU: 8,9 streams simultáneos por vCPU con un factor de tiempo real inferior a 1,05. La economía es distinta. La factura es distinta. El despliegue es distinto.

Cómo funciona

Seis endpoints, una plataforma, tres modelos de despliegue

Endpoint	Qué hace
/v1/transcribe	Voz a texto. Streaming o batch. 40+ idiomas.
/v1/synthesize	Texto a voz. Voces neurales, clonación de voz disponible.
/v1/translate	Traducción automática. Texto o voz a voz en streaming.
/v1/diarize	Separación de hablantes. A menudo combinada con la transcripción.
/v1/detect-language	Identificación de idioma en menos de 100 ms, sobre audio o texto.
/v1/vad	Detección de actividad de voz. Desplegable en el edge.

Tres modelos de despliegue

Voxist Cloud

El predeterminado. Alojado en Europa (OVHcloud, Scaleway), RGPD-nativo, precios transparentes en euros por segundo de audio.

Voxist Private Cloud

Tu propia VPC en la nube que elijas. Cifrado bring-your-own-key. Residencia de datos bajo tu control.

Voxist On-Premise

La plataforma completa en tu centro de datos, en tu hardware. Opción air-gapped para defensa y sector público.

Un SDK por cada lenguaje en el que programas de verdad. Python, Node.js, Go, Rust, Java, .NET. OpenAPI 3.0 para todo lo demás, WebRTC y gRPC para streaming, ejemplos ejecutables en cada página de la documentación.

Leer el quickstart

Funciones

Hecho para las tareas realmente difíciles

40+ idiomas con profundidad europea

francés con un 4,2 % de WER. Alemán, español, italiano, portugués, neerlandés, polaco, checo, húngaro, y creciendo. Cada idioma es de nivel de producción y se mide públicamente.

Streaming y batch

latencia de primer audio inferior a 200 ms para casos en tiempo real, procesamiento batch para cargas de documentos y grabaciones de alto volumen.

Diarización de hablantes

separación automática de hablantes, con marcas de tiempo por hablante y etiquetas consistentes en audios largos.

Traducción en 40+ idiomas

VoxTranslate, n.º 2 mundial en COMET en pares europeos centrados en el francés, por delante de DeepL en 17 de 20 pares.

TTS neural con clonación de voz

síntesis de voz de sonido natural. Clonación de voz a medida bajo petición. Preservación de la voz (clonación en tiempo real de la voz del hablante) en la hoja de ruta para finales de 2026.

Vocabularios de dominio

vocabularios médico, jurídico, técnico y financiero precargados. Vocabulario a medida por cliente en contratos enterprise.

Streaming en tiempo real por WebSocket y gRPC

para casos de uso en los que la latencia de ida y vuelta HTTP es el cuello de botella.

Marcas de tiempo y confianza por palabra

cada transcripción devuelve offsets y puntuaciones de confianza a nivel de palabra — aptos para subtítulos sincronizados, construcción de índices de búsqueda y supervisión de calidad.

Despliegue CPU-first

el ASR de Voxist funciona con 8,9 streams simultáneos por vCPU con un RTF inferior a 1,05. La mayoría de la competencia necesita infraestructura GPU para el tiempo real.

Pruebas

Los motores que mueven nuestros productos enterprise son los motores a los que llamas

No existe un ASR o un TTS «de nivel desarrollador» aparte en la API de Voxist. Exactamente los mismos modelos — los mismos checkpoints, los mismos datos de entrenamiento, la misma ingeniería — mueven la Dynamic AI Interview de Voxcept en un FMCG del Fortune 100, el contact center Voxlive y la base de 30.000 usuarios de Voxreply. Cuando llamas a /v1/transcribe, llamas al motor que gestiona tráfico empresarial a escala.

4.2%

WER en francés (ASR)

<200ms

latencia de primer audio P95

8.9

streams simultáneos / vCPU

COMET · pares centrados en el francés

17/20

pares por delante de DeepL

18/20

pares por delante de GPT-4o

40+

idiomas soportados

1000 min

gratis / mes · sin tarjeta

Lo que lo hace Voxist

Cuatro pilares, siempre

Latencia

Economía de ASR CPU-first

El motor ASR de Voxist sostiene 8,9 streams simultáneos por vCPU con un factor de tiempo real inferior a 1,05 — unas 3,5 veces la densidad de CPU de Speechmatics, y único entre los grandes proveedores de Speech AI en no exigir infraestructura GPU para el tiempo real. El coste por hora de audio, en CPU Intel estándar, es de 0,0047 €. Esa economía se traslada directamente a nuestros precios públicos — y a tu presupuesto de infraestructura si despliegas on-premise.

Idiomas

Profundidad francesa y europea, no una localización

ASR francés con un 4,2 % de WER. Traducción n.º 2 mundial en COMET en pares centrados en el francés, con las mayores diferencias sobre DeepL justo en los pares donde esperarías que ganara un motor especializado: francés ↔ alemán, francés ↔ polaco, francés ↔ húngaro. Cada idioma se mide públicamente en el leaderboard de Voxist, con metodología completa, actualizado cada mes.

Soberanía

Despliegue soberano desde el primer día

La API de Voxist es la única gran plataforma de Speech AI que ofrece los tres modelos de despliegue con paridad total de funciones: SaaS en nube europea, nube privada en tu VPC, y totalmente on-premise (incluidos los modelos) dentro de tu centro de datos. Para los sectores regulados — sanidad, defensa, sector público, finanzas — esta es la matriz de despliegue que no existe en ningún otro sitio.

Resultados

Resultados sobre los que la documentación no miente

Cada afirmación de esta página enlaza a un benchmark público, a un despliegue de cliente o a una cifra documentada. El ranking COMET es independiente. El benchmark de eficiencia de CPU se publica con metodología completa. Las cifras de latencia son P95 de tráfico de producción, no de condiciones de laboratorio. Voxist Status (status.voxist.com) muestra en tiempo real la disponibilidad de la plataforma y el historial de incidentes.

La comparación

Una comparación corta y honesta

	Deepgram	AssemblyAI	Speechmatics	ElevenLabs
Creado y alojado en Europa	—	—	UK (US-owned)	—
Francés con un 4,2 % de WER	English-first	English-first	Strong	N/A
Despliegue CPU-first	GPU necesaria	GPU necesaria	Partial	GPU necesaria
Opción on-premise	Limited	—	Limited	—
Precios transparentes en euros	❌ (USD)	❌ (USD)	❌ (USD)	❌ (USD)
1000 minutos gratis, sin tarjeta	Gratuito limitado	Plan gratuito	Gratuito limitado	Plan gratuito

Ver la comparativa completa API de Voxist vs Deepgram →Ver la comparativa completa API de Voxist vs AssemblyAI →Ver la comparativa completa API de Voxist vs Speechmatics →Ver la comparativa completa API de Voxist vs ElevenLabs →Ver la comparativa completa API de Voxist vs Cartesia →

El ecosistema

Una plataforma, seis productos, un flywheel

Replica la Dynamic AI Interview de Voxcept

/v1/transcribe + /v1/diarize + tu propio stack de LLM y retrieval.

Replica la asistencia al agente de Voxlive

/v1/transcribe en streaming + /v1/translate + extracción de intención de tu lado.

Replica la traducción de voz a voz de Voxlingo

encadena /v1/transcribe → /v1/translate → /v1/synthesize sobre WebSocket.

Replica la recepcionista IA de Voxreply

combina ASR en streaming, TTS y el LLM que prefieras en un agente conectado por SIP.

Replica la captura de reuniones de Voxmemo

/v1/transcribe en batch + /v1/diarize + tu propia capa de resumen.

Cumplimiento y confianza

RGPD-nativoListo para el EU AI ActHoja de ruta SecNumCloudSOC 2 Type II (en curso)ISO 27001 (en curso)Alojamiento HDSSin entrenamiento con audio de clientesOpción on-premiseOpción air-gapped

FAQ

Tus preguntas, respondidas

¿Cómo se compara la API de Voxist con Deepgram o AssemblyAI?

Deepgram y AssemblyAI son dos plataformas de Speech AI estadounidenses excelentes, con gran rendimiento en inglés y amplios ecosistemas de desarrolladores. La API de Voxist supera a ambas en precisión en francés y en idiomas europeos (4,2 % de WER en francés), funciona CPU-first (8,9 streams/vCPU) donde ellas requieren GPU, ofrece un despliegue on-premise que ellas no tienen y factura en euros, sin riesgo de cambio. La elección correcta depende de tu prioridad de idiomas, tus requisitos de despliegue y tu estrategia de residencia de datos. Mira la comparativa completa.

¿Puedo ejecutar la API de Voxist on-premise, incluidos los modelos?

Sí. Voxist es una de las muy pocas plataformas de Speech AI con opción de despliegue totalmente on-premise, incluidos los modelos de ASR, TTS y traducción. Se soportan la nube soberana (OVHcloud, Scaleway), la nube privada (tu propia VPC en cualquier gran proveedor) y los despliegues air-gapped. La economía del despliegue es transparente: con nuestra eficiencia de CPU publicada, el coste total on-premise baja por debajo del cloud a partir de unos 50.000–100.000 minutos de tráfico mensual.

¿Cuál es el SLA?

99,95 % de disponibilidad de plataforma en despliegues cloud. Cinco nueves (99,999 %) en contratos enterprise dedicados. Latencia de primer audio P95 inferior a 200 ms en ASR streaming, P99 inferior a 500 ms. Estado en tiempo real en status.voxist.com.

¿Entrenáis con mi audio?

No. Voxist no usa audio de clientes para entrenar modelos. Es un principio de diseño no negociable de la plataforma, en todos los planes, incluido el gratuito. Política detallada de tratamiento de datos en /company/security/.

¿Qué idiomas soportáis exactamente?

Más de 40 idiomas, con profundidad de producción en los europeos. La matriz completa, con WER y latencia por idioma, se publica en el leaderboard ASR de Voxist. Para traducción, la matriz de pares puntuada con COMET se publica en el leaderboard de traducción de Voxist. Ambos se actualizan cada mes.

¿Qué diferencia hay entre la API de Voxist y Whisper de OpenAI / Azure / Google Cloud Speech?

Whisper es un modelo open source, no una API alojada; lo ejecutas tú mismo (o lo contratas a través de uno de los muchos servicios de Whisper alojado). Azure y Google Cloud Speech son API de voz generalistas de hiperescaladores estadounidenses, alojadas en nube estadounidense (con regiones europeas disponibles, pero bajo el CLOUD Act). La API de Voxist está construida a propósito en Europa, con una profundidad en francés y en idiomas europeos para la que esas API generalistas no optimizan, y con opciones de despliegue soberano que ellas no pueden ofrecer.

¿Ofrecéis clonación de voz?

Sí — el TTS de Voxist soporta clonación de voz a medida en contratos enterprise. Bastan sesenta segundos de audio fuente de alta calidad. La preservación de la voz en la traducción en tiempo real (reproducir el audio traducido con la propia voz del hablante original) está en la hoja de ruta para finales de 2026.

¿Puedo usar la API de Voxist para dictado médico, jurídico o financiero?

Sí — los vocabularios de dominio médico, jurídico, técnico y financiero vienen precargados. El vocabulario a medida por cliente se soporta en contratos enterprise. Los datos de salud se alojan en infraestructura certificada HDS en Francia.

¿Cómo empiezo?

Crea una clave API gratuita en voxist.com/api/signup. 1000 minutos al mes gratis, sin tarjeta. Documentación, SDK y ejemplos de código en developers.voxist.com. Soporte de la comunidad vía Discord; los planes de pago incluyen soporte directo con tiempos de respuesta respaldados por SLA.

¿Hay una página de estado?

Sí — status.voxist.com. Salud de la plataforma en tiempo real, disponibilidad regional, historial de incidentes e informes de SLA.

¿Tenéis comunidad / presencia open source?

Voxist contribuye a varios proyectos open source del ámbito de la Speech AI (ver github.com/voxist) y participa en colaboraciones de investigación ELLIOT (Horizon Europe). El equipo de Voxist publica en arXiv y en conferencias de voz y traducción. Las páginas de Benchmarks de Voxist publican la metodología y el código de nuestros benchmarks públicos para que puedan reproducirse y cuestionarse.

Construye sobre la plataforma de Speech AI que procesa tráfico de producción.

Obtén tu clave API

Inglés y francés · Alojado en la UE · ningún audio se usa para entrenar modelos