La plateforme Speech AI qui fait tourner Voxist — et votre produit.
Reconnaissance vocale, synthèse neurale, traduction automatique, diarisation et identification de langue — au niveau production. Les mêmes moteurs qui font tourner un groupe du Fortune 100 et un centre de contacts du Fortune 500. Tarification EUR transparente. Déploiement souverain dès le premier jour.
$ curl https://api.voxist.com/v1/transcribe \ -H "Authorization: Bearer $VOXIST_API_KEY" \ -F audio=@call.wav \ -F language=fr -F diarize=true { "text": "bonjour, je vous appelle…", "language": "fr", "words": [{ "w":"bonjour", "t":0.12, "c":0.99 }] }
$ curl https://api.voxist.com/v1/synthesize \ -F text="Votre colis arrive demain." \ -F voice=fr_neural_1 -F format=wav
$ curl https://api.voxist.com/v1/translate \ -F from=fr -F to=de \ -F stream=true -F audio=@call.wav
Un écart qui se creuse en silence
Votre fournisseur Speech AI est américain par défaut
Deepgram, AssemblyAI, ElevenLabs, Speechmatics (désormais détenu par des Américains), Cartesia. Toutes les grandes API Speech AI sont construites et hébergées aux États-Unis. La voie la moins chère vers « la voix IA dans notre produit » est celle qui envoie les données audio de vos clients vers un cloud américain, sous le CLOUD Act, avec la prochaine note de conformité à venir. Vous avez procédé ainsi faute de vraie alternative. Elle existe maintenant.
L'anglais est la seule langue qu'ils ont vraiment optimisée
La plupart des API Speech AI ont été construites en anglais en premier et ont ajouté d'autres langues ensuite. Les chiffres le montrent : des taux d'erreur qui doublent quand vous passez de l'anglais au français, qui diminuent encore sur les accents régionaux, et qui s'effondrent sur le code-switching. Si votre produit sert des utilisateurs européens dans une langue autre que l'anglais, vous payez pour un modèle qui perd face à un moteur spécialisé sur les conversations que vos utilisateurs ont réellement.
Votre facture infrastructure croît avec votre usage. Ça ne devrait pas.
Les API Speech AI traditionnelles sont facturées à la minute, et le tarif à la minute suppose un GPU quelque part de l'autre côté. À l'échelle, vous financez une location de GPU à marge significative. L'ASR de Voxist tourne sur CPU — 8,9 flux simultanés par vCPU avec un facteur temps réel inférieur à 1,05. L'économie est différente. La facture est différente. Le déploiement est différent.
Six endpoints, une plateforme, trois modèles de déploiement
| Endpoint | Ce qu'il fait |
|---|---|
| /v1/transcribe | Parole-texte. Flux ou batch. 40+ langues. |
| /v1/synthesize | Texte-parole. Voix neurales, clonage de voix disponible. |
| /v1/translate | Traduction automatique. Texte ou voix-à-voix en temps réel. |
| /v1/diarize | Séparation de locuteurs. Souvent combinée à la transcription. |
| /v1/detect-language | Identification de langue en moins de 100 ms sur audio ou texte. |
| /v1/vad | Détection d'activité vocale. Déployable à la périphérie. |
Trois modèles de déploiement
Par défaut. Hébergé en Europe (OVHcloud, Scaleway), RGPD natif, tarification EUR transparente à la seconde d'audio.
Votre propre VPC sur le cloud de votre choix. Chiffrement avec vos propres clés. Résidence des données sous votre contrôle.
La plateforme complète dans votre datacenter, sur votre matériel. Option air-gap pour la défense et le secteur public.
Un SDK par langage que vous codez réellement. Python, Node.js, Go, Rust, Java, .NET. OpenAPI 3.0 pour tout le reste, WebRTC et gRPC pour le streaming, exemples exécutables sur chaque page de documentation.
Conçu pour bien faire les choses difficiles
40+ langues avec une profondeur européenne
Français à 4,2 % WER. Allemand, espagnol, italien, portugais, néerlandais, polonais, tchèque, hongrois, et d'autres à venir. Chaque langue est au niveau production et benchmarkée publiquement.
Streaming et batch
Latence premier-audio inférieure à 200 ms pour les cas d'usage en temps réel, traitement batch pour les charges documentaires et d'enregistrement à haut débit.
Diarisation des locuteurs
Séparation automatique des locuteurs, avec horodatage par locuteur et étiquettes cohérentes sur les longues durées.
Traduction en 40+ langues
VoxTranslate, classé COMET #2 mondial sur les paires centrées sur le français, devançant DeepL sur 17 paires sur 20.
TTS neural avec clonage de voix
Synthèse vocale au rendu naturel. Clonage de voix personnalisé disponible sur demande. Préservation de voix (clonage en temps réel) sur la feuille de route pour fin 2026.
Vocabulaires de domaine
Vocabulaires médical, juridique, technique, financier préchargés. Vocabulaire personnalisé par client sur contrats enterprise.
Streaming temps réel WebSocket et gRPC
Pour les cas où la latence HTTP aller-retour est le facteur limitant.
Horodatages au niveau du mot et scores de confiance
Chaque transcription retourne des offsets au niveau du mot et une confiance par mot, adaptés aux sous-titres synchronisés, à la construction d'index de recherche et au monitoring qualité.
Déploiement CPU-first
L'ASR Voxist tourne à 8,9 flux simultanés par vCPU avec un RTF inférieur à 1,05. La plupart des concurrents nécessitent une infrastructure GPU pour le travail en temps réel.
Les mêmes moteurs qui propulsent nos produits enterprise sont ceux que vous appelez
Il n'existe pas d'ASR ou de TTS « développeurs » séparé sur l'API Voxist. Les mêmes modèles — les mêmes checkpoints, les mêmes données d'entraînement, le même engineering — propulsent l'Interview IA Dynamique de Voxcept pour un groupe Fortune 100 FMCG, le centre de contacts de Voxlive, et la base de 30 000 utilisateurs Voxreply. Quand vous appelez /v1/transcribe, vous appelez le moteur qui gère du trafic enterprise à l'échelle.
Quatre piliers, à chaque fois
Économie ASR CPU-first
Le moteur ASR de Voxist soutient 8,9 flux simultanés par vCPU avec un facteur temps réel inférieur à 1,05 — environ 3,5× la densité CPU de Speechmatics, et unique parmi les grands fournisseurs Speech AI à ne pas nécessiter de GPU pour le temps réel. Le coût par heure audio, sur des CPU Intel standard, est de 0,0047 €. Cette économie se reflète directement dans nos tarifs publics et dans votre budget infrastructure si vous déployez on-premise.
La profondeur française et européenne, pas une localisation
ASR français à 4,2 % WER. Traduction COMET #2 mondial sur les paires centrées sur le français, avec les plus grands écarts sur DeepL là où vous attendriez un moteur spécialisé — français ↔ allemand, français ↔ polonais, français ↔ hongrois. Chaque langue est benchmarkée publiquement sur le leaderboard Voxist, avec méthodologie complète, mise à jour mensuelle.
Déploiement souverain dès le premier jour
Voxist API est la seule grande plateforme Speech AI proposant les trois modèles de déploiement avec parité complète : SaaS sur cloud européen, cloud privé sur votre VPC, entièrement on-premise (y compris les modèles) dans votre datacenter. Pour les industries réglementées — santé, défense, secteur public, finance — c'est la matrice de déploiement qui n'existe nulle part ailleurs.
Des résultats que la documentation n'invente pas
Chaque affirmation sur cette page renvoie à un benchmark public, un déploiement client ou un chiffre documenté. Le classement COMET est indépendant. Le benchmark d'efficacité CPU est publié avec méthodologie complète. Les chiffres de latence sont des P95 issus du trafic de production, pas de conditions de laboratoire. Voxist Status (status.voxist.com) affiche la disponibilité en temps réel de la plateforme et l'historique des incidents.
Une comparaison courte et honnête
| Voxist API | Deepgram | AssemblyAI | Speechmatics | ElevenLabs | |
|---|---|---|---|---|---|
| Construit et hébergé en Europe | — | — | UK (US-owned) | — | |
| Français à 4,2 % WER | English-first | English-first | Strong | N/A | |
| Déploiement CPU-first | GPU requis | GPU requis | Partial | GPU requis | |
| Option on-premise | Limited | — | Limited | — | |
| Tarification EUR transparente | ❌ (USD) | ❌ (USD) | ❌ (USD) | ❌ (USD) | |
| 1000 minutes gratuites, sans CB | Gratuit limité | Offre gratuite | Gratuit limité | Offre gratuite |
Une plateforme, six produits, un volant d'inertie
utilisez /v1/transcribe + /v1/diarize + votre propre stack LLM et retrieval.
utilisez /v1/transcribe en streaming + /v1/translate + extraction d'intention de votre côté.
chaînez /v1/transcribe → /v1/translate → /v1/synthesize sur WebSocket.
combinez ASR streaming, TTS et le LLM de votre choix dans un agent attaché à SIP.
batch /v1/transcribe + /v1/diarize + votre propre couche de résumé.
Questions fréquentes
Comment Voxist API se compare-t-il à Deepgram ou AssemblyAI ?
Puis-je déployer Voxist API on-premise, y compris les modèles ?
Quel est le SLA ?
Utilisez-vous mon audio pour l'entraînement ?
Quelles langues supportez-vous exactement ?
Quelle est la différence entre Voxist API et Whisper d'OpenAI / Azure / Google Cloud Speech ?
Proposez-vous le clonage de voix ?
Puis-je utiliser Voxist API pour la dictée médicale, juridique ou financière ?
Comment démarrer ?
Y a-t-il une page de statut ?
Avez-vous une présence communautaire / open-source ?
Construisez avec la plateforme Speech AI qui fait tourner du trafic de production.
Anglais & français · Hébergé en UE · sans entraînement sur audio client