Plateforme Speech AI pour développeurs

La plateforme Speech AI qui fait tourner Voxist — et votre produit.

Reconnaissance vocale, synthèse neurale, traduction automatique, diarisation et identification de langue — au niveau production. Les mêmes moteurs qui font tourner un groupe du Fortune 100 et un centre de contacts du Fortune 500. Tarification EUR transparente. Déploiement souverain dès le premier jour.

Obtenir une clé API Lire la documentation

api.voxist.com200 OK

$ curl https://api.voxist.com/v1/transcribe \
  -H "Authorization: Bearer $VOXIST_API_KEY" \
  -F audio=@call.wav \
  -F language=fr -F diarize=true

{
  "text": "bonjour, je vous appelle…",
  "language": "fr",
  "words": [{ "w":"bonjour", "t":0.12, "c":0.99 }]
}

$ curl https://api.voxist.com/v1/synthesize \
  -F text="Votre colis arrive demain." \
  -F voice=fr_neural_1 -F format=wav

$ curl https://api.voxist.com/v1/translate \
  -F from=fr -F to=de \
  -F stream=true -F audio=@call.wav

horodatages par motEUR / second8.9 streams/vCPU

Le problème

Un écart qui se creuse en silence

La douleur

Votre fournisseur Speech AI est américain par défaut

Deepgram, AssemblyAI, ElevenLabs, Speechmatics (désormais détenu par des Américains), Cartesia. Toutes les grandes API Speech AI sont construites et hébergées aux États-Unis. La voie la moins chère vers « la voix IA dans notre produit » est celle qui envoie les données audio de vos clients vers un cloud américain, sous le CLOUD Act, avec la prochaine note de conformité à venir. Vous avez procédé ainsi faute de vraie alternative. Elle existe maintenant.

Le coût

L'anglais est la seule langue qu'ils ont vraiment optimisée

La plupart des API Speech AI ont été construites en anglais en premier et ont ajouté d'autres langues ensuite. Les chiffres le montrent : des taux d'erreur qui doublent quand vous passez de l'anglais au français, qui diminuent encore sur les accents régionaux, et qui s'effondrent sur le code-switching. Si votre produit sert des utilisateurs européens dans une langue autre que l'anglais, vous payez pour un modèle qui perd face à un moteur spécialisé sur les conversations que vos utilisateurs ont réellement.

Avec Voxist

Votre facture infrastructure croît avec votre usage. Ça ne devrait pas.

Les API Speech AI traditionnelles sont facturées à la minute, et le tarif à la minute suppose un GPU quelque part de l'autre côté. À l'échelle, vous financez une location de GPU à marge significative. L'ASR de Voxist tourne sur CPU — 8,9 flux simultanés par vCPU avec un facteur temps réel inférieur à 1,05. L'économie est différente. La facture est différente. Le déploiement est différent.

Comment ça fonctionne

Six endpoints, une plateforme, trois modèles de déploiement

Endpoint	Ce qu'il fait
/v1/transcribe	Parole-texte. Flux ou batch. 40+ langues.
/v1/synthesize	Texte-parole. Voix neurales, clonage de voix disponible.
/v1/translate	Traduction automatique. Texte ou voix-à-voix en temps réel.
/v1/diarize	Séparation de locuteurs. Souvent combinée à la transcription.
/v1/detect-language	Identification de langue en moins de 100 ms sur audio ou texte.
/v1/vad	Détection d'activité vocale. Déployable à la périphérie.

Trois modèles de déploiement

Voxist Cloud

Par défaut. Hébergé en Europe (OVHcloud, Scaleway), RGPD natif, tarification EUR transparente à la seconde d'audio.

Voxist Private Cloud

Votre propre VPC sur le cloud de votre choix. Chiffrement avec vos propres clés. Résidence des données sous votre contrôle.

Voxist On-Premise

La plateforme complète dans votre datacenter, sur votre matériel. Option air-gap pour la défense et le secteur public.

Un SDK par langage que vous codez réellement. Python, Node.js, Go, Rust, Java, .NET. OpenAPI 3.0 pour tout le reste, WebRTC et gRPC pour le streaming, exemples exécutables sur chaque page de documentation.

Lire le guide de démarrage

Fonctionnalités

Conçu pour bien faire les choses difficiles

40+ langues avec une profondeur européenne

Français à 4,2 % WER. Allemand, espagnol, italien, portugais, néerlandais, polonais, tchèque, hongrois, et d'autres à venir. Chaque langue est au niveau production et benchmarkée publiquement.

Streaming et batch

Latence premier-audio inférieure à 200 ms pour les cas d'usage en temps réel, traitement batch pour les charges documentaires et d'enregistrement à haut débit.

Diarisation des locuteurs

Séparation automatique des locuteurs, avec horodatage par locuteur et étiquettes cohérentes sur les longues durées.

Traduction en 40+ langues

VoxTranslate, classé COMET #2 mondial sur les paires centrées sur le français, devançant DeepL sur 17 paires sur 20.

TTS neural avec clonage de voix

Synthèse vocale au rendu naturel. Clonage de voix personnalisé disponible sur demande. Préservation de voix (clonage en temps réel) sur la feuille de route pour fin 2026.

Vocabulaires de domaine

Vocabulaires médical, juridique, technique, financier préchargés. Vocabulaire personnalisé par client sur contrats enterprise.

Streaming temps réel WebSocket et gRPC

Pour les cas où la latence HTTP aller-retour est le facteur limitant.

Horodatages au niveau du mot et scores de confiance

Chaque transcription retourne des offsets au niveau du mot et une confiance par mot, adaptés aux sous-titres synchronisés, à la construction d'index de recherche et au monitoring qualité.

Déploiement CPU-first

L'ASR Voxist tourne à 8,9 flux simultanés par vCPU avec un RTF inférieur à 1,05. La plupart des concurrents nécessitent une infrastructure GPU pour le travail en temps réel.

Preuves

Les mêmes moteurs qui propulsent nos produits enterprise sont ceux que vous appelez

Il n'existe pas d'ASR ou de TTS « développeurs » séparé sur l'API Voxist. Les mêmes modèles — les mêmes checkpoints, les mêmes données d'entraînement, le même engineering — propulsent l'Interview IA Dynamique de Voxcept pour un groupe Fortune 100 FMCG, le centre de contacts de Voxlive, et la base de 30 000 utilisateurs Voxreply. Quand vous appelez /v1/transcribe, vous appelez le moteur qui gère du trafic enterprise à l'échelle.

4.2%

WER ASR français

<200ms

latence premier-audio P95

8.9

flux simultanés / vCPU

COMET · paires centrées sur le français

17/20

paires devant DeepL

18/20

paires devant GPT-4o

40+

langues supportées

1000 min

gratuites / mois · sans CB

Ce qui fait Voxist

Quatre piliers, à chaque fois

Latence

Économie ASR CPU-first

Le moteur ASR de Voxist soutient 8,9 flux simultanés par vCPU avec un facteur temps réel inférieur à 1,05 — environ 3,5× la densité CPU de Speechmatics, et unique parmi les grands fournisseurs Speech AI à ne pas nécessiter de GPU pour le temps réel. Le coût par heure audio, sur des CPU Intel standard, est de 0,0047 €. Cette économie se reflète directement dans nos tarifs publics et dans votre budget infrastructure si vous déployez on-premise.

Langues

La profondeur française et européenne, pas une localisation

ASR français à 4,2 % WER. Traduction COMET #2 mondial sur les paires centrées sur le français, avec les plus grands écarts sur DeepL là où vous attendriez un moteur spécialisé — français ↔ allemand, français ↔ polonais, français ↔ hongrois. Chaque langue est benchmarkée publiquement sur le leaderboard Voxist, avec méthodologie complète, mise à jour mensuelle.

Souveraineté

Déploiement souverain dès le premier jour

Voxist API est la seule grande plateforme Speech AI proposant les trois modèles de déploiement avec parité complète : SaaS sur cloud européen, cloud privé sur votre VPC, entièrement on-premise (y compris les modèles) dans votre datacenter. Pour les industries réglementées — santé, défense, secteur public, finance — c'est la matrice de déploiement qui n'existe nulle part ailleurs.

Résultats

Des résultats que la documentation n'invente pas

Chaque affirmation sur cette page renvoie à un benchmark public, un déploiement client ou un chiffre documenté. Le classement COMET est indépendant. Le benchmark d'efficacité CPU est publié avec méthodologie complète. Les chiffres de latence sont des P95 issus du trafic de production, pas de conditions de laboratoire. Voxist Status (status.voxist.com) affiche la disponibilité en temps réel de la plateforme et l'historique des incidents.

Comparaison

Une comparaison courte et honnête

	Deepgram	AssemblyAI	Speechmatics	ElevenLabs
Construit et hébergé en Europe	—	—	UK (US-owned)	—
Français à 4,2 % WER	English-first	English-first	Strong	N/A
Déploiement CPU-first	GPU requis	GPU requis	Partial	GPU requis
Option on-premise	Limited	—	Limited	—
Tarification EUR transparente	❌ (USD)	❌ (USD)	❌ (USD)	❌ (USD)
1000 minutes gratuites, sans CB	Gratuit limité	Offre gratuite	Gratuit limité	Offre gratuite

Voir la comparaison complète Voxist API vs Deepgram →Voir la comparaison complète Voxist API vs AssemblyAI →Voir la comparaison complète Voxist API vs Speechmatics →Voir la comparaison complète Voxist API vs ElevenLabs →Voir la comparaison complète Voxist API vs Cartesia →

Compatible avec

Une plateforme, six produits, un volant d'inertie

Répliquer l'Interview IA Dynamique de Voxcept

utilisez /v1/transcribe + /v1/diarize + votre propre stack LLM et retrieval.

Répliquer l'agent assist de Voxlive

utilisez /v1/transcribe en streaming + /v1/translate + extraction d'intention de votre côté.

Répliquer la traduction voix-à-voix de Voxlingo

chaînez /v1/transcribe → /v1/translate → /v1/synthesize sur WebSocket.

Répliquer la réceptionniste IA de Voxreply

combinez ASR streaming, TTS et le LLM de votre choix dans un agent attaché à SIP.

Répliquer la capture de réunion de Voxmemo

batch /v1/transcribe + /v1/diarize + votre propre couche de résumé.

Conformité & confiance

Natif RGPDPrêt pour le Règlement IA européenFeuille de route SecNumCloudSOC 2 Type II (en cours)ISO 27001 (en cours)Hébergement HDSAucun entraînement sur audio clientOption on-premiseOption air-gap

FAQ

Questions fréquentes

Comment Voxist API se compare-t-il à Deepgram ou AssemblyAI ?

Deepgram et AssemblyAI sont d'excellentes plateformes Speech AI américaines avec de fortes performances en anglais et des écosystèmes développeurs étendus. Voxist API surpasse les deux sur la précision en français et en langues européennes (4,2 % WER sur le français), tourne CPU-first (8,9 flux/vCPU) là où ils requièrent des GPU, propose un déploiement on-premise qu'ils n'offrent pas, et facture en EUR sans exposition au change. Le bon choix dépend de votre priorité linguistique, de vos exigences de déploiement et de votre posture sur la résidence des données. Voir la comparaison complète.

Puis-je déployer Voxist API on-premise, y compris les modèles ?

Oui. Voxist est l'une des très rares plateformes Speech AI avec une option de déploiement totalement on-premise, y compris les modèles ASR, TTS et de traduction. Cloud souverain (OVHcloud, Scaleway), cloud privé (votre propre VPC chez n'importe quel fournisseur), et déploiements air-gap sont tous supportés. L'économie de déploiement est transparente : à notre efficacité CPU publiée, le coût total de possession on-premise passe sous le cloud à environ 50 000–100 000 minutes de trafic mensuel.

Quel est le SLA ?

Disponibilité plateforme de 99,95 % sur les déploiements cloud. Cinq-neuf (99,999 %) sur les contrats enterprise dédiés. Latence premier-audio P95 inférieure à 200 ms sur l'ASR en streaming. P99 inférieur à 500 ms. Statut en temps réel sur status.voxist.com.

Utilisez-vous mon audio pour l'entraînement ?

Non. Voxist n'utilise pas l'audio des clients pour entraîner des modèles. C'est un principe de conception non négociable de la plateforme, sur tous les niveaux y compris l'offre gratuite. Politique de traitement des données détaillée sur /company/security/.

Quelles langues supportez-vous exactement ?

40+ langues avec une profondeur au niveau production sur les langues européennes. La matrice complète, avec WER et latence par langue, est publiée sur le leaderboard ASR Voxist. Pour la traduction, la matrice de paires de langues scorées par COMET est publiée sur le leaderboard de traduction Voxist. Les deux leaderboards sont mis à jour mensuellement.

Quelle est la différence entre Voxist API et Whisper d'OpenAI / Azure / Google Cloud Speech ?

Whisper est un modèle open-source, pas une API hébergée ; vous le faites tourner vous-même (ou l'achetez via l'un des nombreux services Whisper hébergés). Azure et Google Cloud Speech sont des API Speech généralistes d'hyperscalers américains, hébergées sur un cloud américain (avec des régions européennes disponibles, mais opérant sous le CLOUD Act). Voxist API est conçu en Europe, avec la profondeur française et européenne que ces API généralistes n'optimisent pas, et des options de déploiement souverain qu'elles ne peuvent pas offrir.

Proposez-vous le clonage de voix ?

Oui — Voxist TTS supporte le clonage de voix personnalisé sur contrats enterprise. Soixante secondes d'audio source de haute qualité sont suffisantes. La préservation de voix en traduction temps réel (rendu de l'audio traduit dans la voix du locuteur d'origine) est sur la feuille de route pour fin 2026.

Puis-je utiliser Voxist API pour la dictée médicale, juridique ou financière ?

Oui — des vocabulaires de domaine médical, juridique, technique et financier sont préchargés. Le vocabulaire personnalisé par client est supporté sur contrats enterprise. Les données de santé sont hébergées sur une infrastructure certifiée HDS en France.

Comment démarrer ?

Créez une clé API gratuite sur voxist.com/api/signup. 1000 minutes par mois gratuitement, sans carte de crédit. Documentation, SDKs et exemples de code sur developers.voxist.com. Support communautaire via Discord ; les plans payants incluent un support direct et des délais de réponse garantis par SLA.

Y a-t-il une page de statut ?

Oui — status.voxist.com. Santé de la plateforme en temps réel, disponibilité régionale, historique des incidents et reporting SLA.

Avez-vous une présence communautaire / open-source ?

Voxist contribue à plusieurs projets open-source dans l'écosystème Speech AI (voir github.com/voxist) et participe aux collaborations de recherche ELLIOT (Horizon Europe). L'équipe Voxist publie sur arXiv et dans des conférences spécialisées en parole et traduction. Les pages Voxist Benchmarks publient la méthodologie et le code de nos benchmarks publics pour qu'ils puissent être reproduits et challengés.

Construisez avec la plateforme Speech AI qui fait tourner du trafic de production.

Obtenir une clé API

Anglais & français · Hébergé en UE · sans entraînement sur audio client