Die Speech-AI-Plattform, die Voxist antreibt — und Ihr Produkt.
Production-Grade-Spracherkennung, neuronale Text-to-Speech, maschinelle Übersetzung, Sprecher-Diarisierung und Sprachidentifikation. Dieselben Engines, die eine Fortune-100-Wissensplattform und ein Fortune-500-Contact-Center betreiben. Transparente Euro-Preise. Souveränes Deployment ab Tag eins.
$ curl https://api.voxist.com/v1/transcribe \ -H "Authorization: Bearer $VOXIST_API_KEY" \ -F audio=@call.wav \ -F language=fr -F diarize=true { "text": "bonjour, je vous appelle…", "language": "fr", "words": [{ "w":"bonjour", "t":0.12, "c":0.99 }] }
$ curl https://api.voxist.com/v1/synthesize \ -F text="Votre colis arrive demain." \ -F voice=fr_neural_1 -F format=wav
$ curl https://api.voxist.com/v1/translate \ -F from=fr -F to=de \ -F stream=true -F audio=@call.wav
Der Abstand, der leise wächst
Ihr Speech-AI-Anbieter ist standardmäßig amerikanisch
Deepgram, AssemblyAI, ElevenLabs, Speechmatics (inzwischen in US-Besitz), Cartesia. Jede große Speech-AI-API wird in den USA gebaut und gehostet. Der billigste Weg zu „Voice AI in unserem Produkt“ ist der, der das Audio Ihrer Kunden auf US-Cloud legt — unter dem CLOUD Act, mit dem nächsten Compliance-Vermerk schon in Wartestellung. Sie haben so gebaut, weil es keine echte Alternative gab. Jetzt gibt es eine.
Englisch ist die einzige Sprache, für die wirklich optimiert wurde
Die meisten Speech-AI-APIs wurden English-first gebaut, andere Sprachen kamen später dazu. Die Benchmarks zeigen es: Wortfehlerraten, die sich beim Wechsel von Englisch auf Französisch verdoppeln, bei regionalen Akzenten noch einmal einbrechen und bei Code-Switching ganz versagen. Wenn Ihr Produkt europäische Nutzer in einer anderen Sprache als Englisch bedient, zahlen Sie für ein Modell, das in den Gesprächen Ihrer Nutzer gegen eine spezialisierte Engine verliert.
Ihre Infrastrukturrechnung wächst mit der Nutzung. Sollte sie nicht
Gängige Speech-AI-APIs werden pro Minute abgerechnet — und hinter dem Minutenpreis steht irgendwo eine GPU. Im großen Maßstab finanzieren Sie eine GPU-Miete mit ordentlicher Marge. Die ASR von Voxist läuft auf CPU: 8,9 parallele Streams pro vCPU bei einem Echtzeitfaktor unter 1,05. Die Ökonomie ist anders. Die Rechnung ist anders. Das Deployment ist anders.
Sechs Endpoints, eine Plattform, drei Deployment-Modelle
| Endpoint | Was er tut |
|---|---|
| /v1/transcribe | Speech-to-Text. Streaming oder Batch. 40+ Sprachen. |
| /v1/synthesize | Text-to-Speech. Neuronale Stimmen, Voice Cloning verfügbar. |
| /v1/translate | Maschinelle Übersetzung. Text oder Streaming Voice-to-Voice. |
| /v1/diarize | Sprechertrennung. Oft mit Transkription kombiniert. |
| /v1/detect-language | Sprachidentifikation in unter 100 ms, auf Audio oder Text. |
| /v1/vad | Voice Activity Detection. Edge-fähig. |
Drei Deployment-Modelle
Der Standard. Gehostet in Europa (OVHcloud, Scaleway), DSGVO-nativ, transparente Euro-Preise pro Audiosekunde.
Ihre eigene VPC auf der Cloud Ihrer Wahl. Bring-your-own-key-Verschlüsselung. Datenresidenz unter Ihrer Kontrolle.
Die komplette Plattform in Ihrem Rechenzentrum, auf Ihrer Hardware. Air-Gapped-Option für Verteidigung und öffentlichen Sektor.
Ein SDK für jede Sprache, in der Sie wirklich programmieren. Python, Node.js, Go, Rust, Java, .NET. OpenAPI 3.0 für alles andere, WebRTC und gRPC für Streaming, lauffähige Beispiele auf jeder Doku-Seite.
Gebaut für die wirklich schwierigen Aufgaben
40+ Sprachen mit europäischer Tiefe
Französisch mit 4,2 % WER. Deutsch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Tschechisch, Ungarisch — Tendenz wachsend. Jede Sprache ist Production-Grade und öffentlich gebenchmarkt.
Streaming und Batch
unter 200 ms bis zum ersten Audio für Echtzeit-Anwendungen, Batch-Verarbeitung für Dokument- und Aufzeichnungs-Workloads mit hohem Durchsatz.
Sprecher-Diarisierung
automatische Sprechertrennung mit Zeitstempeln pro Sprecher und konsistenten Sprecher-Labels über lange Audiodateien hinweg.
Übersetzung über 40+ Sprachen
VoxTranslate — COMET-Platz 2 weltweit auf französisch-zentrierten EU-Paaren, vor DeepL in 17 von 20 Paaren.
Neuronale TTS mit Voice Cloning
natürlich klingende Sprachsynthese. Individuelles Voice Cloning auf Anfrage. Stimmerhalt (Echtzeit-Klonen der Sprecherstimme) auf der Roadmap für Ende 2026.
Fachvokabulare
Vokabulare für Medizin, Recht, Technik und Finanzen vorinstalliert. Kundenspezifisches Vokabular auf Enterprise-Verträgen.
Echtzeit-Streaming über WebSocket und gRPC
für Anwendungsfälle, in denen die HTTP-Round-Trip-Latenz der Engpass ist.
Zeitstempel und Konfidenzwerte pro Wort
jede Transkription liefert Offsets und Konfidenzwerte auf Wortebene — geeignet für synchronisierte Untertitel, Suchindex-Aufbau und Qualitätsmonitoring.
CPU-first-Deployment
Voxist ASR läuft mit 8,9 parallelen Streams pro vCPU bei RTF unter 1,05. Die meisten Wettbewerber brauchen für Echtzeit GPU-Infrastruktur.
Die Engines hinter unseren Enterprise-Produkten sind die Engines, die Sie aufrufen
Es gibt keine separate „Developer-Grade“-ASR oder -TTS auf der Voxist API. Exakt dieselben Modelle — dieselben Checkpoints, dieselben Trainingsdaten, dasselbe Engineering — treiben das Dynamic AI Interview von Voxcept bei einem Fortune-100-Konsumgüterkonzern an, das Contact Center von Voxlive und die 30.000 Nutzer von Voxreply. Wenn Sie /v1/transcribe aufrufen, rufen Sie die Engine auf, die Enterprise-Traffic im großen Maßstab verarbeitet.
Vier Säulen, jedes Mal
CPU-first-ASR-Ökonomie
Die ASR-Engine von Voxist hält 8,9 parallele Streams pro vCPU bei einem Echtzeitfaktor unter 1,05 — rund 3,5-mal die CPU-Dichte von Speechmatics und einzigartig unter den großen Speech-AI-Anbietern: keine GPU-Infrastruktur für Echtzeit nötig. Die Kosten pro Audiostunde liegen auf Standard-Intel-CPUs bei 0,0047 €. Diese Ökonomie fließt direkt in unsere öffentlichen Preise — und in Ihr Infrastrukturbudget, wenn Sie on-premise deployen.
Französische und europäische Tiefe — keine Lokalisierung
Französische ASR mit 4,2 % WER. Übersetzung auf COMET-Platz 2 weltweit auf französisch-zentrierten Paaren — mit den größten Abständen zu DeepL genau dort, wo man eine spezialisierte Engine erwartet: Französisch ↔ Deutsch, Französisch ↔ Polnisch, Französisch ↔ Ungarisch. Jede Sprache wird öffentlich im Voxist-Leaderboard gebenchmarkt, mit vollständiger Methodik, monatlich aktualisiert.
Souveränes Deployment ab Tag eins
Die Voxist API ist die einzige große Speech-AI-Plattform mit allen drei Deployment-Modellen bei voller Funktionsparität: SaaS auf europäischer Cloud, Private Cloud auf Ihrer VPC, vollständig on-premise (einschließlich der Modelle) in Ihrem Rechenzentrum. Für regulierte Branchen — Healthcare, Verteidigung, öffentlicher Sektor, Finanzen — ist das die Deployment-Matrix, die es sonst nirgends gibt.
Ergebnisse, bei denen die Doku nicht lügt
Jede Aussage auf dieser Seite verlinkt auf einen öffentlichen Benchmark, ein Kunden-Deployment oder eine dokumentierte Zahl. Das COMET-Ranking ist unabhängig. Der CPU-Effizienz-Benchmark ist mit vollständiger Methodik veröffentlicht. Die Latenzwerte sind P95 aus Produktiv-Traffic, nicht aus Laborbedingungen. Voxist Status (status.voxist.com) zeigt Plattformverfügbarkeit und Incident-Historie in Echtzeit.
Ein kurzer, ehrlicher Vergleich
| Voxist API | Deepgram | AssemblyAI | Speechmatics | ElevenLabs | |
|---|---|---|---|---|---|
| In Europa gebaut und gehostet | — | — | UK (US-owned) | — | |
| Französisch mit 4,2 % WER | English-first | English-first | Strong | N/A | |
| CPU-first-Deployment | GPU erforderlich | GPU erforderlich | Partial | GPU erforderlich | |
| On-Premise-Option | Limited | — | Limited | — | |
| Transparente Euro-Preise | ❌ (USD) | ❌ (USD) | ❌ (USD) | ❌ (USD) | |
| 1000 Freiminuten, keine Kreditkarte | Begrenzt kostenlos | Kostenloses Paket | Begrenzt kostenlos | Kostenloses Paket |
Eine Plattform, sechs Produkte, ein Flywheel
/v1/transcribe + /v1/diarize + Ihr eigener LLM- und Retrieval-Stack.
Streaming /v1/transcribe + /v1/translate + Intent-Extraktion auf Ihrer Seite.
/v1/transcribe → /v1/translate → /v1/synthesize über WebSocket verketten.
Streaming-ASR, TTS und das LLM Ihrer Wahl zu einem SIP-Agent kombinieren.
Batch /v1/transcribe + /v1/diarize + Ihre eigene Zusammenfassungsschicht.
Fragen & Antworten
Wie schneidet die Voxist API im Vergleich zu Deepgram oder AssemblyAI ab?
Kann ich die Voxist API on-premise betreiben — einschließlich der Modelle?
Wie sieht das SLA aus?
Trainieren Sie auf meinem Audio?
Welche Sprachen unterstützen Sie genau?
Was unterscheidet die Voxist API von OpenAIs Whisper / Azure / Google Cloud Speech?
Bieten Sie Voice Cloning an?
Kann ich die Voxist API für medizinisches, juristisches oder Finanz-Diktat nutzen?
Wie starte ich?
Gibt es eine Statusseite?
Haben Sie eine Community / Open-Source-Präsenz?
Bauen Sie auf der Speech-AI-Plattform, die Produktiv-Traffic verarbeitet.
Englisch & Französisch · In der EU gehostet · kein Audio wird für Modelltraining verwendet