Speech-AI-Plattform für Entwickler

Die Speech-AI-Plattform, die Voxist antreibt — und Ihr Produkt.

Production-Grade-Spracherkennung, neuronale Text-to-Speech, maschinelle Übersetzung, Sprecher-Diarisierung und Sprachidentifikation. Dieselben Engines, die eine Fortune-100-Wissensplattform und ein Fortune-500-Contact-Center betreiben. Transparente Euro-Preise. Souveränes Deployment ab Tag eins.

API-Key anfordern Zur Dokumentation

api.voxist.com200 OK

$ curl https://api.voxist.com/v1/transcribe \
  -H "Authorization: Bearer $VOXIST_API_KEY" \
  -F audio=@call.wav \
  -F language=fr -F diarize=true

{
  "text": "bonjour, je vous appelle…",
  "language": "fr",
  "words": [{ "w":"bonjour", "t":0.12, "c":0.99 }]
}

$ curl https://api.voxist.com/v1/synthesize \
  -F text="Votre colis arrive demain." \
  -F voice=fr_neural_1 -F format=wav

$ curl https://api.voxist.com/v1/translate \
  -F from=fr -F to=de \
  -F stream=true -F audio=@call.wav

Wort-ZeitstempelEUR / second8.9 streams/vCPU

Das Problem

Der Abstand, der leise wächst

Der Schmerzpunkt

Ihr Speech-AI-Anbieter ist standardmäßig amerikanisch

Deepgram, AssemblyAI, ElevenLabs, Speechmatics (inzwischen in US-Besitz), Cartesia. Jede große Speech-AI-API wird in den USA gebaut und gehostet. Der billigste Weg zu „Voice AI in unserem Produkt“ ist der, der das Audio Ihrer Kunden auf US-Cloud legt — unter dem CLOUD Act, mit dem nächsten Compliance-Vermerk schon in Wartestellung. Sie haben so gebaut, weil es keine echte Alternative gab. Jetzt gibt es eine.

Die Kosten

Englisch ist die einzige Sprache, für die wirklich optimiert wurde

Die meisten Speech-AI-APIs wurden English-first gebaut, andere Sprachen kamen später dazu. Die Benchmarks zeigen es: Wortfehlerraten, die sich beim Wechsel von Englisch auf Französisch verdoppeln, bei regionalen Akzenten noch einmal einbrechen und bei Code-Switching ganz versagen. Wenn Ihr Produkt europäische Nutzer in einer anderen Sprache als Englisch bedient, zahlen Sie für ein Modell, das in den Gesprächen Ihrer Nutzer gegen eine spezialisierte Engine verliert.

Mit Voxist

Ihre Infrastrukturrechnung wächst mit der Nutzung. Sollte sie nicht

Gängige Speech-AI-APIs werden pro Minute abgerechnet — und hinter dem Minutenpreis steht irgendwo eine GPU. Im großen Maßstab finanzieren Sie eine GPU-Miete mit ordentlicher Marge. Die ASR von Voxist läuft auf CPU: 8,9 parallele Streams pro vCPU bei einem Echtzeitfaktor unter 1,05. Die Ökonomie ist anders. Die Rechnung ist anders. Das Deployment ist anders.

So funktioniert es

Sechs Endpoints, eine Plattform, drei Deployment-Modelle

Endpoint	Was er tut
/v1/transcribe	Speech-to-Text. Streaming oder Batch. 40+ Sprachen.
/v1/synthesize	Text-to-Speech. Neuronale Stimmen, Voice Cloning verfügbar.
/v1/translate	Maschinelle Übersetzung. Text oder Streaming Voice-to-Voice.
/v1/diarize	Sprechertrennung. Oft mit Transkription kombiniert.
/v1/detect-language	Sprachidentifikation in unter 100 ms, auf Audio oder Text.
/v1/vad	Voice Activity Detection. Edge-fähig.

Drei Deployment-Modelle

Voxist Cloud

Der Standard. Gehostet in Europa (OVHcloud, Scaleway), DSGVO-nativ, transparente Euro-Preise pro Audiosekunde.

Voxist Private Cloud

Ihre eigene VPC auf der Cloud Ihrer Wahl. Bring-your-own-key-Verschlüsselung. Datenresidenz unter Ihrer Kontrolle.

Voxist On-Premise

Die komplette Plattform in Ihrem Rechenzentrum, auf Ihrer Hardware. Air-Gapped-Option für Verteidigung und öffentlichen Sektor.

Ein SDK für jede Sprache, in der Sie wirklich programmieren. Python, Node.js, Go, Rust, Java, .NET. OpenAPI 3.0 für alles andere, WebRTC und gRPC für Streaming, lauffähige Beispiele auf jeder Doku-Seite.

Zum Quickstart

Funktionen

Gebaut für die wirklich schwierigen Aufgaben

40+ Sprachen mit europäischer Tiefe

Französisch mit 4,2 % WER. Deutsch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Tschechisch, Ungarisch — Tendenz wachsend. Jede Sprache ist Production-Grade und öffentlich gebenchmarkt.

Streaming und Batch

unter 200 ms bis zum ersten Audio für Echtzeit-Anwendungen, Batch-Verarbeitung für Dokument- und Aufzeichnungs-Workloads mit hohem Durchsatz.

Sprecher-Diarisierung

automatische Sprechertrennung mit Zeitstempeln pro Sprecher und konsistenten Sprecher-Labels über lange Audiodateien hinweg.

Übersetzung über 40+ Sprachen

VoxTranslate — COMET-Platz 2 weltweit auf französisch-zentrierten EU-Paaren, vor DeepL in 17 von 20 Paaren.

Neuronale TTS mit Voice Cloning

natürlich klingende Sprachsynthese. Individuelles Voice Cloning auf Anfrage. Stimmerhalt (Echtzeit-Klonen der Sprecherstimme) auf der Roadmap für Ende 2026.

Fachvokabulare

Vokabulare für Medizin, Recht, Technik und Finanzen vorinstalliert. Kundenspezifisches Vokabular auf Enterprise-Verträgen.

Echtzeit-Streaming über WebSocket und gRPC

für Anwendungsfälle, in denen die HTTP-Round-Trip-Latenz der Engpass ist.

Zeitstempel und Konfidenzwerte pro Wort

jede Transkription liefert Offsets und Konfidenzwerte auf Wortebene — geeignet für synchronisierte Untertitel, Suchindex-Aufbau und Qualitätsmonitoring.

CPU-first-Deployment

Voxist ASR läuft mit 8,9 parallelen Streams pro vCPU bei RTF unter 1,05. Die meisten Wettbewerber brauchen für Echtzeit GPU-Infrastruktur.

Belege

Die Engines hinter unseren Enterprise-Produkten sind die Engines, die Sie aufrufen

Es gibt keine separate „Developer-Grade“-ASR oder -TTS auf der Voxist API. Exakt dieselben Modelle — dieselben Checkpoints, dieselben Trainingsdaten, dasselbe Engineering — treiben das Dynamic AI Interview von Voxcept bei einem Fortune-100-Konsumgüterkonzern an, das Contact Center von Voxlive und die 30.000 Nutzer von Voxreply. Wenn Sie /v1/transcribe aufrufen, rufen Sie die Engine auf, die Enterprise-Traffic im großen Maßstab verarbeitet.

4.2%

WER Französisch (ASR)

<200ms

First-Audio-Latenz P95

8.9

parallele Streams / vCPU

COMET · französisch-zentrierte Paare

17/20

Paare vor DeepL

18/20

Paare vor GPT-4o

40+

unterstützte Sprachen

1000 min

frei / Monat · keine Kreditkarte

Was es zu Voxist macht

Vier Säulen, jedes Mal

Latenz

CPU-first-ASR-Ökonomie

Die ASR-Engine von Voxist hält 8,9 parallele Streams pro vCPU bei einem Echtzeitfaktor unter 1,05 — rund 3,5-mal die CPU-Dichte von Speechmatics und einzigartig unter den großen Speech-AI-Anbietern: keine GPU-Infrastruktur für Echtzeit nötig. Die Kosten pro Audiostunde liegen auf Standard-Intel-CPUs bei 0,0047 €. Diese Ökonomie fließt direkt in unsere öffentlichen Preise — und in Ihr Infrastrukturbudget, wenn Sie on-premise deployen.

Sprachen

Französische und europäische Tiefe — keine Lokalisierung

Französische ASR mit 4,2 % WER. Übersetzung auf COMET-Platz 2 weltweit auf französisch-zentrierten Paaren — mit den größten Abständen zu DeepL genau dort, wo man eine spezialisierte Engine erwartet: Französisch ↔ Deutsch, Französisch ↔ Polnisch, Französisch ↔ Ungarisch. Jede Sprache wird öffentlich im Voxist-Leaderboard gebenchmarkt, mit vollständiger Methodik, monatlich aktualisiert.

Souveränität

Souveränes Deployment ab Tag eins

Die Voxist API ist die einzige große Speech-AI-Plattform mit allen drei Deployment-Modellen bei voller Funktionsparität: SaaS auf europäischer Cloud, Private Cloud auf Ihrer VPC, vollständig on-premise (einschließlich der Modelle) in Ihrem Rechenzentrum. Für regulierte Branchen — Healthcare, Verteidigung, öffentlicher Sektor, Finanzen — ist das die Deployment-Matrix, die es sonst nirgends gibt.

Ergebnisse

Ergebnisse, bei denen die Doku nicht lügt

Jede Aussage auf dieser Seite verlinkt auf einen öffentlichen Benchmark, ein Kunden-Deployment oder eine dokumentierte Zahl. Das COMET-Ranking ist unabhängig. Der CPU-Effizienz-Benchmark ist mit vollständiger Methodik veröffentlicht. Die Latenzwerte sind P95 aus Produktiv-Traffic, nicht aus Laborbedingungen. Voxist Status (status.voxist.com) zeigt Plattformverfügbarkeit und Incident-Historie in Echtzeit.

Der Vergleich

Ein kurzer, ehrlicher Vergleich

	Deepgram	AssemblyAI	Speechmatics	ElevenLabs
In Europa gebaut und gehostet	—	—	UK (US-owned)	—
Französisch mit 4,2 % WER	English-first	English-first	Strong	N/A
CPU-first-Deployment	GPU erforderlich	GPU erforderlich	Partial	GPU erforderlich
On-Premise-Option	Limited	—	Limited	—
Transparente Euro-Preise	❌ (USD)	❌ (USD)	❌ (USD)	❌ (USD)
1000 Freiminuten, keine Kreditkarte	Begrenzt kostenlos	Kostenloses Paket	Begrenzt kostenlos	Kostenloses Paket

Zum vollständigen Vergleich Voxist API vs. Deepgram →Zum vollständigen Vergleich Voxist API vs. AssemblyAI →Zum vollständigen Vergleich Voxist API vs. Speechmatics →Zum vollständigen Vergleich Voxist API vs. ElevenLabs →Zum vollständigen Vergleich Voxist API vs. Cartesia →

Zusammenspiel

Eine Plattform, sechs Produkte, ein Flywheel

Das Dynamic AI Interview von Voxcept nachbauen

/v1/transcribe + /v1/diarize + Ihr eigener LLM- und Retrieval-Stack.

Den Agent Assist von Voxlive nachbauen

Streaming /v1/transcribe + /v1/translate + Intent-Extraktion auf Ihrer Seite.

Die Voice-to-Voice-Übersetzung von Voxlingo nachbauen

/v1/transcribe → /v1/translate → /v1/synthesize über WebSocket verketten.

Den KI-Telefonassistenten von Voxreply nachbauen

Streaming-ASR, TTS und das LLM Ihrer Wahl zu einem SIP-Agent kombinieren.

Die Meeting-Erfassung von Voxmemo nachbauen

Batch /v1/transcribe + /v1/diarize + Ihre eigene Zusammenfassungsschicht.

Compliance & Vertrauen

DSGVO-nativBereit für den EU AI ActSecNumCloud-RoadmapSOC 2 Type II (in Arbeit)ISO 27001 (in Arbeit)HDS-HostingKein Modelltraining auf Kunden-AudioOn-Premise-OptionAir-Gapped-Option

FAQ

Fragen & Antworten

Wie schneidet die Voxist API im Vergleich zu Deepgram oder AssemblyAI ab?

Deepgram und AssemblyAI sind beide exzellente, in den USA gebaute Speech-AI-Plattformen mit starker Englisch-Performance und großen Entwickler-Ökosystemen. Die Voxist API übertrifft beide bei Französisch und europäischen Sprachen (4,2 % WER auf Französisch), läuft CPU-first (8,9 Streams/vCPU), wo sie GPUs brauchen, bietet ein On-Premise-Deployment, das beide nicht haben, und rechnet in Euro ab — ohne Wechselkursrisiko. Die richtige Wahl hängt von Ihrer Sprachpriorität, Ihren Deployment-Anforderungen und Ihrer Datenresidenz-Strategie ab. Zum vollständigen Vergleich.

Kann ich die Voxist API on-premise betreiben — einschließlich der Modelle?

Ja. Voxist ist eine der ganz wenigen Speech-AI-Plattformen mit vollständiger On-Premise-Option, einschließlich der ASR-, TTS- und Übersetzungsmodelle. Sovereign Cloud (OVHcloud, Scaleway), Private Cloud (Ihre eigene VPC bei jedem großen Anbieter) und Air-Gapped-Deployments werden unterstützt. Die Deployment-Ökonomie ist transparent: Bei unserer veröffentlichten CPU-Effizienz unterschreiten die On-Premise-Gesamtkosten die Cloud ab etwa 50.000–100.000 Minuten monatlichem Traffic.

Wie sieht das SLA aus?

99,95 % Plattformverfügbarkeit bei Cloud-Deployments. Five Nines (99,999 %) bei dedizierten Enterprise-Verträgen. First-Audio-Latenz P95 unter 200 ms bei Streaming-ASR, P99 unter 500 ms. Echtzeitstatus auf status.voxist.com.

Trainieren Sie auf meinem Audio?

Nein. Voxist verwendet kein Kunden-Audio für das Modelltraining. Das ist ein nicht verhandelbares Designprinzip der Plattform — auf jedem Tarif, auch im Free-Tarif. Die detaillierte Datenrichtlinie finden Sie unter /company/security/.

Welche Sprachen unterstützen Sie genau?

40+ Sprachen mit Production-Grade-Tiefe bei europäischen Sprachen. Die vollständige Matrix mit WER und Latenz pro Sprache steht im Voxist-ASR-Leaderboard. Für Übersetzung wird die COMET-bewertete Sprachpaar-Matrix im Voxist-Übersetzungs-Leaderboard veröffentlicht. Beide Leaderboards werden monatlich aktualisiert.

Was unterscheidet die Voxist API von OpenAIs Whisper / Azure / Google Cloud Speech?

Whisper ist ein Open-Source-Modell, keine gehostete API; Sie betreiben es selbst (oder beziehen es über einen der vielen Whisper-Hosting-Dienste). Azure und Google Cloud Speech sind Allzweck-Speech-APIs von US-Hyperscalern, gehostet auf US-Cloud (mit europäischen Regionen, aber unter dem CLOUD Act). Die Voxist API ist gezielt in Europa gebaut — mit einer Tiefe bei Französisch und europäischen Sprachen, für die diese Generalisten nicht optimieren, und mit souveränen Deployment-Optionen, die sie nicht anbieten können.

Bieten Sie Voice Cloning an?

Ja — Voxist TTS unterstützt individuelles Voice Cloning auf Enterprise-Verträgen. Sechzig Sekunden hochwertiges Quellaudio genügen. Stimmerhalt in der Echtzeit-Übersetzung (die übersetzte Stimme klingt wie der Originalsprecher) steht für Ende 2026 auf der Roadmap.

Kann ich die Voxist API für medizinisches, juristisches oder Finanz-Diktat nutzen?

Ja — Fachvokabulare für Medizin, Recht, Technik und Finanzen sind vorinstalliert. Kundenspezifisches Vokabular wird auf Enterprise-Verträgen unterstützt. Gesundheitsdaten werden auf HDS-zertifizierter Infrastruktur in Frankreich gehostet.

Wie starte ich?

Kostenlosen API-Key unter voxist.com/api/signup anlegen. 1000 Minuten pro Monat frei, keine Kreditkarte. Dokumentation, SDKs und Codebeispiele auf developers.voxist.com. Community-Support über Discord; bezahlte Tarife enthalten direkten Support mit SLA-gestützten Reaktionszeiten.

Gibt es eine Statusseite?

Ja — status.voxist.com. Plattformstatus in Echtzeit, regionale Verfügbarkeit, Incident-Historie und SLA-Reporting.

Haben Sie eine Community / Open-Source-Präsenz?

Voxist trägt zu mehreren Open-Source-Projekten im Speech-AI-Bereich bei (siehe github.com/voxist) und beteiligt sich an ELLIOT-Forschungskooperationen (Horizon Europe). Das Voxist-Team publiziert auf arXiv und auf Speech- und Übersetzungskonferenzen. Die Voxist-Benchmark-Seiten veröffentlichen Methodik und Code unserer öffentlichen Benchmarks — reproduzierbar und anfechtbar.

Bauen Sie auf der Speech-AI-Plattform, die Produktiv-Traffic verarbeitet.

API-Key anfordern

Englisch & Französisch · In der EU gehostet · kein Audio wird für Modelltraining verwendet