Echtzeit-Sprachübersetzung, die das Gespräch am Laufen hält.
Voxlingo übersetzt Stimme zu Stimme in Echtzeit, in über 40 Sprachen. Gebaut für europäische Unternehmen, die über Grenzen hinweg arbeiten, COMET-Platz 2 weltweit auf französisch-zentrierten Übersetzungspaaren — und überall einsetzbar, wo Ihre Gespräche bleiben müssen.
Die Lücke, die leise größer wird
Ihre Kunden sprechen nicht alle die Sprache Ihrer Agenten
Ein deutscher Versicherer bearbeitet Schadensfälle auf Türkisch, Polnisch und Russisch. Ein österreichisches Contact Center routet täglich Anrufe auf Englisch, Serbisch und Rumänisch. Ein Schweizer Versorger betreut Französisch, Italienisch und Portugiesisch. Mehrsprachiges Recruiting ist teuer. Dolmetscherdienste kosten 0,80–2,00 € pro Minute. Die Abbruchquote steigt, wenn Anrufer und Agent keine gemeinsame Sprache haben.
Ihre Übersetzungs-API ist generisch. Ihre Gespräche sind es nicht
Die meisten Übersetzungs-APIs wurden auf englisch-gepaarten Daten trainiert und auf Englisch-Pivot getrimmt. Französisch → Englisch → Polnisch funktioniert passabel. Französisch → Polnisch direkt — mit dem Vokabular, dem Akzent und dem Tempo eines echten Gesprächs — funktioniert nicht. Generische Modelle übersetzen brauchbar. Sie übersetzen nicht exzellent auf den Paaren, die Ihre Nutzer tatsächlich sprechen.
Voice-to-Voice ist schwer. Die meisten Anbieter liefern es nicht sauber
Übersetzung ist ein Teil des Problems. ASR ein zweiter. TTS ein dritter. Echtzeit-Streaming mit wahrgenommener Latenz unter einer Sekunde ein vierter. Vier KI-Systeme zu einem Gesprächserlebnis zu verbinden, das sich nicht wie eine Telefonansage anfühlt — das trennt Voxlingo von Produkten, die „Live-Übersetzung“ versprechen und zusammenbrechen, sobald Ihr Anrufer keine Lehrbuchsätze mehr spricht.
Stimme zu Stimme, in einer Streaming-Pipeline
Erfassen
Die Stimme des Anrufers wird in Echtzeit über SIP, WebRTC oder das Voxlingo SDK erfasst. Die Voxist-ASR erkennt die Sprache in unter 100 ms und beginnt unter 200 ms zu transkribieren — als Streaming-Output, der Wörter anzeigt, sobald sie erkannt sind, nicht erst am Ende einer Äußerung.
Übersetzen
Das Streaming-Transkript fließt in VoxTranslate, unsere hauseigene Übersetzungs-Engine — COMET-Platz 2 weltweit über 20 französisch-zentrierte EU-Sprachpaare in unabhängigen Benchmarks. Die Engine beherrscht Disfluenzen, Akzente, Fachterminologie und Code-Switching — die Dinge, die echte Gespräche nun einmal tun.
Sprechen
Eine natürliche neuronale TTS-Stimme spricht die Übersetzung in der Zielsprache — mit Prosodie und Tempo, die zum Originalsprecher passen. Stimmerhalt (Übersetzung in der eigenen Stimme des Sprechers) steht für Ende 2026 auf der Roadmap. Wahrgenommene End-to-End-Latenz: unter einer Sekunde.
Bereitstellen
Voxlingo läuft in drei Konfigurationen: als SaaS-API für Entwickler, als Managed Deployment im Voxlive Contact Center oder als vollständiger On-Premise-Stack inklusive der Übersetzungsmodelle. Cloud, souverän oder Air-Gapped — Ihre Wahl, Ihre Daten, Ihr Perimeter.
Gebaut für die wirklich schwierigen Aufgaben
Voice-to-Voice-Übersetzung in Echtzeit
Streaming-ASR, MT und TTS, integriert in eine einzige Pipeline mit wahrgenommener Latenz unter einer Sekunde.
40+ Sprachen, 1.600+ Paare
produktionsreife Tiefe bei europäischen Sprachen, wachsende Abdeckung asiatischer und afrikanischer Sprachen. Jedes Paar wird gebenchmarkt und im Voxist-Leaderboard veröffentlicht.
COMET-Platz 2 weltweit auf französisch-zentrierten Paaren
schlägt DeepL in 17 von 20 Paaren, GPT-4o in 18 von 20 — insgesamt nur 0,0025 COMET-Punkte hinter Google. Unabhängiger Benchmark, öffentliche Methodik.
Funktionen für echte Gespräche
Umgang mit Disfluenzen, Code-Switching-Erkennung, Fachvokabulare (Recht, Medizin, Finanzen, Technik), Kontexterhalt über Gesprächszüge hinweg.
Live-Untertitel-Modus
wenn Audioausgabe nicht passt (Meetings, Events, Broadcast), wird die Übersetzung als synchronisiertes Live-Transkript angezeigt.
Stimmerhalt auf der Roadmap
bis Ende 2026 übersetzt Voxlingo in der Originalstimme des Sprechers — auf Basis der Voxist-eigenen TTS-Voice-Cloning-Forschung. Heute wird eine natürliche neutrale Stimme in der Zielsprache verwendet.
On-Premise einsetzbar
inklusive der Übersetzungsmodelle. Eines der ganz wenigen Echtzeit-Sprachübersetzungsprodukte, das keinen Cloud-Umweg braucht.
COMET-Platz 2 weltweit auf französisch-zentrierten EU-Paaren
Im unabhängigen COMET-Benchmark über 20 französisch-zentrierte EU-Sprachpaare belegt die Übersetzungs-Engine von Voxlingo weltweit Platz 2 — vor DeepL, GPT-4o, Claude und EuroLLM-Varianten. Voxlingo schlägt DeepL in 17 von 20 Paaren und GPT-4o in 18 von 20 — nur 0,0025 COMET-Punkte hinter der weltweiten Nummer 1.
| Pair | Voxlingo | DeepL | Margin |
|---|---|---|---|
| French → German | 4th | 7th | +0.0038 |
| German → French | 4th | 7th | +0.0038 |
| French → Polish | 3rd | 7th | +0.0036 |
| French → Spanish | 3rd | 8th | +0.0036 |
| French → Hungarian | 4th | 7th | +0.0040 |
Vier Stärken, in jedem Gespräch
Wahrgenommene Latenz unter einer Sekunde, End-to-End
Die Streaming-Pipeline von Voxlingo — ASR, MT, TTS — läuft End-to-End mit unter einer Sekunde wahrgenommener Latenz, in echten Gesprächen mit echten Akzenten und echten Disfluenzen. Die Pipeline ist durchgehend Voxist: keine Drittanbieter-Roundtrips, keine API-Hops, kein Qualitätseinbruch, wenn ein Satz ausklingt.
Spezialisiert statt generisch
Voxlingo ist für europäische Sprachen gebaut, mit Französisch im Kern. Die meisten Übersetzungs-APIs wurden auf englisch-gepaarten Daten trainiert und übersetzen über Englisch-Pivot. Voxlingo ist auf direkten Paaren trainiert — Französisch ↔ Deutsch, Französisch ↔ Polnisch, Französisch ↔ Ungarisch — und genau auf diesen Paaren ist der COMET-Abstand zu DeepL am deutlichsten.
Standardmäßig souverän
Voxlingo ist eines der ganz wenigen Produkte für Echtzeit-Sprachübersetzung mit vollständiger On-Premise-Option — inklusive der Übersetzungsmodelle. Cloud, souverän (OVHcloud, Scaleway) oder Air-Gapped. DSGVO-nativ. Bereit für den EU AI Act. Für regulierte Branchen — Gesundheitswesen, Verteidigung, öffentliche Hand, Finanzwesen — ist das die Kombination, die es sonst nirgendwo gibt.
Ergebnisse, die Sie messen können
Voxlingo-Deployments in Voxlive Contact Centern berichten von wahrgenommener Latenz unter einer Sekunde, Verständlichkeit auf Dolmetscher-Niveau und 60–80 % weniger Dolmetscherkosten schon im ersten Quartal. Jede Aussage stammt von einem echten Kunden oder aus einem öffentlichen Benchmark.
Ein kurzer, ehrlicher Vergleich
| Voxlingo | DeepL Voice | KUDO | Wordly | |
|---|---|---|---|---|
| Voice-to-Voice in Echtzeit | ✅ (mit Dolmetscher) | |||
| COMET-Platz 2 weltweit (frz.-zentrierte Paare) | Kein Benchmark | N/A | N/A | |
| On-Premise-Deployment | — | — | — | |
| Entwickelt in Europa | — | |||
| 40+ Sprachen, wachsend | 40+ | 200+ (human) | 60+ | |
| Stimmerhalt (Roadmap) | Ende 2026 | Ende 2026 | Nur Dolmetscher | — |
Eine Plattform, sechs Produkte, ein Flywheel
Voxlingo läuft als native Funktion im Voxlive Contact Center — im Ohrhörer des Agenten oder als vollständig übersetzter Kanal zwischen Agent und Kunde.
erfassen Sie ein Experteninterview auf Französisch; fragen Sie den entstehenden Wissensgraphen auf Polnisch oder Arabisch ab. Voxlingo übernimmt das sprachübergreifende Retrieval in Voxcept.
zeichnen Sie Meetings in gemischtsprachigen Umgebungen auf; Voxlingo übersetzt das Transkript auf Abruf, in jede der unterstützten Sprachen.
Voxlingo ist als Developer-taugliche Übersetzungs-API unter voxist.com/api verfügbar. Gleiche Auth, gleiche SDKs, transparente Euro-Preise.
Fragen & Antworten
Wie genau ist Voxlingo bei europäischen Sprachen?
Wie hoch ist die End-to-End-Latenz?
Kann Voxlingo On-Premise laufen?
Klingt die übersetzte Stimme wie der Originalsprecher?
Welche Sprachen unterstützt Voxlingo?
Wie schneidet Voxlingo im Vergleich zu DeepL Voice ab?
Wie schneidet Voxlingo im Vergleich zu KUDO oder Wordly ab?
Funktioniert Voxlingo mit unserer SIP-/WebRTC-/Telefonie-Plattform?
Kommt Voxlingo mit Akzenten, Code-Switching und Fachvokabular zurecht?
Ist die mobile App voxlingo.com dasselbe Produkt?
Kann Voxlingo Gebärdensprache übersetzen?
Betreiben Sie Ihre mehrsprachigen Abläufe auf europäischer KI.
Englisch & Französisch · In der EU gehostet · kein Audio wird für Modelltraining verwendet