Sprachübersetzung in Echtzeit

Echtzeit-Sprachübersetzung, die das Gespräch am Laufen hält.

Voxlingo übersetzt Stimme zu Stimme in Echtzeit, in über 40 Sprachen. Gebaut für europäische Unternehmen, die über Grenzen hinweg arbeiten, COMET-Platz 2 weltweit auf französisch-zentrierten Übersetzungspaaren — und überall einsetzbar, wo Ihre Gespräche bleiben müssen.

Voice TranslationLive
FrançaisPouvez-vous confirmer le délai de livraison ?
文 ⇄ A · 0.8s
DeutschKönnen Sie den Liefertermin bestätigen?
Stimme → StimmeCOMET #2
The problem

Die Lücke, die leise größer wird

Das Problem

Ihre Kunden sprechen nicht alle die Sprache Ihrer Agenten

Ein deutscher Versicherer bearbeitet Schadensfälle auf Türkisch, Polnisch und Russisch. Ein österreichisches Contact Center routet täglich Anrufe auf Englisch, Serbisch und Rumänisch. Ein Schweizer Versorger betreut Französisch, Italienisch und Portugiesisch. Mehrsprachiges Recruiting ist teuer. Dolmetscherdienste kosten 0,80–2,00 € pro Minute. Die Abbruchquote steigt, wenn Anrufer und Agent keine gemeinsame Sprache haben.

Die Kosten

Ihre Übersetzungs-API ist generisch. Ihre Gespräche sind es nicht

Die meisten Übersetzungs-APIs wurden auf englisch-gepaarten Daten trainiert und auf Englisch-Pivot getrimmt. Französisch → Englisch → Polnisch funktioniert passabel. Französisch → Polnisch direkt — mit dem Vokabular, dem Akzent und dem Tempo eines echten Gesprächs — funktioniert nicht. Generische Modelle übersetzen brauchbar. Sie übersetzen nicht exzellent auf den Paaren, die Ihre Nutzer tatsächlich sprechen.

Mit Voxist

Voice-to-Voice ist schwer. Die meisten Anbieter liefern es nicht sauber

Übersetzung ist ein Teil des Problems. ASR ein zweiter. TTS ein dritter. Echtzeit-Streaming mit wahrgenommener Latenz unter einer Sekunde ein vierter. Vier KI-Systeme zu einem Gesprächserlebnis zu verbinden, das sich nicht wie eine Telefonansage anfühlt — das trennt Voxlingo von Produkten, die „Live-Übersetzung“ versprechen und zusammenbrechen, sobald Ihr Anrufer keine Lehrbuchsätze mehr spricht.

How it works

Stimme zu Stimme, in einer Streaming-Pipeline

1

Erfassen

Die Stimme des Anrufers wird in Echtzeit über SIP, WebRTC oder das Voxlingo SDK erfasst. Die Voxist-ASR erkennt die Sprache in unter 100 ms und beginnt unter 200 ms zu transkribieren — als Streaming-Output, der Wörter anzeigt, sobald sie erkannt sind, nicht erst am Ende einer Äußerung.

2

Übersetzen

Das Streaming-Transkript fließt in VoxTranslate, unsere hauseigene Übersetzungs-Engine — COMET-Platz 2 weltweit über 20 französisch-zentrierte EU-Sprachpaare in unabhängigen Benchmarks. Die Engine beherrscht Disfluenzen, Akzente, Fachterminologie und Code-Switching — die Dinge, die echte Gespräche nun einmal tun.

3

Sprechen

Eine natürliche neuronale TTS-Stimme spricht die Übersetzung in der Zielsprache — mit Prosodie und Tempo, die zum Originalsprecher passen. Stimmerhalt (Übersetzung in der eigenen Stimme des Sprechers) steht für Ende 2026 auf der Roadmap. Wahrgenommene End-to-End-Latenz: unter einer Sekunde.

4

Bereitstellen

Voxlingo läuft in drei Konfigurationen: als SaaS-API für Entwickler, als Managed Deployment im Voxlive Contact Center oder als vollständiger On-Premise-Stack inklusive der Übersetzungsmodelle. Cloud, souverän oder Air-Gapped — Ihre Wahl, Ihre Daten, Ihr Perimeter.

Capabilities

Gebaut für die wirklich schwierigen Aufgaben

Voice-to-Voice-Übersetzung in Echtzeit

Streaming-ASR, MT und TTS, integriert in eine einzige Pipeline mit wahrgenommener Latenz unter einer Sekunde.

40+ Sprachen, 1.600+ Paare

produktionsreife Tiefe bei europäischen Sprachen, wachsende Abdeckung asiatischer und afrikanischer Sprachen. Jedes Paar wird gebenchmarkt und im Voxist-Leaderboard veröffentlicht.

COMET-Platz 2 weltweit auf französisch-zentrierten Paaren

schlägt DeepL in 17 von 20 Paaren, GPT-4o in 18 von 20 — insgesamt nur 0,0025 COMET-Punkte hinter Google. Unabhängiger Benchmark, öffentliche Methodik.

Funktionen für echte Gespräche

Umgang mit Disfluenzen, Code-Switching-Erkennung, Fachvokabulare (Recht, Medizin, Finanzen, Technik), Kontexterhalt über Gesprächszüge hinweg.

Live-Untertitel-Modus

wenn Audioausgabe nicht passt (Meetings, Events, Broadcast), wird die Übersetzung als synchronisiertes Live-Transkript angezeigt.

Stimmerhalt auf der Roadmap

bis Ende 2026 übersetzt Voxlingo in der Originalstimme des Sprechers — auf Basis der Voxist-eigenen TTS-Voice-Cloning-Forschung. Heute wird eine natürliche neutrale Stimme in der Zielsprache verwendet.

On-Premise einsetzbar

inklusive der Übersetzungsmodelle. Eines der ganz wenigen Echtzeit-Sprachübersetzungsprodukte, das keinen Cloud-Umweg braucht.

Proof

COMET-Platz 2 weltweit auf französisch-zentrierten EU-Paaren

Im unabhängigen COMET-Benchmark über 20 französisch-zentrierte EU-Sprachpaare belegt die Übersetzungs-Engine von Voxlingo weltweit Platz 2 — vor DeepL, GPT-4o, Claude und EuroLLM-Varianten. Voxlingo schlägt DeepL in 17 von 20 Paaren und GPT-4o in 18 von 20 — nur 0,0025 COMET-Punkte hinter der weltweiten Nummer 1.

#2
weltweit · französisch-zentrierte Paare
17/20
Paare vor DeepL
18/20
Paare vor GPT-4o
40+
unterstützte Sprachen
PairVoxlingoDeepLMargin
French → German4th7th+0.0038
German → French4th7th+0.0038
French → Polish3rd7th+0.0036
French → Spanish3rd8th+0.0036
French → Hungarian4th7th+0.0040
Was es zu Voxist macht

Vier Stärken, in jedem Gespräch

Latenz

Wahrgenommene Latenz unter einer Sekunde, End-to-End

Die Streaming-Pipeline von Voxlingo — ASR, MT, TTS — läuft End-to-End mit unter einer Sekunde wahrgenommener Latenz, in echten Gesprächen mit echten Akzenten und echten Disfluenzen. Die Pipeline ist durchgehend Voxist: keine Drittanbieter-Roundtrips, keine API-Hops, kein Qualitätseinbruch, wenn ein Satz ausklingt.

Sprachen

Spezialisiert statt generisch

Voxlingo ist für europäische Sprachen gebaut, mit Französisch im Kern. Die meisten Übersetzungs-APIs wurden auf englisch-gepaarten Daten trainiert und übersetzen über Englisch-Pivot. Voxlingo ist auf direkten Paaren trainiert — Französisch ↔ Deutsch, Französisch ↔ Polnisch, Französisch ↔ Ungarisch — und genau auf diesen Paaren ist der COMET-Abstand zu DeepL am deutlichsten.

Souveränität

Standardmäßig souverän

Voxlingo ist eines der ganz wenigen Produkte für Echtzeit-Sprachübersetzung mit vollständiger On-Premise-Option — inklusive der Übersetzungsmodelle. Cloud, souverän (OVHcloud, Scaleway) oder Air-Gapped. DSGVO-nativ. Bereit für den EU AI Act. Für regulierte Branchen — Gesundheitswesen, Verteidigung, öffentliche Hand, Finanzwesen — ist das die Kombination, die es sonst nirgendwo gibt.

Ergebnisse

Ergebnisse, die Sie messen können

Voxlingo-Deployments in Voxlive Contact Centern berichten von wahrgenommener Latenz unter einer Sekunde, Verständlichkeit auf Dolmetscher-Niveau und 60–80 % weniger Dolmetscherkosten schon im ersten Quartal. Jede Aussage stammt von einem echten Kunden oder aus einem öffentlichen Benchmark.

Der Vergleich

Ein kurzer, ehrlicher Vergleich

VoxlingoDeepL VoiceKUDOWordly
Voice-to-Voice in Echtzeit✅ (mit Dolmetscher)
COMET-Platz 2 weltweit (frz.-zentrierte Paare)Kein BenchmarkN/AN/A
On-Premise-Deployment
Entwickelt in Europa
40+ Sprachen, wachsend40+200+ (human)60+
Stimmerhalt (Roadmap)Ende 2026Ende 2026Nur Dolmetscher
Works with

Eine Plattform, sechs Produkte, ein Flywheel

Voxlingo läuft als native Funktion im Voxlive Contact Center — im Ohrhörer des Agenten oder als vollständig übersetzter Kanal zwischen Agent und Kunde.

erfassen Sie ein Experteninterview auf Französisch; fragen Sie den entstehenden Wissensgraphen auf Polnisch oder Arabisch ab. Voxlingo übernimmt das sprachübergreifende Retrieval in Voxcept.

zeichnen Sie Meetings in gemischtsprachigen Umgebungen auf; Voxlingo übersetzt das Transkript auf Abruf, in jede der unterstützten Sprachen.

Voxlingo ist als Developer-taugliche Übersetzungs-API unter voxist.com/api verfügbar. Gleiche Auth, gleiche SDKs, transparente Euro-Preise.

Compliance & Vertrauen
DSGVO-nativBereit für den EU AI ActSecNumCloud-RoadmapSOC 2 Type II und ISO 27001 (in Arbeit)HDS-HostingMiFID-II-konforme GesprächsaufzeichnungOn-Premise-OptionAir-Gapped-Option
FAQ

Fragen & Antworten

Wie genau ist Voxlingo bei europäischen Sprachen?
Voxlingo belegt im unabhängigen COMET-Benchmark weltweit Platz 2 auf französisch-zentrierten EU-Paaren — vor DeepL in 17 von 20 Paaren und vor GPT-4o in 18 von 20. Detaillierte Werte pro Paar sind im Voxist-Übersetzungs-Leaderboard veröffentlicht.
Wie hoch ist die End-to-End-Latenz?
Unter einer Sekunde wahrgenommener Latenz, End-to-End, in echten Gesprächen. ASR-First-Audio unter 200 ms, die Übersetzung streamt, sobald das Transkript eintrifft, TTS rendert parallel.
Kann Voxlingo On-Premise laufen?
Ja — inklusive der Übersetzungsmodelle, der ASR und der TTS. Voxlingo ist eines der ganz wenigen Produkte für Echtzeit-Sprachübersetzung mit dieser Option. Souveräne Cloud (OVHcloud, Scaleway) und Air-Gapped-Deployment werden ebenfalls unterstützt.
Klingt die übersetzte Stimme wie der Originalsprecher?
Heute nein — in der Zielsprache wird eine natürliche neutrale Stimme verwendet. Stimmerhalt, bei dem die Übersetzung in der eigenen Stimme des Sprechers wiedergegeben wird, steht für Ende 2026 auf der Roadmap und basiert auf der hauseigenen TTS-Voice-Cloning-Forschung von Voxist.
Welche Sprachen unterstützt Voxlingo?
Über 40, mit produktionsreifer Tiefe bei europäischen Sprachen. Französisch ↔ alle großen EU-Sprachen (Deutsch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Tschechisch, Ungarisch). Englisch ↔ dieselbe Gruppe. Arabisch, Russisch, Türkisch, Mandarin und Japanisch in unterstützter Abdeckung. Die vollständige Matrix steht auf den Voxlingo-Sprachpaar-Seiten.
Wie schneidet Voxlingo im Vergleich zu DeepL Voice ab?
DeepL Voice und Voxlingo sind die beiden führenden europäischen Produkte für Echtzeit-Sprachübersetzung. Voxlingo übertrifft DeepL im französisch-zentrierten COMET-Benchmark (17 von 20 Paaren), läuft End-to-End unter einer Sekunde und bietet ein On-Premise-Deployment, das DeepL nicht hat. DeepL hat heute die stärkere Markenbekanntheit und eine tiefere Microsoft-Teams-Integration. Sehen Sie sich den vollständigen Vergleich an.
Wie schneidet Voxlingo im Vergleich zu KUDO oder Wordly ab?
KUDO und Wordly sind Event-Übersetzungsplattformen — große Konferenzen, hybride Events, Broadcasts. Voxlingo ist ein Produkt für konversationelle Echtzeit-Übersetzung, optimiert für Eins-zu-eins- und Kleingruppen-Sprachübersetzung im Contact Center und in der Geschäftskommunikation. Wer KUDO gegen Voxlingo evaluiert, kauft meist für unterschiedliche Aufgaben ein.
Funktioniert Voxlingo mit unserer SIP-/WebRTC-/Telefonie-Plattform?
Ja. Voxlingo bietet SIP-, WebRTC- und gRPC-Schnittstellen sowie SDKs für Python, Node, Go, Rust, Java und .NET. Native Integration mit dem Voxlive Contact Center; dokumentierte Integrationen mit Cisco Webex (über die Mobility Services Platform), Microsoft Teams, Zoom, Genesys Cloud und NICE CXone.
Kommt Voxlingo mit Akzenten, Code-Switching und Fachvokabular zurecht?
Ja — genau darauf wurde die Engine trainiert. Code-Switching (ein Anrufer wechselt mitten im Satz von Deutsch zu Englisch) wird automatisch erkannt. Fachvokabulare (Recht, Medizin, Finanzen, Technik) können pro Kunde getunt werden.
Ist die mobile App voxlingo.com dasselbe Produkt?
Die mobile App ist eine Demonstrationsfläche, auf der Nutzer die Technologie selbst erleben können. Sie läuft auf derselben Übersetzungs-Engine wie das Enterprise-Produkt — aber mit Tageslimits, ohne SLA, ohne Integrationssupport, ohne On-Premise-Option und ohne Domänen-Tuning. Für den Geschäftseinsatz ist das Enterprise-Produkt der richtige Einstieg.
Kann Voxlingo Gebärdensprache übersetzen?
Heute nicht. Gebärdensprachübersetzung ist ein anderes technisches Problem — sie erfordert Gestenerkennung, nicht Spracherkennung — und steht nicht auf der Voxlingo-Roadmap. KUDO bietet Gebärdensprachabdeckung mit menschlichen Dolmetschern, falls das die Anforderung ist.

Betreiben Sie Ihre mehrsprachigen Abläufe auf europäischer KI.

30-Minuten-Demo buchen

Englisch & Französisch · In der EU gehostet · kein Audio wird für Modelltraining verwendet