La piattaforma di Speech AI che muove Voxist — e il tuo prodotto.
Riconoscimento vocale di livello produzione, sintesi vocale neurale, traduzione automatica, diarizzazione dei parlanti e identificazione della lingua. Gli stessi motori che muovono una piattaforma di conoscenza Fortune 100 e un contact center Fortune 500. Prezzi trasparenti in euro. Deployment sovrano dal primo giorno.
$ curl https://api.voxist.com/v1/transcribe \ -H "Authorization: Bearer $VOXIST_API_KEY" \ -F audio=@call.wav \ -F language=fr -F diarize=true { "text": "bonjour, je vous appelle…", "language": "fr", "words": [{ "w":"bonjour", "t":0.12, "c":0.99 }] }
$ curl https://api.voxist.com/v1/synthesize \ -F text="Votre colis arrive demain." \ -F voice=fr_neural_1 -F format=wav
$ curl https://api.voxist.com/v1/translate \ -F from=fr -F to=de \ -F stream=true -F audio=@call.wav
La distanza che cresce in silenzio
Il tuo fornitore di Speech AI è americano di default
Deepgram, AssemblyAI, ElevenLabs, Speechmatics (ora di proprietà americana), Cartesia. Tutte le grandi API di Speech AI sono costruite e ospitate negli Stati Uniti. La strada più economica verso "l'AI vocale nel nostro prodotto" è quella che mette l'audio dei tuoi clienti su cloud americano, sotto il CLOUD Act, con la prossima nota di conformità già in attesa di essere scritta. Hai costruito così perché non c'era una vera alternativa. Ora c'è.
L'inglese è l'unica lingua per cui hanno davvero ottimizzato
La maggior parte delle API di Speech AI è nata english-first e ha aggiunto le altre lingue dopo. I benchmark lo dimostrano: tassi di errore per parola che raddoppiano passando dall'inglese al francese, che peggiorano ancora sugli accenti regionali e che si rompono del tutto sui cambi di lingua. Se il tuo prodotto serve utenti europei in qualsiasi lingua diversa dall'inglese, stai pagando per un modello che perde contro un motore specializzato proprio sulle conversazioni che i tuoi utenti fanno davvero.
La tua bolletta di infrastruttura cresce con l'utilizzo. Non dovrebbe
Le API di Speech AI tradizionali si fatturano al minuto, e dietro quel prezzo al minuto c'è una GPU da qualche parte. A scala, stai finanziando un noleggio di GPU con un buon margine. L'ASR di Voxist gira su CPU: 8,9 stream simultanei per vCPU con un fattore di tempo reale sotto 1,05. L'economia è diversa. La bolletta è diversa. Il deployment è diverso.
Sei endpoint, una piattaforma, tre modelli di deployment
| Endpoint | Cosa fa |
|---|---|
| /v1/transcribe | Da voce a testo. Streaming o batch. 40+ lingue. |
| /v1/synthesize | Da testo a voce. Voci neurali, voice cloning disponibile. |
| /v1/translate | Traduzione automatica. Testo o voce a voce in streaming. |
| /v1/diarize | Separazione dei parlanti. Spesso combinata con la trascrizione. |
| /v1/detect-language | Identificazione della lingua in meno di 100 ms, su audio o testo. |
| /v1/vad | Rilevamento dell'attività vocale. Distribuibile sull'edge. |
Tre modelli di deployment
Il default. Ospitato in Europa (OVHcloud, Scaleway), GDPR-nativo, prezzi trasparenti in euro al secondo di audio.
La tua VPC sul cloud che preferisci. Cifratura bring-your-own-key. Residenza dei dati sotto il tuo controllo.
La piattaforma completa nel tuo data center, sul tuo hardware. Opzione air-gapped per difesa e settore pubblico.
Un SDK per ogni linguaggio in cui programmi davvero. Python, Node.js, Go, Rust, Java, .NET. OpenAPI 3.0 per tutto il resto, WebRTC e gRPC per lo streaming, esempi eseguibili in ogni pagina della documentazione.
Fatto per le cose davvero difficili
40+ lingue con profondità europea
francese al 4,2% di WER. Tedesco, spagnolo, italiano, portoghese, olandese, polacco, ceco, ungherese, e altre in arrivo. Ogni lingua è di livello produzione e misurata pubblicamente.
Streaming e batch
latenza del primo audio sotto i 200 ms per i casi in tempo reale, elaborazione batch per i carichi ad alto volume di documenti e registrazioni.
Diarizzazione dei parlanti
separazione automatica dei parlanti, con timestamp per parlante ed etichette coerenti sugli audio lunghi.
Traduzione in 40+ lingue
VoxTranslate, n. 2 al mondo in COMET sulle coppie UE incentrate sul francese, davanti a DeepL in 17 coppie su 20.
TTS neurale con voice cloning
sintesi vocale dal suono naturale. Voice cloning su misura disponibile su richiesta. Preservazione della voce (clonazione in tempo reale della voce del parlante) in roadmap per fine 2026.
Vocabolari di dominio
vocabolari medico, legale, tecnico e finanziario precaricati. Vocabolario su misura per cliente supportato sui contratti enterprise.
Streaming in tempo reale via WebSocket e gRPC
per i casi d'uso in cui la latenza di andata e ritorno HTTP è il vincolo.
Timestamp e confidenza a livello di parola
ogni trascrizione restituisce offset e punteggi di confidenza per parola — adatti a sottotitoli sincronizzati, costruzione di indici di ricerca e monitoraggio della qualità.
Deployment CPU-first
l'ASR di Voxist gira a 8,9 stream simultanei per vCPU con un RTF sotto 1,05. La maggior parte della concorrenza richiede infrastruttura GPU per il tempo reale.
I motori che muovono i nostri prodotti enterprise sono i motori che chiami tu
Non esiste un ASR o un TTS "di livello sviluppatore" separato sull'API Voxist. Esattamente gli stessi modelli — gli stessi checkpoint, gli stessi dati di addestramento, la stessa ingegneria — muovono la Dynamic AI Interview di Voxcept in un FMCG Fortune 100, il contact center Voxlive e la base di 30.000 utenti di Voxreply. Quando chiami /v1/transcribe, chiami il motore che gestisce traffico enterprise su larga scala.
Quattro pilastri, ogni volta
Economia di ASR CPU-first
Il motore ASR di Voxist sostiene 8,9 stream simultanei per vCPU con un fattore di tempo reale sotto 1,05 — circa 3,5 volte la densità CPU di Speechmatics, e unico tra i grandi fornitori di Speech AI a non richiedere infrastruttura GPU per il tempo reale. Il costo per ora di audio, su CPU Intel standard, è di 0,0047 €. Quell'economia si trasferisce direttamente nei nostri prezzi pubblici — e nel tuo budget di infrastruttura se distribuisci on-premise.
Profondità francese ed europea, non una localizzazione
ASR francese al 4,2% di WER. Traduzione n. 2 al mondo in COMET sulle coppie incentrate sul francese, con i distacchi maggiori su DeepL proprio sulle coppie dove ti aspetteresti che vinca un motore specializzato: francese ↔ tedesco, francese ↔ polacco, francese ↔ ungherese. Ogni lingua è misurata pubblicamente sul leaderboard Voxist, con metodologia completa, aggiornato ogni mese.
Deployment sovrano dal primo giorno
L'API Voxist è l'unica grande piattaforma di Speech AI che offre tutti e tre i modelli di deployment con piena parità di funzionalità: SaaS su cloud europeo, cloud privato sulla tua VPC, e completamente on-premise (modelli inclusi) dentro il tuo data center. Per i settori regolamentati — sanità, difesa, settore pubblico, finanza — è la matrice di deployment che non esiste da nessun'altra parte.
Risultati su cui la documentazione non mente
Ogni affermazione di questa pagina rimanda a un benchmark pubblico, a un deployment di un cliente o a una cifra documentata. Il ranking COMET è indipendente. Il benchmark di efficienza CPU è pubblicato con metodologia completa. Le cifre di latenza sono P95 da traffico di produzione, non da condizioni di laboratorio. Voxist Status (status.voxist.com) mostra in tempo reale la disponibilità della piattaforma e lo storico degli incidenti.
Un confronto breve e onesto
| Voxist API | Deepgram | AssemblyAI | Speechmatics | ElevenLabs | |
|---|---|---|---|---|---|
| Costruito e ospitato in Europa | — | — | UK (US-owned) | — | |
| Francese al 4,2% di WER | English-first | English-first | Strong | N/A | |
| Deployment CPU-first | GPU richiesta | GPU richiesta | Partial | GPU richiesta | |
| Opzione on-premise | Limited | — | Limited | — | |
| Prezzi trasparenti in euro | ❌ (USD) | ❌ (USD) | ❌ (USD) | ❌ (USD) | |
| 1000 minuti gratis, senza carta | Gratuito limitato | Piano gratuito | Gratuito limitato | Piano gratuito |
Una piattaforma, sei prodotti, un flywheel
/v1/transcribe + /v1/diarize + il tuo stack di LLM e retrieval.
/v1/transcribe in streaming + /v1/translate + l'estrazione dell'intento dal tuo lato.
concatena /v1/transcribe → /v1/translate → /v1/synthesize via WebSocket.
combina ASR in streaming, TTS e l'LLM che preferisci in un agente collegato via SIP.
/v1/transcribe in batch + /v1/diarize + il tuo livello di riepilogo.
Domande e risposte
Come si confronta l'API Voxist con Deepgram o AssemblyAI?
Posso eseguire l'API Voxist on-premise, modelli inclusi?
Qual è lo SLA?
Addestrate sui miei audio?
Quali lingue supportate, esattamente?
Che differenza c'è tra l'API Voxist e Whisper di OpenAI / Azure / Google Cloud Speech?
Offrite il voice cloning?
Posso usare l'API Voxist per la dettatura medica, legale o finanziaria?
Come comincio?
C'è una pagina di stato?
Avete una community / una presenza open source?
Costruisci sulla piattaforma di Speech AI che gestisce traffico di produzione.
Inglese e francese · Hosting nella UE · nessun audio viene usato per addestrare i modelli