Piattaforma di Speech AI per sviluppatori

La piattaforma di Speech AI che muove Voxist — e il tuo prodotto.

Riconoscimento vocale di livello produzione, sintesi vocale neurale, traduzione automatica, diarizzazione dei parlanti e identificazione della lingua. Gli stessi motori che muovono una piattaforma di conoscenza Fortune 100 e un contact center Fortune 500. Prezzi trasparenti in euro. Deployment sovrano dal primo giorno.

Ottieni una API key Leggi la documentazione

api.voxist.com200 OK

$ curl https://api.voxist.com/v1/transcribe \
  -H "Authorization: Bearer $VOXIST_API_KEY" \
  -F audio=@call.wav \
  -F language=fr -F diarize=true

{
  "text": "bonjour, je vous appelle…",
  "language": "fr",
  "words": [{ "w":"bonjour", "t":0.12, "c":0.99 }]
}

$ curl https://api.voxist.com/v1/synthesize \
  -F text="Votre colis arrive demain." \
  -F voice=fr_neural_1 -F format=wav

$ curl https://api.voxist.com/v1/translate \
  -F from=fr -F to=de \
  -F stream=true -F audio=@call.wav

timestamp per parolaEUR / second8.9 streams/vCPU

Il problema

La distanza che cresce in silenzio

Il punto dolente

Il tuo fornitore di Speech AI è americano di default

Deepgram, AssemblyAI, ElevenLabs, Speechmatics (ora di proprietà americana), Cartesia. Tutte le grandi API di Speech AI sono costruite e ospitate negli Stati Uniti. La strada più economica verso "l'AI vocale nel nostro prodotto" è quella che mette l'audio dei tuoi clienti su cloud americano, sotto il CLOUD Act, con la prossima nota di conformità già in attesa di essere scritta. Hai costruito così perché non c'era una vera alternativa. Ora c'è.

Il costo

L'inglese è l'unica lingua per cui hanno davvero ottimizzato

La maggior parte delle API di Speech AI è nata english-first e ha aggiunto le altre lingue dopo. I benchmark lo dimostrano: tassi di errore per parola che raddoppiano passando dall'inglese al francese, che peggiorano ancora sugli accenti regionali e che si rompono del tutto sui cambi di lingua. Se il tuo prodotto serve utenti europei in qualsiasi lingua diversa dall'inglese, stai pagando per un modello che perde contro un motore specializzato proprio sulle conversazioni che i tuoi utenti fanno davvero.

Con Voxist

La tua bolletta di infrastruttura cresce con l'utilizzo. Non dovrebbe

Le API di Speech AI tradizionali si fatturano al minuto, e dietro quel prezzo al minuto c'è una GPU da qualche parte. A scala, stai finanziando un noleggio di GPU con un buon margine. L'ASR di Voxist gira su CPU: 8,9 stream simultanei per vCPU con un fattore di tempo reale sotto 1,05. L'economia è diversa. La bolletta è diversa. Il deployment è diverso.

Come funziona

Sei endpoint, una piattaforma, tre modelli di deployment

Endpoint	Cosa fa
/v1/transcribe	Da voce a testo. Streaming o batch. 40+ lingue.
/v1/synthesize	Da testo a voce. Voci neurali, voice cloning disponibile.
/v1/translate	Traduzione automatica. Testo o voce a voce in streaming.
/v1/diarize	Separazione dei parlanti. Spesso combinata con la trascrizione.
/v1/detect-language	Identificazione della lingua in meno di 100 ms, su audio o testo.
/v1/vad	Rilevamento dell'attività vocale. Distribuibile sull'edge.

Tre modelli di deployment

Voxist Cloud

Il default. Ospitato in Europa (OVHcloud, Scaleway), GDPR-nativo, prezzi trasparenti in euro al secondo di audio.

Voxist Private Cloud

La tua VPC sul cloud che preferisci. Cifratura bring-your-own-key. Residenza dei dati sotto il tuo controllo.

Voxist On-Premise

La piattaforma completa nel tuo data center, sul tuo hardware. Opzione air-gapped per difesa e settore pubblico.

Un SDK per ogni linguaggio in cui programmi davvero. Python, Node.js, Go, Rust, Java, .NET. OpenAPI 3.0 per tutto il resto, WebRTC e gRPC per lo streaming, esempi eseguibili in ogni pagina della documentazione.

Leggi il quickstart

Funzionalità

Fatto per le cose davvero difficili

40+ lingue con profondità europea

francese al 4,2% di WER. Tedesco, spagnolo, italiano, portoghese, olandese, polacco, ceco, ungherese, e altre in arrivo. Ogni lingua è di livello produzione e misurata pubblicamente.

Streaming e batch

latenza del primo audio sotto i 200 ms per i casi in tempo reale, elaborazione batch per i carichi ad alto volume di documenti e registrazioni.

Diarizzazione dei parlanti

separazione automatica dei parlanti, con timestamp per parlante ed etichette coerenti sugli audio lunghi.

Traduzione in 40+ lingue

VoxTranslate, n. 2 al mondo in COMET sulle coppie UE incentrate sul francese, davanti a DeepL in 17 coppie su 20.

TTS neurale con voice cloning

sintesi vocale dal suono naturale. Voice cloning su misura disponibile su richiesta. Preservazione della voce (clonazione in tempo reale della voce del parlante) in roadmap per fine 2026.

Vocabolari di dominio

vocabolari medico, legale, tecnico e finanziario precaricati. Vocabolario su misura per cliente supportato sui contratti enterprise.

Streaming in tempo reale via WebSocket e gRPC

per i casi d'uso in cui la latenza di andata e ritorno HTTP è il vincolo.

Timestamp e confidenza a livello di parola

ogni trascrizione restituisce offset e punteggi di confidenza per parola — adatti a sottotitoli sincronizzati, costruzione di indici di ricerca e monitoraggio della qualità.

Deployment CPU-first

l'ASR di Voxist gira a 8,9 stream simultanei per vCPU con un RTF sotto 1,05. La maggior parte della concorrenza richiede infrastruttura GPU per il tempo reale.

Prove

I motori che muovono i nostri prodotti enterprise sono i motori che chiami tu

Non esiste un ASR o un TTS "di livello sviluppatore" separato sull'API Voxist. Esattamente gli stessi modelli — gli stessi checkpoint, gli stessi dati di addestramento, la stessa ingegneria — muovono la Dynamic AI Interview di Voxcept in un FMCG Fortune 100, il contact center Voxlive e la base di 30.000 utenti di Voxreply. Quando chiami /v1/transcribe, chiami il motore che gestisce traffico enterprise su larga scala.

4.2%

WER sul francese (ASR)

<200ms

latenza del primo audio P95

8.9

stream simultanei / vCPU

COMET · coppie incentrate sul francese

17/20

coppie davanti a DeepL

18/20

coppie davanti a GPT-4o

40+

lingue supportate

1000 min

gratis / mese · senza carta

Cosa lo rende Voxist

Quattro pilastri, ogni volta

Latenza

Economia di ASR CPU-first

Il motore ASR di Voxist sostiene 8,9 stream simultanei per vCPU con un fattore di tempo reale sotto 1,05 — circa 3,5 volte la densità CPU di Speechmatics, e unico tra i grandi fornitori di Speech AI a non richiedere infrastruttura GPU per il tempo reale. Il costo per ora di audio, su CPU Intel standard, è di 0,0047 €. Quell'economia si trasferisce direttamente nei nostri prezzi pubblici — e nel tuo budget di infrastruttura se distribuisci on-premise.

Lingue

Profondità francese ed europea, non una localizzazione

ASR francese al 4,2% di WER. Traduzione n. 2 al mondo in COMET sulle coppie incentrate sul francese, con i distacchi maggiori su DeepL proprio sulle coppie dove ti aspetteresti che vinca un motore specializzato: francese ↔ tedesco, francese ↔ polacco, francese ↔ ungherese. Ogni lingua è misurata pubblicamente sul leaderboard Voxist, con metodologia completa, aggiornato ogni mese.

Sovranità

Deployment sovrano dal primo giorno

L'API Voxist è l'unica grande piattaforma di Speech AI che offre tutti e tre i modelli di deployment con piena parità di funzionalità: SaaS su cloud europeo, cloud privato sulla tua VPC, e completamente on-premise (modelli inclusi) dentro il tuo data center. Per i settori regolamentati — sanità, difesa, settore pubblico, finanza — è la matrice di deployment che non esiste da nessun'altra parte.

Risultati

Risultati su cui la documentazione non mente

Ogni affermazione di questa pagina rimanda a un benchmark pubblico, a un deployment di un cliente o a una cifra documentata. Il ranking COMET è indipendente. Il benchmark di efficienza CPU è pubblicato con metodologia completa. Le cifre di latenza sono P95 da traffico di produzione, non da condizioni di laboratorio. Voxist Status (status.voxist.com) mostra in tempo reale la disponibilità della piattaforma e lo storico degli incidenti.

Il confronto

Un confronto breve e onesto

	Deepgram	AssemblyAI	Speechmatics	ElevenLabs
Costruito e ospitato in Europa	—	—	UK (US-owned)	—
Francese al 4,2% di WER	English-first	English-first	Strong	N/A
Deployment CPU-first	GPU richiesta	GPU richiesta	Partial	GPU richiesta
Opzione on-premise	Limited	—	Limited	—
Prezzi trasparenti in euro	❌ (USD)	❌ (USD)	❌ (USD)	❌ (USD)
1000 minuti gratis, senza carta	Gratuito limitato	Piano gratuito	Gratuito limitato	Piano gratuito

Vedi il confronto completo API Voxist vs Deepgram →Vedi il confronto completo API Voxist vs AssemblyAI →Vedi il confronto completo API Voxist vs Speechmatics →Vedi il confronto completo API Voxist vs ElevenLabs →Vedi il confronto completo API Voxist vs Cartesia →

L'ecosistema

Una piattaforma, sei prodotti, un flywheel

Replica la Dynamic AI Interview di Voxcept

/v1/transcribe + /v1/diarize + il tuo stack di LLM e retrieval.

Replica l'agent assist di Voxlive

/v1/transcribe in streaming + /v1/translate + l'estrazione dell'intento dal tuo lato.

Replica la traduzione da voce a voce di Voxlingo

concatena /v1/transcribe → /v1/translate → /v1/synthesize via WebSocket.

Replica il receptionist AI di Voxreply

combina ASR in streaming, TTS e l'LLM che preferisci in un agente collegato via SIP.

Replica la cattura delle riunioni di Voxmemo

/v1/transcribe in batch + /v1/diarize + il tuo livello di riepilogo.

Conformità e fiducia

GDPR-nativoPronto per l'AI Act UERoadmap SecNumCloudSOC 2 Type II (in corso)ISO 27001 (in corso)Hosting HDSNessun addestramento sull'audio dei clientiOpzione on-premiseOpzione air-gapped

FAQ

Domande e risposte

Come si confronta l'API Voxist con Deepgram o AssemblyAI?

Deepgram e AssemblyAI sono due eccellenti piattaforme di Speech AI americane, con grandi prestazioni sull'inglese e ampi ecosistemi per sviluppatori. L'API Voxist le supera entrambe in precisione sul francese e sulle lingue europee (4,2% di WER sul francese), gira CPU-first (8,9 stream/vCPU) dove loro richiedono GPU, offre un deployment on-premise che loro non hanno e fattura in euro, senza rischio di cambio. La scelta giusta dipende dalla tua priorità linguistica, dai tuoi requisiti di deployment e dalla tua strategia di residenza dei dati. Vedi il confronto completo.

Posso eseguire l'API Voxist on-premise, modelli inclusi?

Sì. Voxist è una delle pochissime piattaforme di Speech AI con un'opzione di deployment completamente on-premise, inclusi i modelli di ASR, TTS e traduzione. Sono supportati il cloud sovrano (OVHcloud, Scaleway), il cloud privato (la tua VPC su qualsiasi grande provider) e i deployment air-gapped. L'economia del deployment è trasparente: alla nostra efficienza CPU pubblicata, il costo totale on-premise scende sotto il cloud intorno ai 50.000–100.000 minuti di traffico mensile.

Qual è lo SLA?

99,95% di disponibilità della piattaforma sui deployment cloud. Five nines (99,999%) sui contratti enterprise dedicati. Latenza del primo audio P95 sotto i 200 ms sull'ASR in streaming, P99 sotto i 500 ms. Stato in tempo reale su status.voxist.com.

Addestrate sui miei audio?

No. Voxist non usa l'audio dei clienti per addestrare i modelli. È un principio di progettazione non negoziabile della piattaforma, su tutti i piani, incluso quello gratuito. Policy dettagliata sul trattamento dei dati su /company/security/.

Quali lingue supportate, esattamente?

Più di 40 lingue, con profondità da produzione su quelle europee. La matrice completa, con WER e latenza per lingua, è pubblicata sul leaderboard ASR di Voxist. Per la traduzione, la matrice delle coppie con punteggio COMET è pubblicata sul leaderboard di traduzione di Voxist. Entrambi sono aggiornati ogni mese.

Che differenza c'è tra l'API Voxist e Whisper di OpenAI / Azure / Google Cloud Speech?

Whisper è un modello open source, non un'API ospitata; lo esegui tu (o lo compri da uno dei tanti servizi di Whisper hosted). Azure e Google Cloud Speech sono API vocali generaliste di hyperscaler americani, ospitate su cloud americano (con regioni europee disponibili, ma sotto il CLOUD Act). L'API Voxist è costruita appositamente in Europa, con una profondità sul francese e sulle lingue europee per cui quelle API generaliste non ottimizzano, e con opzioni di deployment sovrano che loro non possono offrire.

Offrite il voice cloning?

Sì — il TTS di Voxist supporta il voice cloning su misura sui contratti enterprise. Bastano sessanta secondi di audio sorgente di alta qualità. La preservazione della voce nella traduzione in tempo reale (riprodurre l'audio tradotto con la voce del parlante originale) è in roadmap per fine 2026.

Posso usare l'API Voxist per la dettatura medica, legale o finanziaria?

Sì — i vocabolari di dominio medico, legale, tecnico e finanziario sono precaricati. Il vocabolario su misura per cliente è supportato sui contratti enterprise. I dati sanitari sono ospitati su infrastruttura certificata HDS in Francia.

Come comincio?

Crea una API key gratuita su voxist.com/api/signup. 1000 minuti al mese gratis, senza carta. Documentazione, SDK ed esempi di codice su developers.voxist.com. Supporto della community via Discord; i piani a pagamento includono supporto diretto con tempi di risposta garantiti da SLA.

C'è una pagina di stato?

Sì — status.voxist.com. Salute della piattaforma in tempo reale, disponibilità regionale, storico degli incidenti e report sugli SLA.

Avete una community / una presenza open source?

Voxist contribuisce a diversi progetti open source nel campo della Speech AI (vedi github.com/voxist) e partecipa alle collaborazioni di ricerca ELLIOT (Horizon Europe). Il team Voxist pubblica su arXiv e alle conferenze di voce e traduzione. Le pagine Benchmarks di Voxist pubblicano la metodologia e il codice dei nostri benchmark pubblici, perché possano essere riprodotti e messi alla prova.

Costruisci sulla piattaforma di Speech AI che gestisce traffico di produzione.

Ottieni una API key

Inglese e francese · Hosting nella UE · nessun audio viene usato per addestrare i modelli