Introduzione
gpt-realtime è il nuovo modello speech-to-speech di OpenAI e la Realtime API è ora GA con MCP, input immagine e SIP per agent vocali di produzione.
OpenAI rende generalmente disponibile la Realtime API insieme a gpt-realtime, un modello voce evoluto per agent vocali affidabili, a bassa latenza e qualità naturale. L'API ora supporta server MCP remoti, input immagine nelle sessioni e chiamate telefoniche via SIP. Il modello migliora nell'esecuzione di istruzioni complesse, nel function calling preciso e nella resa vocale espressiva, con due nuove voci (Cedar e Marin). Grazie all'elaborazione end-to-end in un singolo modello, si riducono latenze e si preservano sfumature della voce, superando pipeline tradizionali basate su catene STT/TTS.
Contesto
La Realtime API processa e genera audio direttamente con un unico modello. Questo elimina colli di bottiglia tra moduli separati, migliora la naturalezza della conversazione e riduce errori di contesto. Dalla beta pubblica, il feedback di migliaia di sviluppatori ha guidato ottimizzazioni per affidabilità, qualità e tempo di risposta, orientate all'uso in produzione su casi come assistenza clienti, assistenza personale ed education.
gpt-realtime: cosa cambia
Qualità audio e voci
Il modello produce parlato più naturale, controllabile nel tono, ritmo e stile (es. rapido e professionale o empatico). Debuttano le voci Cedar e Marin, con i miglioramenti più marcati; anche le otto voci esistenti vengono aggiornate.
Intelligenza e comprensione
gpt-realtime coglie segnali non verbali, alterna lingue nella stessa frase e adatta il registro. Nelle valutazioni interne, raggiunge l'82,8% su Big Bench Audio (ragionamento), superando il modello di dicembre 2024 (65,6%). Migliora inoltre nel rilevamento accurato di sequenze alfanumeriche in più lingue.
Instruction following
Maggiore aderenza a istruzioni granulari per comportamento e stile. Sul benchmark MultiChallenge (accuratezza nell'eseguire istruzioni), segna il 30,5%, in crescita rispetto al 20,6% del modello di dicembre 2024.
Function calling e asincronia
Migliora nel richiamare gli strumenti giusti, al momento giusto e con argomenti corretti. Su ComplexFuncBench (audio), ottiene il 66,5% vs 49,7% del modello precedente. Le chiamate asincrone non interrompono il flusso: la conversazione prosegue mentre si attendono i risultati.
Realtime API: nuove capacità
La Realtime API guadagna estendibilità (MCP), contesto visivo (immagini) e telefonia (SIP) per integrazioni pronte all'impresa.
- Supporto server MCP remoti: strumenti esposti via MCP diventano disponibili alla sessione senza wiring manuale
- Input immagine: aggiungi foto/screenshot alla conversazione per domande contestuali e lettura testi
- SIP: collega app a rete telefonica pubblica, PBX, telefoni da scrivania ed endpoint SIP
- Prompt riutilizzabili: salva e riusa messaggi developer, tool, variabili ed esempi tra sessioni
- Controllo fine del contesto: limiti intelligenti di token e troncatura multi-turn per ridurre i costi
Sicurezza e privacy
La Realtime API include più livelli di salvaguardie e classificatori attivi che possono interrompere conversazioni che violano le policy. Gli sviluppatori possono aggiungere ulteriori guardrail con l'Agents SDK. Le voci predefinite aiutano a prevenire impersonificazioni. Sono supportati EU Data Residency e impegni di privacy enterprise.
Prezzi e disponibilità
Prezzi ridotti del 20% rispetto a gpt-4o-realtime-preview: 32$ / 1M token audio in input (0,40$ se in cache) e 64$ / 1M token audio in output. gpt-realtime e la Realtime API GA sono disponibili da oggi per tutti gli sviluppatori.
Il controllo del contesto e la troncatura multi-turn aiutano a contenere i costi nelle sessioni lunghe.
Conclusione
gpt-realtime e la Realtime API semplificano l'adozione di agent vocali di qualità produttiva: voce naturale, migliore comprensione, tool più affidabili e integrazioni pronte (MCP, immagini, SIP). Per iniziare, esplora la documentazione, il Playground e la guida al prompting Realtime.
FAQ
Che cos'è gpt-realtime e a cosa serve?
È un modello speech-to-speech avanzato per agent vocali di produzione, con voce naturale, migliore comprensione e tool calling affidabile.
In cosa gpt-realtime differisce da pipeline STT/TTS tradizionali?
Elabora e genera audio con un unico modello/API, riducendo latenza e preservando le sfumature del parlato rispetto a catene separate.
La Realtime API supporta MCP, immagini e SIP?
Sì: MCP per tool remoti, input immagine nella sessione e chiamate telefoniche via SIP per connettersi a rete e PBX.
Quali sono i prezzi di gpt-realtime?
32$ per 1M token audio in input (0,40$ se in cache) e 64$ per 1M token in output, con riduzione del 20% rispetto al modello precedente.
Quali miglioramenti misurati mostra gpt-realtime?
82,8% su Big Bench Audio, 30,5% su MultiChallenge e 66,5% su ComplexFuncBench, superando il modello di dicembre 2024.
Come gestisce sicurezza e privacy la Realtime API?
Usa classificatori attivi e policy di uso, supporta EU Data Residency e consente guardrail aggiuntivi con Agents SDK.