La Realtime API supporta MCP, input immagine e SIP?

Sì, offre MCP per tool remoti, input immagine nella sessione e chiamate via SIP verso rete pubblica, PBX e telefoni.

Quanto costa usare gpt-realtime nella Realtime API?

32$ per 1M token audio in input (0,40$ se in cache) e 64$ per 1M token audio in output, con riduzione prezzi del 20%.

Quali tutele di sicurezza e privacy sono disponibili?

Classificatori attivi e policy di uso; supporto EU Data Residency ed extra guardrail via Agents SDK per i casi d'uso sensibili.

OpenAI gpt-realtime e Realtime API: feature chiave e prezzi

Q: In cosa gpt-realtime differisce da pipeline STT/TTS tradizionali?

Usa un unico modello/API per input e output audio, riducendo latenza e preservando le sfumature del parlato rispetto a catene separate.

Introduzione

gpt-realtime è il nuovo modello speech-to-speech di OpenAI e la Realtime API è ora GA con MCP, input immagine e SIP per agent vocali di produzione.

OpenAI rende generalmente disponibile la Realtime API insieme a gpt-realtime, un modello voce evoluto per agent vocali affidabili, a bassa latenza e qualità naturale. L'API ora supporta server MCP remoti, input immagine nelle sessioni e chiamate telefoniche via SIP. Il modello migliora nell'esecuzione di istruzioni complesse, nel function calling preciso e nella resa vocale espressiva, con due nuove voci (Cedar e Marin). Grazie all'elaborazione end-to-end in un singolo modello, si riducono latenze e si preservano sfumature della voce, superando pipeline tradizionali basate su catene STT/TTS.

Contesto

La Realtime API processa e genera audio direttamente con un unico modello. Questo elimina colli di bottiglia tra moduli separati, migliora la naturalezza della conversazione e riduce errori di contesto. Dalla beta pubblica, il feedback di migliaia di sviluppatori ha guidato ottimizzazioni per affidabilità, qualità e tempo di risposta, orientate all'uso in produzione su casi come assistenza clienti, assistenza personale ed education.

gpt-realtime: cosa cambia

Qualità audio e voci

Il modello produce parlato più naturale, controllabile nel tono, ritmo e stile (es. rapido e professionale o empatico). Debuttano le voci Cedar e Marin, con i miglioramenti più marcati; anche le otto voci esistenti vengono aggiornate.

Intelligenza e comprensione

gpt-realtime coglie segnali non verbali, alterna lingue nella stessa frase e adatta il registro. Nelle valutazioni interne, raggiunge l'82,8% su Big Bench Audio (ragionamento), superando il modello di dicembre 2024 (65,6%). Migliora inoltre nel rilevamento accurato di sequenze alfanumeriche in più lingue.

Instruction following

Maggiore aderenza a istruzioni granulari per comportamento e stile. Sul benchmark MultiChallenge (accuratezza nell'eseguire istruzioni), segna il 30,5%, in crescita rispetto al 20,6% del modello di dicembre 2024.

Function calling e asincronia

Migliora nel richiamare gli strumenti giusti, al momento giusto e con argomenti corretti. Su ComplexFuncBench (audio), ottiene il 66,5% vs 49,7% del modello precedente. Le chiamate asincrone non interrompono il flusso: la conversazione prosegue mentre si attendono i risultati.

Realtime API: nuove capacità

La Realtime API guadagna estendibilità (MCP), contesto visivo (immagini) e telefonia (SIP) per integrazioni pronte all'impresa.

Supporto server MCP remoti: strumenti esposti via MCP diventano disponibili alla sessione senza wiring manuale
Input immagine: aggiungi foto/screenshot alla conversazione per domande contestuali e lettura testi
SIP: collega app a rete telefonica pubblica, PBX, telefoni da scrivania ed endpoint SIP
Prompt riutilizzabili: salva e riusa messaggi developer, tool, variabili ed esempi tra sessioni
Controllo fine del contesto: limiti intelligenti di token e troncatura multi-turn per ridurre i costi

Sicurezza e privacy

La Realtime API include più livelli di salvaguardie e classificatori attivi che possono interrompere conversazioni che violano le policy. Gli sviluppatori possono aggiungere ulteriori guardrail con l'Agents SDK. Le voci predefinite aiutano a prevenire impersonificazioni. Sono supportati EU Data Residency e impegni di privacy enterprise.

Prezzi e disponibilità

Prezzi ridotti del 20% rispetto a gpt-4o-realtime-preview: 32$ / 1M token audio in input (0,40$ se in cache) e 64$ / 1M token audio in output. gpt-realtime e la Realtime API GA sono disponibili da oggi per tutti gli sviluppatori.

Il controllo del contesto e la troncatura multi-turn aiutano a contenere i costi nelle sessioni lunghe.

Conclusione

gpt-realtime e la Realtime API semplificano l'adozione di agent vocali di qualità produttiva: voce naturale, migliore comprensione, tool più affidabili e integrazioni pronte (MCP, immagini, SIP). Per iniziare, esplora la documentazione, il Playground e la guida al prompting Realtime.

FAQ

Che cos'è gpt-realtime e a cosa serve?

È un modello speech-to-speech avanzato per agent vocali di produzione, con voce naturale, migliore comprensione e tool calling affidabile.

In cosa gpt-realtime differisce da pipeline STT/TTS tradizionali?

Elabora e genera audio con un unico modello/API, riducendo latenza e preservando le sfumature del parlato rispetto a catene separate.

La Realtime API supporta MCP, immagini e SIP?

Sì: MCP per tool remoti, input immagine nella sessione e chiamate telefoniche via SIP per connettersi a rete e PBX.

Quali sono i prezzi di gpt-realtime?

32$ per 1M token audio in input (0,40$ se in cache) e 64$ per 1M token in output, con riduzione del 20% rispetto al modello precedente.

Quali miglioramenti misurati mostra gpt-realtime?

82,8% su Big Bench Audio, 30,5% su MultiChallenge e 66,5% su ComplexFuncBench, superando il modello di dicembre 2024.

Come gestisce sicurezza e privacy la Realtime API?

Usa classificatori attivi e policy di uso, supporta EU Data Residency e consente guardrail aggiuntivi con Agents SDK.

OpenAI presenta gpt-realtime: novità Realtime API e prezzi (-20%)

Introduzione

Contesto

gpt-realtime: cosa cambia

Qualità audio e voci

Intelligenza e comprensione

Instruction following

Function calling e asincronia

Realtime API: nuove capacità

Sicurezza e privacy

Prezzi e disponibilità

Conclusione

FAQ

Che cos'è gpt-realtime e a cosa serve?

In cosa gpt-realtime differisce da pipeline STT/TTS tradizionali?

La Realtime API supporta MCP, immagini e SIP?

Quali sono i prezzi di gpt-realtime?

Quali miglioramenti misurati mostra gpt-realtime?

Come gestisce sicurezza e privacy la Realtime API?

Tag:

Link correlati:

Introduzione

Contesto

gpt-realtime: cosa cambia

Qualità audio e voci

Intelligenza e comprensione

Instruction following

Function calling e asincronia

Realtime API: nuove capacità

Sicurezza e privacy

Prezzi e disponibilità

Conclusione

FAQ

Che cos'è gpt-realtime e a cosa serve?

In cosa gpt-realtime differisce da pipeline STT/TTS tradizionali?

La Realtime API supporta MCP, immagini e SIP?

Quali sono i prezzi di gpt-realtime?

Quali miglioramenti misurati mostra gpt-realtime?

Come gestisce sicurezza e privacy la Realtime API?

Tag:

Link correlati:

Articoli Correlati

Giudice Ordina a OpenAI la Consegna di 20 Milioni di Log ChatGPT

OpenAI Code Red: ChatGPT Rischia? (5 Mosse Urgenti)

Sora e Nano Banana Pro: nuovi limiti di generazione per l'AI