News

OpenAI presenta gpt-realtime: novità Realtime API e prezzi (-20%)

Punti salienti dell'articolo:
  • gpt-realtime è GA con Realtime API per agent vocali
  • Supporto server MCP remoti per tool plug-and-play
  • Input immagine in sessione per contesto visivo
  • Chiamate telefoniche via SIP integrate nell'API
  • Nuove voci Cedar e Marin con parlato più naturale
  • 82,8% su Big Bench Audio, 30,5% su MultiChallenge
  • 66,5% su ComplexFuncBench e function calling più preciso
  • Asincronia: la conversazione continua durante le chiamate
  • Riduzione prezzi del 20% rispetto a gpt-4o-realtime-preview
  • 32$ input/1M token, 64$ output/1M token, 0,40$ cached
  • EU Data Residency e privacy enterprise supportate
  • Prompt riutilizzabili e controllo fine del contesto
OpenAI presenta gpt-realtime: novità Realtime API e prezzi (-20%)

Introduzione

gpt-realtime è il nuovo modello speech-to-speech di OpenAI e la Realtime API è ora GA con MCP, input immagine e SIP per agent vocali di produzione.

OpenAI rende generalmente disponibile la Realtime API insieme a gpt-realtime, un modello voce evoluto per agent vocali affidabili, a bassa latenza e qualità naturale. L'API ora supporta server MCP remoti, input immagine nelle sessioni e chiamate telefoniche via SIP. Il modello migliora nell'esecuzione di istruzioni complesse, nel function calling preciso e nella resa vocale espressiva, con due nuove voci (Cedar e Marin). Grazie all'elaborazione end-to-end in un singolo modello, si riducono latenze e si preservano sfumature della voce, superando pipeline tradizionali basate su catene STT/TTS.

Contesto

La Realtime API processa e genera audio direttamente con un unico modello. Questo elimina colli di bottiglia tra moduli separati, migliora la naturalezza della conversazione e riduce errori di contesto. Dalla beta pubblica, il feedback di migliaia di sviluppatori ha guidato ottimizzazioni per affidabilità, qualità e tempo di risposta, orientate all'uso in produzione su casi come assistenza clienti, assistenza personale ed education.

gpt-realtime: cosa cambia

Qualità audio e voci

Il modello produce parlato più naturale, controllabile nel tono, ritmo e stile (es. rapido e professionale o empatico). Debuttano le voci Cedar e Marin, con i miglioramenti più marcati; anche le otto voci esistenti vengono aggiornate.

Intelligenza e comprensione

gpt-realtime coglie segnali non verbali, alterna lingue nella stessa frase e adatta il registro. Nelle valutazioni interne, raggiunge l'82,8% su Big Bench Audio (ragionamento), superando il modello di dicembre 2024 (65,6%). Migliora inoltre nel rilevamento accurato di sequenze alfanumeriche in più lingue.

Instruction following

Maggiore aderenza a istruzioni granulari per comportamento e stile. Sul benchmark MultiChallenge (accuratezza nell'eseguire istruzioni), segna il 30,5%, in crescita rispetto al 20,6% del modello di dicembre 2024.

Function calling e asincronia

Migliora nel richiamare gli strumenti giusti, al momento giusto e con argomenti corretti. Su ComplexFuncBench (audio), ottiene il 66,5% vs 49,7% del modello precedente. Le chiamate asincrone non interrompono il flusso: la conversazione prosegue mentre si attendono i risultati.

Realtime API: nuove capacità

La Realtime API guadagna estendibilità (MCP), contesto visivo (immagini) e telefonia (SIP) per integrazioni pronte all'impresa.

  • Supporto server MCP remoti: strumenti esposti via MCP diventano disponibili alla sessione senza wiring manuale
  • Input immagine: aggiungi foto/screenshot alla conversazione per domande contestuali e lettura testi
  • SIP: collega app a rete telefonica pubblica, PBX, telefoni da scrivania ed endpoint SIP
  • Prompt riutilizzabili: salva e riusa messaggi developer, tool, variabili ed esempi tra sessioni
  • Controllo fine del contesto: limiti intelligenti di token e troncatura multi-turn per ridurre i costi

Sicurezza e privacy

La Realtime API include più livelli di salvaguardie e classificatori attivi che possono interrompere conversazioni che violano le policy. Gli sviluppatori possono aggiungere ulteriori guardrail con l'Agents SDK. Le voci predefinite aiutano a prevenire impersonificazioni. Sono supportati EU Data Residency e impegni di privacy enterprise.

Prezzi e disponibilità

Prezzi ridotti del 20% rispetto a gpt-4o-realtime-preview: 32$ / 1M token audio in input (0,40$ se in cache) e 64$ / 1M token audio in output. gpt-realtime e la Realtime API GA sono disponibili da oggi per tutti gli sviluppatori.

Il controllo del contesto e la troncatura multi-turn aiutano a contenere i costi nelle sessioni lunghe.

Conclusione

gpt-realtime e la Realtime API semplificano l'adozione di agent vocali di qualità produttiva: voce naturale, migliore comprensione, tool più affidabili e integrazioni pronte (MCP, immagini, SIP). Per iniziare, esplora la documentazione, il Playground e la guida al prompting Realtime.

FAQ

Che cos'è gpt-realtime e a cosa serve?

È un modello speech-to-speech avanzato per agent vocali di produzione, con voce naturale, migliore comprensione e tool calling affidabile.

In cosa gpt-realtime differisce da pipeline STT/TTS tradizionali?

Elabora e genera audio con un unico modello/API, riducendo latenza e preservando le sfumature del parlato rispetto a catene separate.

La Realtime API supporta MCP, immagini e SIP?

Sì: MCP per tool remoti, input immagine nella sessione e chiamate telefoniche via SIP per connettersi a rete e PBX.

Quali sono i prezzi di gpt-realtime?

32$ per 1M token audio in input (0,40$ se in cache) e 64$ per 1M token in output, con riduzione del 20% rispetto al modello precedente.

Quali miglioramenti misurati mostra gpt-realtime?

82,8% su Big Bench Audio, 30,5% su MultiChallenge e 66,5% su ComplexFuncBench, superando il modello di dicembre 2024.

Come gestisce sicurezza e privacy la Realtime API?

Usa classificatori attivi e policy di uso, supporta EU Data Residency e consente guardrail aggiuntivi con Agents SDK.

Introduzione gpt-realtime è il nuovo modello speech-to-speech di OpenAI e la Realtime API è ora GA con MCP, input immagine e SIP per agent vocali di [...] Evol Magazine
Tag:
OpenAI