News

OpenAI lancia GPT-5.2: L'IA supera gli esperti in 44 professioni

Punti salienti dell'articolo:
  • GPT-5.2 supera gli esperti umani nel 70,9% delle task professionali (GDPval)
  • Introdotte tre varianti: Instant, Thinking e Pro per diversi casi d'uso
  • Il contesto lungo arriva a 256k token con accuratezza quasi perfetta
  • Miglioramenti nel coding: 55,6% su SWE-bench Pro e 80% su Verified
  • Riduzione del 38% delle allucinazioni rispetto a GPT-5.1
  • Nuovi prezzi API: GPT-5.2 base a $1.75/$14 per milione di token
  • Vision avanzata: 86,3% di precisione nell'analisi di screenshot GUI
OpenAI lancia GPT-5.2: L'IA supera gli esperti in 44 professioni

Introduzione

OpenAI ha ufficialmente presentato GPT-5.2, definendolo il passo in avanti più significativo per le attività professionali e i flussi di lavoro agentici complessi. La nuova serie di modelli non è solo un aggiornamento incrementale, ma un ripensamento delle capacità di ragionamento su contesti lunghi e sull'uso di strumenti esterni. Secondo i dati rilasciati, il modello è progettato per far risparmiare tempo prezioso: gli utenti Enterprise già riportano un risparmio di 40-60 minuti al giorno, con i "power users" che arrivano a risparmiare oltre 10 ore settimanali.

Per leggere l'annuncio completo, è possibile consultare il comunicato ufficiale di OpenAI.

Il salto qualitativo: GPT-5.2 Thinking e Pro

La nuova linea si divide principalmente in tre varianti per coprire diverse esigenze: Instant (veloce e conversazionale), Thinking (ragionamento profondo) e Pro (massima qualità possibile). Il focus principale è sulla capacità di gestire compiti che richiedono competenze specialistiche.

Il dato più impressionante riguarda il benchmark GDPval, che misura le prestazioni in 44 professioni economicamente rilevanti. Ecco i risultati chiave:

  • GPT-5.2 Thinking: Supera o pareggia i professionisti umani nel 70,9% dei casi.
  • Efficienza: Esegue compiti 11 volte più velocemente degli esperti, con un costo inferiore all'1%.
  • Affidabilità: I tassi di allucinazione sono scesi drasticamente, con il 38% di errori in meno rispetto al predecessore GPT-5.1.

Prestazioni Tecniche e Coding

Per gli sviluppatori e gli ingegneri del software, GPT-5.2 rappresenta un nuovo standard. Nel benchmark SWE-bench Pro, che simula scenari di ingegneria del software reali e multi-lingua, il modello "Thinking" ha raggiunto il 55,6%, distanziando le versioni precedenti. Nella versione "Verified", il punteggio sale all'80%.

"GPT-5.2 ha reso possibile un cambio completo della nostra architettura. Abbiamo consolidato un fragile sistema multi-agente in un unico mega-agente con oltre 20 strumenti. La cosa migliore è che funziona, semplicemente."

AJ Orbach, CEO / Triple Whale

Visione e Contesto Lungo

Una delle sfide storiche dei LLM è la gestione di grandi moli di dati senza "dimenticare" pezzi. GPT-5.2 Thinking eccelle nel benchmark OpenAI MRCRv2, mantenendo un'accuratezza prossima al 100% nel recupero di informazioni (needle in a haystack) fino a 256.000 token. Questo lo rende ideale per analizzare contratti legali, intere codebase o archivi di ricerca scientifica.

Anche la visione artificiale è migliorata: il modello interpreta meglio interfacce grafiche e screenshot (86,3% su ScreenSpot-Pro), facilitando l'automazione di processi basati su GUI.

Disponibilità e Prezzi

I modelli sono in fase di rollout graduale su ChatGPT per gli utenti Plus, Team ed Enterprise. Per gli sviluppatori via API, i prezzi riflettono l'aumento di potenza:

  • GPT-5.2: $1.75 per 1M token input / $14.00 per 1M token output.
  • GPT-5.2 Pro: $21.00 per 1M token input / $168.00 per 1M token output (pensato per casi d'uso ad alto valore aggiunto).

Nonostante il costo per token sia più alto rispetto a GPT-5.1, OpenAI sostiene che l'efficienza nel completare task complessi al primo tentativo riduca il costo totale dell'operazione.

FAQ

Quali sono le principali differenze tra GPT-5.2 Instant, Thinking e Pro?

Instant è ottimizzato per velocità e uso quotidiano. Thinking è progettato per il ragionamento complesso, coding e analisi dati. Pro offre la massima qualità possibile per problemi scientifici o tecnici estremamente difficili, giustificando tempi di attesa e costi maggiori.

Quanto costa utilizzare l'API di GPT-5.2?

Il prezzo base per GPT-5.2 è di $1.75 per milione di token di input e $14 per milione di token di output. La versione Pro è significativamente più costosa ($21/$168), mentre sono previsti sconti del 90% per i token memorizzati nella cache (Context Caching).

GPT-5.2 è migliore nel coding rispetto ai modelli precedenti?

Sì, GPT-5.2 Thinking raggiunge il 55,6% su SWE-bench Pro e l'80% su SWE-bench Verified. È particolarmente efficace nel debugging, nel refactoring di codebase estese e nello sviluppo front-end, gestendo meglio elementi 3D e interfacce complesse.

Il nuovo modello è più sicuro e affidabile?

OpenAI ha ridotto le allucinazioni del 38% rispetto a GPT-5.1. Inoltre, sono stati implementati filtri di sicurezza migliorati per la salute mentale e l'autolesionismo, rendendo il modello più sicuro per l'interazione umana, specialmente in contesti sensibili.

GPT-5.2 può sostituire gli esperti umani?

Secondo il benchmark GDPval, GPT-5.2 Thinking eguaglia o supera gli esperti umani nel 70,9% delle attività in 44 professioni. Tuttavia, OpenAI sottolinea che il modello è pensato per operare sotto supervisione umana per aumentare la produttività, non per sostituire totalmente il giudizio professionale.

Introduzione OpenAI ha ufficialmente presentato GPT-5.2, definendolo il passo in avanti più significativo per le attività professionali e i flussi di Evol Magazine