Introduzione
Il 16 dicembre 2025 segna un punto di svolta nella valutazione dell'intelligenza artificiale applicata alle scienze hard. OpenAI ha svelato FrontierScience, un nuovo benchmark progettato per rendere obsoleti i test precedenti, ormai saturati dalle capacità dei modelli di frontiera. Mentre il noto benchmark GPQA (Google-Proof Q&A) ha visto i modelli passare dal 39% al 92% in soli due anni, FrontierScience introduce una complessità tale che persino il nuovo GPT-5.2 si ferma al 25% nel track di ricerca pura.
Questa mossa non è solo accademica: è una risposta diretta alla necessità di misurare come l'AI possa agire da collaboratore di laboratorio autonomo, non più solo come motore di ricerca glorificato. Con concorrenti come Gemini 3 Pro di Google e Claude Opus 4.5 di Anthropic che incalzano, FrontierScience diventa il nuovo terreno di scontro per la supremazia nell'AI scientifica.
Analisi e Dettagli Tecnici
FrontierScience non è un semplice quiz a risposta multipla. Si divide in due track distinti per valutare competenze complementari:
- Track Olympiad: 100 problemi progettati da medaglie d'oro delle Olimpiadi internazionali (IPhO, IChO, IBO). Qui si misura il ragionamento matematico e teorico vincolato. GPT-5.2 domina con il 77.1%, seguito a breve distanza da Gemini 3 Pro (76.1%).
- Track Research: La vera novità. 60 task originali creati da PhD, che simulano problemi di ricerca aperti (es. ottimizzazione di protocolli di clonazione molecolare o analisi di strutture elettroniche in chimica inorganica). In questo ambito, il punteggio crolla drasticamente: GPT-5.2 guida con un modesto 25.2%, evidenziando quanto l'AI sia ancora lontana dall'autonomia scientifica completa.
Il sistema di Grading a Rubrica
A differenza dei benchmark passati basati su string match (risposta esatta), il track Research utilizza un'architettura a rubrica di 10 punti. Questo permette di valutare il processo di pensiero intermedio, non solo il risultato finale. Per scalare la valutazione, OpenAI utilizza un approccio "Model-based grader", dove un'istanza di GPT-5 valuta le risposte secondo i criteri rigorosi definiti dagli esperti umani. Una soluzione è considerata valida solo se ottiene almeno 7/10 punti.
Impatto sul Mercato e Competitor
L'introduzione di FrontierScience arriva in un momento critico. Secondo dati recenti, il benchmark GPQA è ormai considerato "risolto" dai modelli top di gamma (GPT-5.2 al 92%), rendendolo inutile per discriminare le capacità di reasoning avanzato. FrontierScience riapre il gap.
La Classifica Aggiornata (Dicembre 2025)
Nel track "Research", il più indicativo per l'uso aziendale e accademico, il distacco di OpenAI è netto:
- GPT-5.2: 25.2%
- Claude Opus 4.5: 17.5%
- Grok 4: 15.9%
- Gemini 3 Pro: 12.4%
Questi dati suggeriscono che, sebbene i modelli di Google e Anthropic siano eccellenti nel calcolo puro (Olympiad), faticano ancora nel gestire l'ambiguità e la pianificazione multi-step tipica della ricerca reale. Casi d'uso reali stanno già emergendo: partner come Red Queen Bio hanno utilizzato versioni preliminari di questi sistemi per ottimizzare protocolli di laboratorio, riducendo i cicli di iterazione da settimane a ore. Tuttavia, il tasso di successo del 25% indica che la supervisione umana ("Human-in-the-loop") rimane non solo consigliata, ma obbligatoria.
Conclusione
FrontierScience funge da "North Star" per il 2026. Se FrontierMath aveva testato la logica pura, questo benchmark testa la capacità di scoperta. Il messaggio per le imprese e i laboratori R&D è chiaro: i modelli attuali come GPT-5.2 sono pronti per accelerare task strutturati (literature review, calcoli complessi), ma non possono ancora sostituire il giudizio esperto nella definizione di nuove ipotesi. La corsa al 100% su FrontierScience è ufficialmente iniziata.
FAQ
Cos'è FrontierScience?
FrontierScience è il nuovo benchmark di OpenAI rilasciato a dicembre 2025 per valutare il ragionamento scientifico dei modelli AI. Include problemi di livello Olimpico e task di ricerca aperti creati da scienziati PhD.
Perché FrontierScience sostituisce GPQA?
GPQA è considerato saturo: GPT-5.2 ottiene il 92% su quel test. FrontierScience è molto più difficile, con i migliori modelli che raggiungono solo il 25% nel track di ricerca, offrendo una metrica più utile per il progresso futuro.
Qual è il modello più potente su FrontierScience?
Attualmente, GPT-5.2 è il leader indiscusso, con un punteggio del 77.1% nel track Olympiad e del 25.2% nel track Research, superando Gemini 3 Pro e Claude Opus 4.5.
Come viene valutato il track Research?
Viene valutato tramite una rubrica a 10 punti che analizza i passaggi intermedi del ragionamento. Una risposta è considerata corretta se ottiene almeno 7 punti su 10, valutata da un sistema di grading basato su modello supervisionato.