Introduzione: Il nuovo standard dell'intelligenza artificiale
Anthropic ha ufficialmente rilasciato Claude Opus 4.5, definendolo il modello più intelligente ed efficiente mai creato dall'azienda, specialmente per quanto riguarda la programmazione, l'uso di agenti autonomi e l'interazione con interfacce informatiche. Disponibile da oggi tramite API e sulle principali piattaforme cloud, Opus 4.5 non è solo un aggiornamento incrementale: rappresenta un salto qualitativo nella capacità delle macchine di svolgere "lavoro reale".
La notizia più impattante per il mercato è il posizionamento di prezzo: $5 per milione di token in input e $25 in output. Questo rende le capacità di livello "Opus" accessibili a una fascia molto più ampia di sviluppatori e imprese rispetto al passato.
Contesto: Superare il limite umano
Per comprendere la portata di questo rilascio, bisogna guardare ai benchmark interni di Anthropic. L'azienda sottopone i candidati ingegneri a un difficile esame pratico di 2 ore. Claude Opus 4.5 è stato testato su questo stesso esame e ha ottenuto un punteggio superiore a qualsiasi candidato umano mai esaminato prima nel tempo limite.
"I tester hanno notato che Claude Opus 4.5 gestisce l'ambiguità e ragiona sui compromessi senza bisogno di essere guidato. Ci hanno detto che, di fronte a bug complessi e multi-sistema, Opus 4.5 capisce come risolverli. Compiti che erano quasi impossibili per Sonnet 4.5 solo poche settimane fa, ora sono alla portata."
Team di Valutazione, Anthropic
Non si tratta solo di scrivere codice, ma di "capire" il problema (quello che i tester definiscono "it just gets it"). Il modello domina su 7 degli 8 linguaggi di programmazione nel benchmark SWE-bench Multilingual e mostra capacità di ragionamento matematico e visivo superiori ai predecessori.
Il Problema: Rigidità vs. Creatività
Uno dei limiti storici degli LLM è l'incapacità di pensare fuori dagli schemi quando vincolati da regole rigide. Opus 4.5 sembra aver superato questa barriera attraverso quello che potremmo definire "problem solving creativo".
Un esempio citato riguarda un benchmark (τ2-bench) in cui l'AI agisce come agente di una compagnia aerea. Il compito era modificare un volo per un cliente con un biglietto "basic economy", che per policy non permette cambi. La maggior parte dei modelli fallisce o rifiuta.
La Soluzione di Opus 4.5
Il modello ha analizzato le policy e trovato una scappatoia legittima:
- La policy vieta il cambio volo per la basic economy, ma permette il cambio di classe (upgrade).
- La policy permette il cambio volo per le classi superiori (economy standard/business).
La strategia dell'AI? Fare prima l'upgrade del biglietto (a pagamento) e successivamente modificare la data del volo. Sebbene il benchmark automatico lo abbia segnato come errore (perché inaspettato), dimostra una capacità di ragionamento laterale impressionante.
Novità per Sviluppatori: Efficienza e Controllo
Con il rilascio, Anthropic introduce aggiornamenti significativi alla Claude Developer Platform:
- Parametro "Effort": Gli sviluppatori possono ora bilanciare velocità e capacità. A livello medio, Opus 4.5 eguaglia le prestazioni di Sonnet 4.5 usando il 76% di token in meno. Al livello massimo, lo supera drasticamente.
- Claude Code: Disponibile ora su desktop, permette di eseguire sessioni parallele (es. un agente fixa un bug mentre l'altro aggiorna la documentazione).
- Memoria e Contesto: Le conversazioni lunghe nelle app non "colpiscono più un muro"; il sistema riassume automaticamente il contesto precedente per mantenere la continuità.
Sicurezza e Affidabilità
Nonostante la maggiore "creatività", Anthropic dichiara che Opus 4.5 è il modello più allineato e sicuro mai rilasciato. Test condotti con Gray Swan mostrano che è il modello più resistente del settore agli attacchi di "prompt injection" (tentativi di ingannare l'AI per fargli compiere azioni dannose), offrendo garanzie cruciali per l'uso aziendale.
Per maggiori dettagli tecnici e visualizzare i grafici originali delle performance, è possibile consultare la pagina ufficiale di annuncio di Anthropic.
Conclusione
Claude Opus 4.5 non è solo "più veloce": è un modello che inizia a mostrare segni di intuizione ingegneristica. Con un prezzo aggressivo e strumenti integrati per Excel e Chrome (ora disponibili per gli utenti Max/Team), Anthropic sta spingendo l'AI da strumento di supporto a partner autonomo nel flusso di lavoro.
FAQ
Ecco le risposte alle domande più comuni su Claude Opus 4.5 e le sue capacità.