Introduzione
L'automazione del lavoro tramite intelligenza artificiale promette di rivoluzionare il mercato del lavoro freelance, ma una nuova ricerca condotta dal Center for AI Safety (CAIS) e Scale AI rivela una realtà ben diversa dalle aspettative. Gli AI agents, sistemi progettati per automatizzare compiti e potenzialmente intere mansioni lavorative, hanno dimostrato prestazioni drammaticamente inferiori rispetto agli esseri umani che dovrebbero sostituire. Lo studio ha testato sei modelli di AI agents leader di mercato su progetti freelance simulati, con risultati che sollevano interrogativi critici sulla reale capacità dell'AI di sostituire il lavoro umano qualificato.
Il Test Remote Labor Index
I ricercatori hanno sviluppato un benchmark innovativo chiamato Remote Labor Index (RLI), utilizzando una vasta gamma di progetti di lavoro remoto reali per valutare le capacità operative degli AI agents. Il test ha coinvolto settori diversificati, dallo sviluppo di videogiochi all'analisi dati, passando per molteplici discipline che richiedono competenze specifiche e capacità di problem-solving. L'obiettivo era misurare il tasso di automazione, ovvero la percentuale di progetti che gli AI agents potevano completare a un livello accettabile per commissioni reali nel mondo del freelancing.
Risultati Deludenti: Meno del 3% di Successo
I risultati dello studio sono stati inequivocabilmente negativi. Nessun AI agent è riuscito a completare più del 3% del lavoro assegnato, generando complessivamente solo $1.810 su un potenziale di $143.991. Il miglior performer è stato l'agente AI della startup cinese Manus, con un tasso di automazione del 2,5%. Al secondo posto, con il 2,1%, si sono classificati a pari merito Grok 4 di Elon Musk e Claude Sonnet 4.5 di Anthropic, quest'ultimo pubblicizzato come "il miglior modello di coding al mondo" e "il modello più forte per costruire agenti complessi".
GPT-5 di OpenAI, con la sua presunta "intelligenza di livello PhD", si è fermato all'1,7%. Il CEO Sam Altman aveva definito GPT-5 "un passo significativo verso l'AGI" (Artificial General Intelligence), ma i risultati del benchmark RLI dimostrano quanto questa affermazione sia lontana dalla realtà operativa. Ancora più ironico è il risultato di ChatGPT Agent di OpenAI, che ha raggiunto appena l'1,3%, mentre Gemini 2.5 Pro di Google si è posizionato ultimo con un misero 0,8%.
Perché gli AI Agents Falliscono
Dan Hendrycks, direttore del CAIS, ha evidenziato alcune limitazioni fondamentali che affliggono ancora gli AI agents nonostante i rapidi progressi nel settore. Gli agenti AI non possiedono memoria a lungo termine e non sono capaci di apprendimento continuo dalle esperienze. A differenza degli esseri umani, non possono acquisire competenze sul campo durante l'esecuzione del lavoro. Queste carenze strutturali impediscono agli AI agents di adattarsi alle sfide impreviste e di migliorare progressivamente le proprie prestazioni come farebbero i lavoratori umani.
"Spero che questo dia impressioni molto più accurate su cosa sta realmente accadendo con le capacità dell'AI."
Dan Hendrycks, Direttore del Center for AI Safety
L'Impatto sul Mercato del Lavoro
Nonostante questi risultati evidenti, l'ondata di licenziamenti legati all'AI non sembra rallentare. Molti CEO continuano a ridurre la forza lavoro abbracciando l'automazione, ma la capacità effettiva dell'AI di aumentare la produttività o compensare la perdita di talento umano rimane altamente discutibile. Aneddoti di datori di lavoro che hanno dovuto riassumere dipendenti dopo aver scoperto l'inadeguatezza degli strumenti AI sono sempre più frequenti.
Uno studio del MIT ha rilevato che il 95% delle aziende che hanno testato iniziative AI non ha registrato una crescita significativa dei ricavi. Un'altra ricerca ha dimostrato che l'introduzione di strumenti AI nei flussi di lavoro ha generato un'ondata di "workslop" di bassa qualità, lavoro che necessita di pesanti revisioni per correggere errori, rallentando i processi e creando tensioni tra colleghi costretti a correggere output sciatti.
Il Divario tra Marketing e Realtà
Vendere AI agents ai datori di lavoro è diventata l'ossessione dell'industria dell'intelligenza artificiale, mentre leader come OpenAI faticano a capitalizzare sulla popolarità dei loro chatbot AI, molti dei quali sono gratuiti. La definizione stessa di AGI secondo OpenAI - "sistemi altamente autonomi che superano gli esseri umani nella maggior parte del lavoro economicamente valido" - sembra lontana anni luce dai risultati misurabili nel mondo reale.
"Abbiamo dibattuto di AI e lavoro per anni, ma la maggior parte era ipotetica o teorica."
Bing Lie, Direttore della Ricerca presso Scale AI
Conclusione
I risultati del Remote Labor Index offrono una prospettiva realistica e misurata sulle attuali capacità degli AI agents, contrastando nettamente con le promesse grandiose dell'industria tecnologica. Mentre l'intelligenza artificiale continua a evolversi, questo studio evidenzia come il divario tra le aspettative e la realtà operativa rimanga significativo. Per aziende e professionisti, la lezione è chiara: l'automazione attraverso AI agents non è ancora una soluzione pronta per sostituire il talento umano qualificato nel lavoro freelance complesso.
FAQ
Qual è il tasso di successo degli AI agents nel lavoro freelance?
Secondo lo studio del CAIS e Scale AI, nessun AI agent ha superato il 3% di completamento dei compiti assegnati, con il miglior performer che ha raggiunto solo il 2,5%.
Quale AI agent ha ottenuto i risultati migliori nel test?
L'agente AI della startup cinese Manus ha ottenuto il punteggio più alto con un tasso di automazione del 2,5%, seguito da Grok 4 e Claude Sonnet 4.5 al 2,1%.
Perché gli AI agents falliscono nel completare progetti freelance?
Gli AI agents mancano di memoria a lungo termine, non possono apprendere continuamente dalle esperienze e non acquisiscono competenze sul campo come gli esseri umani.
Cos'è il Remote Labor Index utilizzato nello studio?
Il Remote Labor Index (RLI) è un benchmark che valuta gli AI agents attraverso progetti di lavoro remoto reali in settori come sviluppo videogiochi e analisi dati.
Come ha performato GPT-5 di OpenAI nel test degli AI agents?
GPT-5 ha raggiunto solo l'1,7% di completamento dei compiti, nonostante OpenAI lo abbia promosso come un passo significativo verso l'intelligenza artificiale generale.
Le aziende stanno riassumendo lavoratori dopo aver provato gli AI agents?
Sì, molti datori di lavoro hanno dovuto riassumere dipendenti dopo aver scoperto che gli strumenti AI non erano adeguati a sostituire il lavoro umano qualificato.
Qual è stato il rendimento economico degli AI agents testati?
Collettivamente, i sei AI agents hanno generato solo $1.810 su un potenziale di $143.991, dimostrando una produttività economica estremamente limitata.
Gli AI agents possono sostituire i freelancer umani nel 2025?
I dati attuali indicano che gli AI agents non sono ancora in grado di sostituire efficacemente i freelancer umani in compiti complessi che richiedono adattabilità e apprendimento continuo.