News

Ingegneria del Contesto per Agenti AI: Le 6 Lezioni da Manus

Punti salienti dell'articolo:
  • L'ingegneria del contesto permette iterazioni in ore invece di settimane rispetto al fine-tuning
  • Il tasso di successo della KV-cache è la metrica più importante per agenti AI in produzione
  • I token memorizzati nella cache costano 10 volte meno di quelli non memorizzati
  • Mascherare gli strumenti invece di rimuoverli preserva la stabilità del contesto
  • Il file system può fungere da contesto illimitato e persistente per gli agenti
  • Mantenere gli errori nel contesto aiuta il modello ad apprendere dai fallimenti
  • La diversità strutturata previene il few-shot trap e le generalizzazioni eccessive
Ingegneria del Contesto per Agenti AI: Le 6 Lezioni da Manus

Introduzione

L'ingegneria del contesto rappresenta la nuova frontiera nello sviluppo di agenti AI efficaci. Mentre i modelli diventano sempre più potenti, la capacità di gestire il contesto determina il successo o il fallimento di un sistema agentico. Il team di Manus ha imparato questa lezione attraverso quattro ricostruzioni complete del loro framework, sviluppando principi che hanno trasformato il loro approccio all'AI agentica.

La Scelta Strategica: Contesto vs Fine-Tuning

Quando il team di Manus ha iniziato il progetto, si è trovato di fronte a una decisione cruciale: addestrare un modello end-to-end o costruire un agente basato sull'apprendimento in-context. La scelta è ricaduta sull'ingegneria del contesto per una ragione fondamentale: i tempi di iterazione.

Nei primi giorni dell'NLP, il fine-tuning richiedeva settimane per ogni iterazione. Oggi, l'ingegneria del contesto permette miglioramenti in ore anziché settimane, mantenendo il prodotto indipendente dai modelli sottostanti. Come una barca che galleggia sulla marea crescente del progresso dei modelli, invece di essere un pilastro fisso sul fondale.

KV-Cache: La Metrica più Importante

Il tasso di successo della KV-cache è la metrica più critica per un agente AI in produzione. Influisce direttamente su latenza e costi, con impatti drammatici: con Claude Sonnet, i token memorizzati nella cache costano 0.30 USD/MTok contro 3 USD/MTok per quelli non memorizzati.

Strategie per Ottimizzare la KV-Cache

  • Mantieni stabile il prefisso del prompt: Anche un singolo token diverso può invalidare l'intera cache
  • Rendi il contesto solo-appendibile: Evita modifiche a azioni o osservazioni precedenti
  • Serializzazione deterministica: Garantisci un ordinamento stabile delle chiavi JSON
  • Punti di interruzione espliciti: Segna strategicamente i punti di cache quando necessario

Mascherare gli Strumenti, Non Rimuoverli

Con l'espansione delle capacità dell'agente, lo spazio d'azione diventa complesso. La tentazione di implementare strumenti dinamici è forte, ma comporta rischi significativi per la KV-cache e la coerenza del modello.

Invece di rimuovere strumenti dinamicamente, Manus utilizza una macchina a stati che maschera i logit durante la decodifica. Questo approccio mantiene la stabilità del contesto mentre controlla la selezione delle azioni attraverso tre modalità:

  1. Auto: Il modello sceglie se chiamare una funzione
  2. Required: Il modello deve chiamare una funzione
  3. Specified: Il modello deve scegliere da un sottoinsieme specifico

Il File System come Contesto Esteso

Anche con finestre di contesto di 128K token, gli agenti del mondo reale spesso raggiungono i limiti. Le osservazioni possono essere enormi, le prestazioni degradano con contesti lunghi, e i costi aumentano proporzionalmente.

Manus tratta il file system come contesto definitivo: illimitato, persistente e direttamente operabile. Il modello impara a utilizzare i file non solo come archiviazione, ma come memoria strutturata ed esternalizzata. Le strategie di compressione sono sempre ripristinabili, mantenendo riferimenti che permettono il recupero delle informazioni quando necessario.

Manipolare l'Attenzione Attraverso la Recitazione

Un comportamento distintivo di Manus è la creazione e aggiornamento costante di file todo.md durante i compiti complessi. Non è solo un vezzo estetico, ma un meccanismo deliberato per manipolare l'attenzione del modello.

Con una media di 50 chiamate di strumenti per compito, Manus rischia di perdere il focus sui suoi obiettivi. Riscrivendo costantemente la lista delle cose da fare, spinge il piano globale nell'intervallo di attenzione recente, evitando problemi di "perso nel mezzo" e mantenendo l'allineamento agli obiettivi.

Mantenere gli Errori nel Contesto

Contro l'istinto comune di nascondere gli errori, Manus mantiene i percorsi sbagliati nel contesto. Quando il modello vede un'azione fallita e la conseguente osservazione di errore, aggiorna implicitamente le sue convinzioni interne, riducendo la probabilità di ripetere lo stesso errore.

Il recupero dagli errori è uno degli indicatori più chiari di un vero comportamento agentico, anche se rimane sottorappresentato nei benchmark accademici che si concentrano sul successo in condizioni ideali.

Evitare il Few-Shot Trap

I modelli linguistici sono eccellenti imitatori e tendono a seguire schemi nel contesto. In compiti ripetitivi, questo può portare a derive e generalizzazioni eccessive. La soluzione è introdurre diversità strutturata: variazioni nei modelli di serializzazione, formulazioni alternative e piccole modifiche nell'ordine o formattazione.

Conclusione

L'ingegneria del contesto è una scienza emergente ma già essenziale per i sistemi agentici. Il modo in cui si modella il contesto definisce il comportamento dell'agente: velocità, capacità di recupero e scalabilità. Queste lezioni, apprese attraverso milioni di interazioni reali, offrono una guida pratica per chi sviluppa agenti AI nel mondo reale.

FAQ

Cos'è l'ingegneria del contesto per agenti AI?

L'ingegneria del contesto è la disciplina che si occupa di progettare e ottimizzare il modo in cui gli agenti AI gestiscono le informazioni durante l'esecuzione dei compiti, influenzando direttamente performance e costi.

Perché la KV-cache è così importante per gli agenti AI?

La KV-cache riduce drasticamente latenza e costi: con Claude Sonnet, i token memorizzati costano 0.30 USD/MTok contro 3 USD/MTok per quelli non memorizzati, una differenza di 10 volte.

Come si ottimizza il tasso di successo della KV-cache?

Mantenendo stabile il prefisso del prompt, rendendo il contesto solo-appendibile, garantendo serializzazione deterministica e segnando punti di interruzione espliciti quando necessario.

Perché non rimuovere dinamicamente gli strumenti dall'agente AI?

Rimuovere strumenti dinamicamente invalida la KV-cache e confonde il modello quando le azioni precedenti referenziano strumenti non più definiti nel contesto attuale.

Come si utilizza il file system come contesto esteso?

Trattando il file system come memoria strutturata ed esternalizzata, dove l'agente può scrivere e leggere informazioni su richiesta, superando i limiti delle finestre di contesto tradizionali.

Perché mantenere gli errori nel contesto degli agenti AI?

Gli errori forniscono prove preziose che permettono al modello di aggiornare le sue convinzioni interne e ridurre la probabilità di ripetere gli stessi errori in futuro.

Introduzione L'ingegneria del contesto rappresenta la nuova frontiera nello sviluppo di agenti AI efficaci. Mentre i modelli diventano sempre più potenti, Evol Magazine
Tag:
AI Agents