Introduzione
Context engineering è la chiave per passare da demo a sistemi affidabili: conta cosa entra nella finestra di contesto e come lo selezioni.
Nel 2025 il retrieval per LLM non è più sinonimo di "fare RAG". L'approccio vincente è un'architettura moderna di ricerca per AI: ingestion curata, rich recall ibrido, ri‑ordinamento (re‑rank) e un'assembly di contesto rigorosa per limitare la "context rot". L'obiettivo è semplice: servire all'LLM solo ciò che conta, al momento giusto, con costi e latenza sotto controllo.
Contesto
Il retrieval moderno per AI è diverso dalla ricerca classica: cambiano strumenti, carichi di lavoro, sviluppatori e l'utente finale (spesso un modello che legge più di "10 blue links"). La ricerca di Chroma su context engineering ha evidenziato due pilastri pratici: comprendere la context rot e misurare i progressi con piccoli set d'oro e generative benchmarking.
"Non spedire "RAG". Spedisci retrieval. Nomina le primitive (denso, lessicale, filtri, re‑rank, assembly, ciclo di eval)."
Jeff Huber, CEO / Chroma
Le 5 mosse per un retrieval efficace
Queste pratiche riducono errori e sprechi nella selezione del contesto.
- Definisci le primitive: dense, lessicale/regex, filtri, re‑rank, assembly, loop di valutazione
- Vinci la prima fase con rich recall ibrido (≈200–300 candidati)
- Sempre re‑rank prima di assemblare il contesto
- Rispetta la context rot: contesti compatti e strutturati battono finestre massime
- Crea un piccolo set d'oro e portalo in CI e dashboard
Pipeline operativa
Ingest
Trasforma i dati per la ricerca, arricchiscili e indicizzali una volta sola.
- Parse e chunk domain-aware (titoli, codice, tabelle)
- Enrichment: titoli, anchor, simboli, metadata
- Opzionale: sommari LLM dei chunk (glosse NL per codice/API)
- Embeddings densi e, se utile, segnali sparsi
- Scrittura in DB (testo, vettori, metadata)
Query
Combina segnali diversi, poi riduci e ordina con precisione.
- Primo stadio ibrido: vettori + lessicale/regex + filtri su metadata
- Pool candidati: ~100–300
- Re‑rank (LLM o cross‑encoder) verso top ~20–40
- Assembly del contesto: istruzioni prima, dedupe/merge, diversifica fonti, hard cap token
Outer loop
Misura continuamente, ottimizza costi e qualità, compatta la memoria.
- Cache/guardrail dei costi
- Generative benchmarking su piccoli set d'oro
- Error analysis → re‑chunk, ritara filtri, prompt di re‑rank
- Memoria/compattazione: riassumi tracce d'interazione → fatti recuperabili
Il Problema / Sfida: la context rot
All'aumentare dei token, l'attenzione e la capacità di ragionamento del modello possono degradare. Finestre enormi non garantiscono uso efficace del contesto; vincono contesti stretti, ben strutturati e con cap rigidi.
"La performance degli LLM non è invariante al numero di token: con più token, il modello presta meno attenzione e ragiona peggio."
Jeff Huber, CEO / Chroma
Soluzione / Approccio: context engineering applicata
Punta su recall ibrido generoso (l'LLM può leggere), poi re‑rank robusto prima dell'assembly. Ordina il contesto: istruzioni/sistema, dedupe, diversificazione, cap token. Caching aiuta costi e latenza ma non risolve la qualità del contesto.
- Re‑rank con LLM o re‑ranker dedicati; i primi sono flessibili via prompt
- Capacità di leggere 200–300 candidati apre la strada al brute‑force intelligente
- Valuta trade‑off: tail latency dei re‑rank paralleli vs qualità
Codice: indicizzazione, regex ed embeddings
Nella ricerca su codice, l'indicizzazione scambia performance di scrittura con query più veloci, utile su basi grandi o versionate. Regex resta potente; embeddings per codice possono dare quel 5–15% in più su query semantiche.
- Regex nativo e indicizzato è un ottimo primo strato
- Embeddings per colmare gap quando chi interroga non conosce il codice
- Forking dell'indice per versioni/branch/commit con re‑index veloce
Memoria e compattazione
La memoria è il beneficio del context engineering: strutturare e compattare interazioni in fatti recuperabili migliora le future risposte.
Compattazione offline (merge/split/riscrittura dei chunk, nuova metadata) e riassunti di interazione mantengono la memoria utile e a basso costo. I segnali che migliorano il retrieval sono gli stessi che dicono cosa ricordare.
Valutazione: golden set e generative benchmarking
Un piccolo set d'oro ben etichettato vale più di mille tentativi. Se hai i chunk ma non le query, genera query coerenti con LLM e usa pair query→chunk per misurare modelli, filtri e prompt.
- Porta i test in CI e dashboard
- Bilancia qualità con costi, latenza e affidabilità API
- Una sera con pizza per etichettare dati può sbloccare mesi di progresso
Conclusione
Nel retrieval per LLM, vincere significa curare il contesto: recall ibrido ricco, re‑rank prima dell'assembly, cap token severo e loop di valutazione continui. La context engineering trasforma sistemi fragili in infrastrutture che scalano senza marcire col crescere del contesto.
FAQ
Risposte rapide e operative sulla ricerca AI e i modelli di AI.
- Cos'è la context engineering nelle applicazioni LLM?
È la disciplina di selezionare e strutturare cosa entra nella finestra di contesto a ogni step generativo, con loop di valutazione continuo. - Perché la context rot è un problema nella ricerca AI?
Finestre più grandi possono degradare attenzione e ragionamento; contesti compatti e selezionati funzionano meglio. - Qual è un buon primo stadio di recall per AI search?
Ibrido: vettoriale + lessicale/regex + filtri su metadata per ottenere ~200–300 candidati. - Devo sempre fare re‑rank prima dell'assembly del contesto?
Sì, il re‑rank (LLM o cross‑encoder) migliora precisione e riduce rumore prima del cap token. - Come applico la context engineering al codice?
Usa regex indicizzato come base, aggiungi embeddings per query semantiche e forking dell'indice per versioni. - Come misuro i miglioramenti del retrieval?
Crea un set d'oro e usa generative benchmarking per confrontare modelli, filtri e prompt in CI. - La cache risolve i problemi di contesto nei modelli di AI?
Aiuta costi e latenza, ma non sostituisce la selezione accurata del contesto. - Quanto grande deve essere un set d'oro?
Anche poche centinaia di esempi ben etichettati sono sufficienti per guidare decisioni efficaci.