News

Context engineering: 5 mosse per superare RAG (2025)

Punti salienti dell'articolo:
  • Definisci le primitive: dense, lessicale, filtri, re‑rank, assembly
  • Recall ibrido con 200–300 candidati per sfruttare la lettura dell’LLM
  • Fai re‑rank prima dell’assembly del contesto per ridurre rumore
  • Contesti compatti e strutturati mitigano la context rot
  • Assembly: istruzioni, dedupe, fonti diverse, hard cap token
  • Regex resta forte nel code search, embeddings aggiungono semantica
  • Forking dell’indice per branch/commit con re‑index veloce
  • Piccoli set d’oro e generative benchmarking in CI
  • Cache e guardrail costi senza sacrificare qualità
  • Compattazione offline: riassunti e metadata per memoria utile
Context engineering: 5 mosse per superare RAG (2025)

Introduzione

Context engineering è la chiave per passare da demo a sistemi affidabili: conta cosa entra nella finestra di contesto e come lo selezioni.

Nel 2025 il retrieval per LLM non è più sinonimo di "fare RAG". L'approccio vincente è un'architettura moderna di ricerca per AI: ingestion curata, rich recall ibrido, ri‑ordinamento (re‑rank) e un'assembly di contesto rigorosa per limitare la "context rot". L'obiettivo è semplice: servire all'LLM solo ciò che conta, al momento giusto, con costi e latenza sotto controllo.

Contesto

Il retrieval moderno per AI è diverso dalla ricerca classica: cambiano strumenti, carichi di lavoro, sviluppatori e l'utente finale (spesso un modello che legge più di "10 blue links"). La ricerca di Chroma su context engineering ha evidenziato due pilastri pratici: comprendere la context rot e misurare i progressi con piccoli set d'oro e generative benchmarking.

"Non spedire "RAG". Spedisci retrieval. Nomina le primitive (denso, lessicale, filtri, re‑rank, assembly, ciclo di eval)."

Jeff Huber, CEO / Chroma

Le 5 mosse per un retrieval efficace

Queste pratiche riducono errori e sprechi nella selezione del contesto.

  • Definisci le primitive: dense, lessicale/regex, filtri, re‑rank, assembly, loop di valutazione
  • Vinci la prima fase con rich recall ibrido (≈200–300 candidati)
  • Sempre re‑rank prima di assemblare il contesto
  • Rispetta la context rot: contesti compatti e strutturati battono finestre massime
  • Crea un piccolo set d'oro e portalo in CI e dashboard

Pipeline operativa

Ingest

Trasforma i dati per la ricerca, arricchiscili e indicizzali una volta sola.

  • Parse e chunk domain-aware (titoli, codice, tabelle)
  • Enrichment: titoli, anchor, simboli, metadata
  • Opzionale: sommari LLM dei chunk (glosse NL per codice/API)
  • Embeddings densi e, se utile, segnali sparsi
  • Scrittura in DB (testo, vettori, metadata)

Query

Combina segnali diversi, poi riduci e ordina con precisione.

  • Primo stadio ibrido: vettori + lessicale/regex + filtri su metadata
  • Pool candidati: ~100–300
  • Re‑rank (LLM o cross‑encoder) verso top ~20–40
  • Assembly del contesto: istruzioni prima, dedupe/merge, diversifica fonti, hard cap token

Outer loop

Misura continuamente, ottimizza costi e qualità, compatta la memoria.

  • Cache/guardrail dei costi
  • Generative benchmarking su piccoli set d'oro
  • Error analysis → re‑chunk, ritara filtri, prompt di re‑rank
  • Memoria/compattazione: riassumi tracce d'interazione → fatti recuperabili

Il Problema / Sfida: la context rot

All'aumentare dei token, l'attenzione e la capacità di ragionamento del modello possono degradare. Finestre enormi non garantiscono uso efficace del contesto; vincono contesti stretti, ben strutturati e con cap rigidi.

"La performance degli LLM non è invariante al numero di token: con più token, il modello presta meno attenzione e ragiona peggio."

Jeff Huber, CEO / Chroma

Soluzione / Approccio: context engineering applicata

Punta su recall ibrido generoso (l'LLM può leggere), poi re‑rank robusto prima dell'assembly. Ordina il contesto: istruzioni/sistema, dedupe, diversificazione, cap token. Caching aiuta costi e latenza ma non risolve la qualità del contesto.

  • Re‑rank con LLM o re‑ranker dedicati; i primi sono flessibili via prompt
  • Capacità di leggere 200–300 candidati apre la strada al brute‑force intelligente
  • Valuta trade‑off: tail latency dei re‑rank paralleli vs qualità

Codice: indicizzazione, regex ed embeddings

Nella ricerca su codice, l'indicizzazione scambia performance di scrittura con query più veloci, utile su basi grandi o versionate. Regex resta potente; embeddings per codice possono dare quel 5–15% in più su query semantiche.

  • Regex nativo e indicizzato è un ottimo primo strato
  • Embeddings per colmare gap quando chi interroga non conosce il codice
  • Forking dell'indice per versioni/branch/commit con re‑index veloce

Memoria e compattazione

La memoria è il beneficio del context engineering: strutturare e compattare interazioni in fatti recuperabili migliora le future risposte.

Compattazione offline (merge/split/riscrittura dei chunk, nuova metadata) e riassunti di interazione mantengono la memoria utile e a basso costo. I segnali che migliorano il retrieval sono gli stessi che dicono cosa ricordare.

Valutazione: golden set e generative benchmarking

Un piccolo set d'oro ben etichettato vale più di mille tentativi. Se hai i chunk ma non le query, genera query coerenti con LLM e usa pair query→chunk per misurare modelli, filtri e prompt.

  • Porta i test in CI e dashboard
  • Bilancia qualità con costi, latenza e affidabilità API
  • Una sera con pizza per etichettare dati può sbloccare mesi di progresso

Conclusione

Nel retrieval per LLM, vincere significa curare il contesto: recall ibrido ricco, re‑rank prima dell'assembly, cap token severo e loop di valutazione continui. La context engineering trasforma sistemi fragili in infrastrutture che scalano senza marcire col crescere del contesto.

 

FAQ

Risposte rapide e operative sulla ricerca AI e i modelli di AI.

  • Cos'è la context engineering nelle applicazioni LLM?
    È la disciplina di selezionare e strutturare cosa entra nella finestra di contesto a ogni step generativo, con loop di valutazione continuo.
  • Perché la context rot è un problema nella ricerca AI?
    Finestre più grandi possono degradare attenzione e ragionamento; contesti compatti e selezionati funzionano meglio.
  • Qual è un buon primo stadio di recall per AI search?
    Ibrido: vettoriale + lessicale/regex + filtri su metadata per ottenere ~200–300 candidati.
  • Devo sempre fare re‑rank prima dell'assembly del contesto?
    Sì, il re‑rank (LLM o cross‑encoder) migliora precisione e riduce rumore prima del cap token.
  • Come applico la context engineering al codice?
    Usa regex indicizzato come base, aggiungi embeddings per query semantiche e forking dell'indice per versioni.
  • Come misuro i miglioramenti del retrieval?
    Crea un set d'oro e usa generative benchmarking per confrontare modelli, filtri e prompt in CI.
  • La cache risolve i problemi di contesto nei modelli di AI?
    Aiuta costi e latenza, ma non sostituisce la selezione accurata del contesto.
  • Quanto grande deve essere un set d'oro?
    Anche poche centinaia di esempi ben etichettati sono sufficienti per guidare decisioni efficaci.
Introduzione Context engineering è la chiave per passare da demo a sistemi affidabili: conta cosa entra nella finestra di contesto e come lo selezioni [...] Evol Magazine