News

Archon: progettare un computer a guida autonoma pratico

Punti salienti dell'articolo:
  • Archon unisce GPT‑5 per planning e archon‑mini per grounding
  • Approccio gerarchico: cosa fare vs dove cliccare
  • Uso di saliency patches per ridurre i token visivi
  • Caching di patch ripetute per abbassare latenza e costi
  • Router adattivo: fast path vs escalation al planner
  • GRPO e dati sintetici per addestrare il grounding
  • Streaming futuro: 20–30 fps per azioni più naturali
  • Obiettivo: distillare il planner nell'executor per semplificare
Archon: progettare un computer a guida autonoma pratico

Introduzione

Archon è un copilot desktop che trasforma istruzioni in linguaggio naturale in azioni sullo schermo, combinando GPT‑5 per la pianificazione e un piccolo modello di grounding per individuare coordinate precise.

Contesto

L'approccio separa il problema in due livelli: un reasoner potente (GPT‑5) che decide "cosa" fare e un executor leggero (archon‑mini) che calcola "dove" cliccare. L'obiettivo è fornire controllo naturale e autonomia sul desktop mantenendo latenza e costi sotto controllo.

Come funziona

Workflow essenziale: Archon cattura screenshot, esegue un saliency scorer per estrarre patch ad alta rilevanza, applica caching per riutilizzare regioni invariate e invia descrizioni semantiche al grounding model che restituisce coordinate pixel. Una router policy decide quando escalare al planner per gestire ambiguità e ridurre errori.

Dettagli tecnici rilevanti

  • Divisione gerarchica: GPT‑5 per reasoning, archon‑mini per grounding
  • Patching: top‑K patch extraction per ridurre token visivi e aumentare precisione
  • Caching: cache di patch invarianti con hit‑rate ≥70% per abbassare latenza e costi
  • Training: archon‑mini (7B, Qwen‑2.5‑VL) addestrato con GRPO e dati sintetici/trajectory augmentation
  • Routing adattivo: fast path (~50ms) e percorsi più lunghi in caso di incertezza

Principali trade‑off

  • Accuratezza vs latenza: più ragionamento migliora robustezza ma costa tempo
  • Costi vision token: si riducono con patching, downsampling e caching
  • Robustezza UI: problemi locali (es. click su bottoni rossi) richiedono ulteriori dati e analisi

Conclusione

Archon dimostra che separare planning e grounding, usare patching e caching e adottare una routing policy adattiva è una strada pratica verso un "computer a guida autonoma". Fonte: Surya Dantuluri.

 

FAQ

Come Archon realizza un computer a guida autonoma sul desktop?

Divide planning (GPT‑5) e grounding (archon‑mini): il planner decide l'azione semantica e l'executor calcola le coordinate pixel da screenshot e patch salienti.

Quali limiti di latenza e costo influiscono su Archon?

I token visivi e il ragionamento profondo aumentano latenza e costi; Archon usa patch, caching e routing adattivo per mitigare questi fattori.

Come archon‑mini esegue il grounding delle interfacce?

Estrae top‑patches da aree ad alta salienza, le codifica e restituisce coordinate (x,y); il training include GRPO e dati sintetici per migliorare robustezza.

Quali rischi di sicurezza presenta un self‑driving computer come Archon?

Rischi includono esecuzione di comandi errati su UI sensibili e drift d'interfaccia; il planner resta in loop come guardrail per casi ambigui.

Come misuro l'efficienza di Archon in termini pratici?

Metriche utili: latenza per azione (ms), hit‑rate della patch cache, tasso di escalation al planner e percentuale di successi end‑to‑end.

Introduzione Archon è un copilot desktop che trasforma istruzioni in linguaggio naturale in azioni sullo schermo, combinando GPT‑5 per la pianificazione e [...] Evol Magazine
Tag:
GPT-5