Introduzione
Archon è un copilot desktop che trasforma istruzioni in linguaggio naturale in azioni sullo schermo, combinando GPT‑5 per la pianificazione e un piccolo modello di grounding per individuare coordinate precise.
Contesto
L'approccio separa il problema in due livelli: un reasoner potente (GPT‑5) che decide "cosa" fare e un executor leggero (archon‑mini) che calcola "dove" cliccare. L'obiettivo è fornire controllo naturale e autonomia sul desktop mantenendo latenza e costi sotto controllo.
Come funziona
Workflow essenziale: Archon cattura screenshot, esegue un saliency scorer per estrarre patch ad alta rilevanza, applica caching per riutilizzare regioni invariate e invia descrizioni semantiche al grounding model che restituisce coordinate pixel. Una router policy decide quando escalare al planner per gestire ambiguità e ridurre errori.
Dettagli tecnici rilevanti
- Divisione gerarchica: GPT‑5 per reasoning, archon‑mini per grounding
- Patching: top‑K patch extraction per ridurre token visivi e aumentare precisione
- Caching: cache di patch invarianti con hit‑rate ≥70% per abbassare latenza e costi
- Training: archon‑mini (7B, Qwen‑2.5‑VL) addestrato con GRPO e dati sintetici/trajectory augmentation
- Routing adattivo: fast path (~50ms) e percorsi più lunghi in caso di incertezza
Principali trade‑off
- Accuratezza vs latenza: più ragionamento migliora robustezza ma costa tempo
- Costi vision token: si riducono con patching, downsampling e caching
- Robustezza UI: problemi locali (es. click su bottoni rossi) richiedono ulteriori dati e analisi
Conclusione
Archon dimostra che separare planning e grounding, usare patching e caching e adottare una routing policy adattiva è una strada pratica verso un "computer a guida autonoma". Fonte: Surya Dantuluri.
FAQ
Come Archon realizza un computer a guida autonoma sul desktop?
Divide planning (GPT‑5) e grounding (archon‑mini): il planner decide l'azione semantica e l'executor calcola le coordinate pixel da screenshot e patch salienti.
Quali limiti di latenza e costo influiscono su Archon?
I token visivi e il ragionamento profondo aumentano latenza e costi; Archon usa patch, caching e routing adattivo per mitigare questi fattori.
Come archon‑mini esegue il grounding delle interfacce?
Estrae top‑patches da aree ad alta salienza, le codifica e restituisce coordinate (x,y); il training include GRPO e dati sintetici per migliorare robustezza.
Quali rischi di sicurezza presenta un self‑driving computer come Archon?
Rischi includono esecuzione di comandi errati su UI sensibili e drift d'interfaccia; il planner resta in loop come guardrail per casi ambigui.
Come misuro l'efficienza di Archon in termini pratici?
Metriche utili: latenza per azione (ms), hit‑rate della patch cache, tasso di escalation al planner e percentuale di successi end‑to‑end.