Introduzione
Negli ultimi mesi, Perplexity AI, motore di risposta basato sull’intelligenza artificiale, è stato al centro di discussioni per il suo comportamento di crawling non trasparente. Diversi operatori web hanno segnalato attività sospette, sollevando dubbi sulla privacy e sulla fiducia nel web.
Cosa significa crawling stealth?
Il crawling stealth si riferisce a tecniche con cui un bot maschera la propria identità per accedere ai contenuti di un sito web, ignorando le direttive impostate dai proprietari tramite file robots.txt
o regole di firewall. Nel caso di Perplexity AI, sono stati osservati cambi frequenti di user agent e ASN per eludere i blocchi.
Implicazioni sulla privacy e sulla fiducia
Il web si basa da sempre sulla trasparenza e sul rispetto delle regole tra crawler e siti. Quando un bot ignora le direttive, mette a rischio la privacy dei contenuti e mina la fiducia tra le parti.
- I proprietari dei siti non possono più controllare chi accede ai loro dati.
- La trasparenza dei bot viene meno, rendendo difficile distinguere tra attività lecite e illecite.
- La fiducia nel web come spazio sicuro e regolato si indebolisce.
Come è stato scoperto il comportamento di Perplexity AI
Alcuni clienti hanno segnalato che, nonostante avessero bloccato Perplexity tramite robots.txt
e regole WAF, il bot riusciva comunque ad accedere ai contenuti. Test mirati su domini nuovi e non indicizzati hanno confermato che Perplexity forniva informazioni dettagliate sui contenuti, aggirando le restrizioni.
Esperimenti e risultati
Gli esperimenti hanno coinvolto la creazione di domini inediti, con direttive che impedivano l’accesso a qualsiasi bot. Nonostante ciò, interrogando Perplexity AI, sono state ottenute risposte dettagliate sui contenuti protetti, dimostrando l’efficacia delle tecniche di crawling stealth.
Reazioni e misure adottate
Di fronte a queste evidenze, Perplexity è stato rimosso dalla lista dei bot verificati e sono state implementate nuove regole per bloccare il crawling stealth. Il dibattito sulla trasparenza dei bot e sulla protezione dei dati è più attuale che mai.
"La fiducia è il pilastro su cui si fonda il web, e la trasparenza dei crawler è essenziale per mantenerla."
Articolo originale su Perplexity