Appena lanciato GEO.GG è del tutto nuovo. Se qualcosa sembra strano, vi preghiamo di avere pazienza -- contact@geo.gg raggiunge una persona.

Come inserire nella whitelist il nostro crawler di audit

Quando il suo sito è protetto da uno strato di protezione bot (Cloudflare, Vercel, DataDome o simili), il nostro crawler potrebbe non essere in grado di recuperare le sue pagine e l'audit potrebbe non riuscire. Questa pagina spiega come consentirgli l'accesso.

Cos'è il nostro crawler

Eseguiamo un'istanza Crawl4AI self-hosted per recuperare le pagine elencate nel suo ordine di audit. Il crawl è un'operazione una tantum -- viene eseguito una volta per audit, rispetta le direttive robots.txt (incluse noai e noimageai) e il contenuto recuperato viene utilizzato esclusivamente per generare il suo report. Non viene condiviso con alcuna pipeline di addestramento di terze parti.

Whitelist per IP

Il modo più affidabile per consentire il nostro crawler è inserirlo nella whitelist per indirizzo IP. I nostri IP in uscita sono pubblicati tramite DNS -- il nome host crawler.geo.gg risolve sempre gli IP correnti del nostro crawler. Può verificare gli IP correnti in qualsiasi momento con:

dig +short crawler.geo.gg
nslookup crawler.geo.gg

IP attuali al momento del caricamento di questa pagina:

  • 195.201.165.51

Perché non esiste un singolo User-Agent stabile

Il nostro crawler utilizza motori browser (Chromium) per gestire siti con rendering JavaScript. I motori browser alternano stringhe User-Agent di browser reali per superare euristiche base di rilevamento bot -- fissare un User-Agent singolo lo renderebbe facilmente bloccabile. L'indirizzo IP è l'unico identificatore stabile e verificabile per il nostro crawler. L'inserimento in whitelist per IP è quindi l'approccio raccomandato.

Dove aggiungere la whitelist

  • Cloudflare WAF: Sicurezza > WAF > Strumenti > Regole di accesso IP -- aggiunga ogni IP con azione Consenti e applichi alla sua zona.
  • Vercel Firewall: Impostazioni progetto > Sicurezza > Firewall -- aggiunga una regola con condizione Indirizzo IP uguale a ogni IP del crawler e azione Consenti.
  • DataDome: Dashboard DataDome > Allowlist -- aggiunga ogni IP del crawler alla allowlist IP.

Dopo la whitelisting, usi il pulsante Riprova sulla pagina del suo audit per eseguire nuovamente la scansione. Se ha problemi o il suo provider WAF non è elencato sopra, risponda all'email di conferma dell'audit e la aiuteremo.