Hoe u onze audit-crawler whitelisted
Wanneer uw site zich achter een bot-beschermingslaag bevindt (Cloudflare, Vercel, DataDome of vergelijkbaar), kan onze crawler mogelijk niet bij uw pagina's komen en zal de audit mislukken. Deze pagina legt uit hoe u deze erdoor kunt laten.
Wat onze crawler is
We voeren een self-hosted Crawl4AI-exemplaar uit om de pagina's in uw auditopdracht op te halen. De crawl is een eenmalige operatie -- deze wordt eenmaal per audit uitgevoerd, respecteert uw robots.txt-richtlijnen (inclusief noai en noimageai), en de opgehaalde content wordt uitsluitend gebruikt om uw rapport te genereren. Deze wordt niet gedeeld met enig trainingsplatform van derden.
Op IP-adres op de whitelist zetten
De meest betrouwbare manier om onze crawler toe te staan is door deze op IP-adres op de whitelist te zetten. Onze egress-IP's worden via DNS gepubliceerd -- de hostnaam crawler.geo.gg lost altijd op naar de huidige IP-adressen van onze crawler. U kunt de huidige IP-adressen op elk moment verifiëren met:
dig +short crawler.geo.gg
nslookup crawler.geo.gg
Huidige IP-adressen vanaf het laden van deze pagina:
195.201.165.51
Waarom er geen enkel stabiel User-Agent is
Onze crawler gebruikt browser-engines (Chromium) om JavaScript-gerenderde sites te verwerken. Browser-engines wisselen door echte browser User-Agent strings om basis bot-detectieheuristiek te passeren -- het vastpinnen van één User-Agent zou het triviaal blokkeerbaar maken. Het IP-adres is de enige stabiele, verifieerbare identificator voor onze crawler. Whitelisting op IP is daarom de aanbevolen aanpak.
Waar de whitelist toe te voegen
- Cloudflare WAF: Beveiliging > WAF > Tools > IP-toegangsregels -- voeg elk IP toe met de actie Toestaan en pas dit toe op uw zone.
- Vercel Firewall: Projectinstellingen > Beveiliging > Firewall -- voeg een regel toe met de voorwaarde IP-adres is gelijk aan elk crawler-IP en de actie Toestaan.
- DataDome: DataDome-dashboard > Allowlist -- voeg elk crawler-IP toe aan de IP-allowlist.
Na whitelisting gebruikt u de knop Opnieuw proberen op uw auditpagina om de crawl opnieuw uit te voeren. Als u problemen ondervindt of als uw WAF-provider niet hierboven wordt vermeld, beantwoordt u uw auditbevestigingsmail en wij helpen u graag.