Cómo incluir en la lista blanca nuestro crawler de auditoría
Cuando su sitio está detrás de una capa de protección contra bots (Cloudflare, Vercel, DataDome o similar), nuestro rastreador puede no ser capaz de recuperar sus páginas y la auditoría fallará. Esta página explica cómo dejarlo pasar.
Qué es nuestro rastreador
Ejecutamos una instancia autoalojada de Crawl4AI para recuperar las páginas listadas en su orden de auditoría. El rastreo es una operación de una sola vez -- se ejecuta una vez por auditoría, respeta sus directivas robots.txt (incluyendo noai y noimageai), y el contenido recuperado se utiliza únicamente para generar su informe. No se comparte con ninguna canalización de entrenamiento de terceros.
Lista de permitidos por IP
La forma más fiable de permitir nuestro rastreador es incluirlo en la lista de permitidos por dirección IP. Nuestras IPs de salida se publican a través de DNS -- el nombre de host crawler.geo.gg siempre se resuelve a las IPs actuales de nuestro rastreador. Puede verificar las IPs actuales en cualquier momento con:
dig +short crawler.geo.gg
nslookup crawler.geo.gg
IPs actuales al cargar esta página:
195.201.165.51
Por qué no existe un único User-Agent estable
Nuestro crawler utiliza motores de navegador (Chromium) para manejar sitios renderizados con JavaScript. Los motores de navegador alternan cadenas User-Agent de navegadores reales para pasar heurísticas básicas de detección de bots -- fijar un User-Agent lo haría trivialmente bloqueable. La dirección IP es el único identificador estable y verificable para nuestro crawler. Por lo tanto, incluir en la lista blanca por IP es el enfoque recomendado.
Dónde añadir la lista de permitidos
- Cloudflare WAF: Seguridad > WAF > Herramientas > Reglas de acceso IP -- agregue cada IP con acción Permitir y aplíquela a su zona.
- Vercel Firewall: Configuración del proyecto > Seguridad > Firewall -- agregue una regla con condición Dirección IP igual a cada IP del crawler y acción Permitir.
- DataDome: Panel de DataDome > Lista de permitidos -- agregue cada IP del crawler a la lista de permitidos de IPs.
Después de incluir en la lista blanca, use el botón Reintentar en su página de auditoría para volver a ejecutar el rastreo. Si tiene problemas o su proveedor de WAF no aparece arriba, responda al correo electrónico de confirmación de su auditoría y le ayudaremos.