감사 크롤러 화이트리스트 등록 방법
사이트가 bot 보호 계층(Cloudflare, Vercel, DataDome 또는 유사한 서비스) 뒤에 있는 경우, 당사 크롤러가 페이지를 가져오지 못해 감사가 실패할 수 있습니다. 이 페이지에서는 크롤러가 통과할 수 있도록 하는 방법을 설명합니다.
당사 크롤러 소개
저희는 자체 호스팅된 Crawl4AI 인스턴스를 실행하여 감사 주문에 나열된 페이지를 가져옵니다. 크롤링은 일회성 작업입니다 -- 감사당 한 번 실행되며, robots.txt 지시문을 존중하고(noai 및 noimageai 포함), 가져온 콘텐츠는 보고서 생성에만 사용됩니다. 제3자 학습 파이프라인과 공유되지 않습니다.
IP로 화이트리스트 추가
당사 크롤러를 허용하는 가장 안정적인 방법은 IP 주소로 화이트리스트에 추가하는 것입니다. 당사의 egress IP는 DNS를 통해 게시됩니다 -- 호스트명 crawler.geo.gg은(는) 항상 당사 크롤러의 현재 IP로 해결됩니다. 언제든지 다음을 사용하여 현재 IP를 확인할 수 있습니다:
dig +short crawler.geo.gg
nslookup crawler.geo.gg
이 페이지 로드 시점의 현재 IP:
195.201.165.51
단일 안정적 User-Agent가 존재하지 않는 이유
당사의 크롤러는 JavaScript로 렌더링되는 사이트를 처리하기 위해 브라우저 엔진(Chromium)을 사용합니다. 브라우저 엔진은 기본 봇 탐지 휴리스틱을 통과하기 위해 실제 브라우저 User-Agent 문자열을 순환합니다 -- 하나의 User-Agent를 고정하면 간단히 차단될 수 있습니다. IP 주소는 당사 크롤러에 대해 유일하게 안정적이고 검증 가능한 식별자입니다. 따라서 IP로 화이트리스트 등록하는 것이 권장되는 방법입니다.
화이트리스트 추가 위치
- Cloudflare WAF: Security > WAF > Tools > IP Access Rules -- 동작 Allow로 각 IP를 추가하고 이를 zone에 적용하세요.
- Vercel Firewall: Project Settings > Security > Firewall -- 조건 IP Address equals 각 크롤러 IP 및 동작 Allow로 규칙을 추가하세요.
- DataDome: DataDome 대시보드 > Allowlist -- 각 크롤러 IP를 IP 허용 목록에 추가하세요.
화이트리스트 등록 후, 감사 페이지의 Retry 버튼을 사용하여 크롤을 다시 실행하세요. 문제가 있거나 위에 나열된 WAF 제공자가 없는 경우, 감사 확인 이메일에 답장해 주시면 도와드리겠습니다.