監査クローラーのホワイトリストへの登録方法
サイトがbot保護レイヤー(Cloudflare、Vercel、DataDomeなど)の後ろにある場合、当クローラーがページを取得できず、監査が失敗する可能性があります。このページでは、その回避 방법을説明します。
当クローラーの概要
監査注文に記載されたページを取得するために、当方は自己ホスティングのCrawl4AIインスタンスを実行しています。クロールは1回限りの操作であり、監査ごとに1回実行され、あなたのrobots.txtの指示(noaiおよびnoimageaiを含む)を尊重し、取得されたコンテンツは報告書の生成のみに使用されます。第三者のトレーニングパイプラインと共有されることはありません。
IPによるホワイトリスト
クローラーを許可する最も確実な方法は、IPアドレスでホワイトリストに追加することです。出口IPはDNS介して公開されています -- ホスト名 crawler.geo.gg は常に当クローラーの現在のIPアドレスに解決されます。現在のIPアドレスは以下のコマンドで確認できます:
dig +short crawler.geo.gg
nslookup crawler.geo.gg
当ページの読み込み時点のIPアドレス:
195.201.165.51
単一の安定したUser-Agentが存在しない理由
クローラーはJavaScriptで描画されたサイトを処理するためにブラウザエンジン(Chromium)を使用します。ブラウザエンジンは基本的なbot検出ヒューリスティックをバイパスするために実際のブラウザUser-Agent文字列を循環させます。あるUser-Agentを固定すると、簡単にブロックされてしまいます。IPアドレスは、クローラーの唯一の安定かつ検証可能な識別子であるため、IPによるホワイトリスト登録が推奨されるアプローチです。
ホワイトリストの追加先
- Cloudflare WAF: セキュリティ > WAF > ツール > IP Access Rules -- 各IPをアクション「Allow」で追加し、ゾーンに適用してください。
- Vercel Firewall: プロジェクト設定 > セキュリティ > ファイアウォール -- 条件「IPアドレス equals 各クローラーIP」とアクション「Allow」を持つルールを追加してください。
- DataDome: DataDomeダッシュボード > Allowlist -- 各クローラーのIPアドレスをIP Allowlistに追加してください。
ホワイトリスト登録後、監査ページのRetryボタンを使用してクロールを再実行してください。問題がある場合、または上記のリストにWAFプロバイダーが記載されていない場合は、監査確認メールに返信してください。サポートいたします。