たった今公開 GEO.GGは新サービスのため、不自然な点がございましたらご了承くださいますようお願いいたします -- contact@geo.gg 担当者が対応します。

監査クローラーのホワイトリストへの登録方法

サイトがbot保護レイヤー(Cloudflare、Vercel、DataDomeなど)の後ろにある場合、当クローラーがページを取得できず、監査が失敗する可能性があります。このページでは、その回避 방법을説明します。

当クローラーの概要

監査注文に記載されたページを取得するために、当方は自己ホスティングのCrawl4AIインスタンスを実行しています。クロールは1回限りの操作であり、監査ごとに1回実行され、あなたのrobots.txtの指示(noaiおよびnoimageaiを含む)を尊重し、取得されたコンテンツは報告書の生成のみに使用されます。第三者のトレーニングパイプラインと共有されることはありません。

IPによるホワイトリスト

クローラーを許可する最も確実な方法は、IPアドレスでホワイトリストに追加することです。出口IPはDNS介して公開されています -- ホスト名 crawler.geo.gg は常に当クローラーの現在のIPアドレスに解決されます。現在のIPアドレスは以下のコマンドで確認できます:

dig +short crawler.geo.gg
nslookup crawler.geo.gg

当ページの読み込み時点のIPアドレス:

  • 195.201.165.51

単一の安定したUser-Agentが存在しない理由

クローラーはJavaScriptで描画されたサイトを処理するためにブラウザエンジン(Chromium)を使用します。ブラウザエンジンは基本的なbot検出ヒューリスティックをバイパスするために実際のブラウザUser-Agent文字列を循環させます。あるUser-Agentを固定すると、簡単にブロックされてしまいます。IPアドレスは、クローラーの唯一の安定かつ検証可能な識別子であるため、IPによるホワイトリスト登録が推奨されるアプローチです。

ホワイトリストの追加先

  • Cloudflare WAF: セキュリティ > WAF > ツール > IP Access Rules -- 各IPをアクション「Allow」で追加し、ゾーンに適用してください。
  • Vercel Firewall: プロジェクト設定 > セキュリティ > ファイアウォール -- 条件「IPアドレス equals 各クローラーIP」とアクション「Allow」を持つルールを追加してください。
  • DataDome: DataDomeダッシュボード > Allowlist -- 各クローラーのIPアドレスをIP Allowlistに追加してください。

ホワイトリスト登録後、監査ページのRetryボタンを使用してクロールを再実行してください。問題がある場合、または上記のリストにWAFプロバイダーが記載されていない場合は、監査確認メールに返信してください。サポートいたします。