Vừa ra mắt GEO.GG hoàn toàn mới. Nếu có gì trông không ổn, xin hãy thông cảm cho chúng tôi -- contact@geo.gg kết nối với nhân viên.

Cách đưa Audit crawler của chúng tôi vào danh sách cho phép

Khi trang web của quý khách nằm sau một lớp bảo vệ bot (Cloudflare, Vercel, DataDome hoặc tương tự), trình thu thập của chúng tôi có thể không thể tải các trang của quý khách và việc kiểm tra sẽ thất bại. Trang này giải thích cách cho phép nó đi qua.

Trình thu thập của chúng tôi là gì

Chúng tôi vận hành một phiên bản Crawl4AI được lưu trữ tại chỗ để tải các trang được liệt kê trong đơn đặt hàng kiểm tra của quý khách. Việc thu thập là một thao tác một lần -- nó chạy một lần cho mỗi lần kiểm tra, tuân thủ các chỉ thị robots.txt của quý khách (bao gồm noai và noimageai), và nội dung được thu thập chỉ được sử dụng để tạo báo cáo của quý khách. Nó không được chia sẻ với bất kỳ pipeline đào tạo bên thứ ba nào.

Đưa vào danh sách cho phép theo IP

Cách đáng tin cậy nhất để cho phép trình thu thập của chúng tôi là đưa nó vào danh sách cho phép theo địa chỉ IP. Các IP egress của chúng tôi được công bố qua DNS -- tên máy chủ crawler.geo.gg luôn phân giải thành các IP hiện tại của trình thu thập của chúng tôi. Quý khách có thể xác minh các IP hiện tại bất kỳ lúc nào bằng:

dig +short crawler.geo.gg
nslookup crawler.geo.gg

IP hiện tại tại thời điểm tải trang này:

  • 195.201.165.51

Tại sao không có một User-Agent ổn định duy nhất

Crawler của chúng tôi sử dụng công cụ trình duyệt (Chromium) để xử lý các trang được hiển thị bằng JavaScript. Công cụ trình duyệt luân chuyển qua các chuỗi User-Agent thực của trình duyệt để vượt qua các phương pháp phát hiện bot cơ bản -- việc cố định một User-Agent sẽ khiến nó dễ dàng bị chặn. Địa chỉ IP là định danh duy nhất ổn định và có thể xác minh cho crawler của chúng tôi. Do đó, đưa vào danh sách cho phép theo IP là phương pháp được khuyến nghị.

Nơi thêm danh sách cho phép

  • Cloudflare WAF: Bảo mật > WAF > Công cụ > Quy tắc Truy cập IP -- thêm từng IP với hành động Cho phép và áp dụng cho vùng của quy khach.
  • Vercel Firewall: Cài đặt Dự án > Bảo mật > Tường lửa -- thêm quy tắc với điều kiện Địa chỉ IP bằng từng IP crawler và hành động Cho phép.
  • DataDome: DataDome dashboard > Danh sách cho phép -- thêm từng IP crawler vào danh sách IP cho phép.

Sau khi đưa vào danh sách cho phép, quy khach vui lòng nhấn nút Thử lại trên trang kiểm tra để chạy lại việc thu thập. Nếu quy khach gặp khó khăn hoặc nhà cung cấp WAF không có trong danh sách trên, hãy phản hồi email xác nhận kiểm tra và chúng tôi sẽ hỗ trợ.