Crawler laravel bị chặn cloudflare

Question

Mọi người cho hỏi em đang crawller dữ liệu bằng Goutte nhưng bây giờ bị chặn IP bởi cloudflare. Em có thử gửi user-agent và dùng 1.1.1.1 để fake IP nhưng vẫn không được. Ngoài cách dùng proxy ra cò...

Accepted Answer

Nếu bạn đã thử sử dụng user-agent và IP giả mà vẫn bị chặn bởi Cloudflare, có thể là do Cloudflare đã xác định được rằng yêu cầu đó đến từ một robot và chặn nó. Để tránh việc này, bạn có thể thử một số phương pháp sau:

1.Sử dụng thư viện hoặc công cụ khác để crawl dữ liệu: Goutte không phải là công cụ duy nhất để crawl dữ liệu, bạn có thể thử sử dụng một số công cụ khác như Scrapy, BeautifulSoup, Selenium, hoặc Puppeteer để crawl dữ liệu.

2.Giảm tần suất yêu cầu: Nếu bạn thực hiện quá nhiều yêu cầu trong một khoảng thời gian ngắn, Cloudflare có thể xác định rằng đó là một hành vi bất thường và chặn yêu cầu của bạn. Bạn có thể giảm tần suất yêu cầu hoặc thêm độ trễ giữa các yêu cầu để tránh bị chặn.

3.Sử dụng proxy hoặc VPN: Đây là phương pháp thông dụng nhất để tránh bị chặn IP. Bạn có thể sử dụng một số dịch vụ proxy hoặc VPN miễn phí hoặc trả phí để thay đổi địa chỉ IP của mình.

4.Sử dụng hệ thống Cloudflare Access: Nếu trang web bạn đang crawl được bảo vệ bởi Cloudflare, có thể họ đã bật tính năng Cloudflare Access để yêu cầu người dùng xác thực trước khi truy cập trang web. Bạn có thể thử sử dụng tính năng này để xác thực trước khi crawl dữ liệu.

Answer

Có 1 cách khác là tìm ra IP thật của trang web (scan các subdomain , tìm  IP nào không tuộc Cloudflare) và truy cập trực tiếp  không qua Cloudflare.

2 CÂU TRẢ LỜI