Em muốn hỏi về cách xây dựng hệ thống proxy để crawl mong mọi người giúp em vấn đề này ạ
Mọi người cho em hỏi cách xây dựng 1 hệ thống proxy trong node js, để crawl dữ liệu từ 1 trang web mà không bị chặn ip được không ạ và mọi ngừơi cho em hỏi luôn là mình có cách nào ẩn ip khi crawl không ạ em cảm ơn
1 CÂU TRẢ LỜI
Về cơ bản có thể build đc server proxy nhưng đó sẽ không phải là cách giải quyết vấn đề. Vì rồi nó cũng sẽ ban ip nếu quá những rule mà trang web đặt ra.
Hướng tiếp cận thì phải xem họ cấu hình ntn, ví dụ limit 1 phút đc bao nhiêu request, từ đó điều chỉnh thời gian, lưu lượng request cho hợp lý.
Cách dùng proxy thì có lẽ là lựa chọn cuối cùng, thay vì tự build thì có thể mua proxy qua các dịch vụ sẽ tiết kiệm hơn.
@le.vinh.thien Anh có tài liệu hướng dẫn về cách build 1 proxy k ạ do em cũng có thử điều chỉnh thời gian nhưng không được ạ em cảm ơn 😍
@PhanNhi bạn có thể dùng nginx làm proxy cũng đc.
https://docs.nginx.com/nginx/admin-guide/web-server/reverse-proxy/
hãy thử thời gian từ 1->2s/req trc để còn có thể test đc. :v
@le.vinh.thien dạ em cảm ơn anh nhiều ạ 😅😍😍