Asked thg 11 1, 2021 7:45 CH 99 0 1
  • 99 0 1
0

Em muốn hỏi về cách xây dựng hệ thống proxy để crawl mong mọi người giúp em vấn đề này ạ

Share
  • 99 0 1

Mọi người cho em hỏi cách xây dựng 1 hệ thống proxy trong node js, để crawl dữ liệu từ 1 trang web mà không bị chặn ip được không ạ và mọi ngừơi cho em hỏi luôn là mình có cách nào ẩn ip khi crawl không ạ em cảm ơn

1 ANSWERS


Answered thg 11 2, 2021 12:38 CH
Accepted
0

Về cơ bản có thể build đc server proxy nhưng đó sẽ không phải là cách giải quyết vấn đề. Vì rồi nó cũng sẽ ban ip nếu quá những rule mà trang web đặt ra.

Hướng tiếp cận thì phải xem họ cấu hình ntn, ví dụ limit 1 phút đc bao nhiêu request, từ đó điều chỉnh thời gian, lưu lượng request cho hợp lý.

Cách dùng proxy thì có lẽ là lựa chọn cuối cùng, thay vì tự build thì có thể mua proxy qua các dịch vụ sẽ tiết kiệm hơn.

Share
thg 11 2, 2021 4:43 CH

@le.vinh.thien Anh có tài liệu hướng dẫn về cách build 1 proxy k ạ do em cũng có thử điều chỉnh thời gian nhưng không được ạ em cảm ơn 😍

0
| Reply
Share
Avatar Lê Vĩnh Thiện @le.vinh.thien
thg 11 2, 2021 6:07 CH

@PhanNhi bạn có thể dùng nginx làm proxy cũng đc.

https://docs.nginx.com/nginx/admin-guide/web-server/reverse-proxy/

hãy thử thời gian từ 1->2s/req trc để còn có thể test đc. :v

0
| Reply
Share
thg 11 2, 2021 6:26 CH

@le.vinh.thien dạ em cảm ơn anh nhiều ạ 😅😍😍

0
| Reply
Share
Viblo
Let's register a Viblo Account to get more interesting posts.