Asked Jun 6th, 4:11 AM 97 0 1
  • 97 0 1
0

crawl website sử dụng puppeteer

Share
  • 97 0 1

xin chào mọi người . em đang sử dụng puppeteer để crawl dữ liệu website. em sữ dụng lúc đầu khá ổn nhưng một thời gian là cpu bắt đầu tăng và dẫn tới hiện tượng treo server . cách của em hiện tại đang làm là mở 10 tabs cùng 1 lúc để crawl. không biết có ai đã từng làm qua và có kinh nghiệm về vấn đề này chưa ạ

1 ANSWERS


Answered Jun 6th, 4:24 AM
Accepted
+1

Puppeteer thì mỗi khi bạn mở 1 session mới thì nó sẽ tương đương với việc tạo 1 user mới hoàn toàn trên Chrome và nó có hành vi của một trình duyệt người dùng bình thường. (Search google nó ra vậy) . Bạn có thể thử dùng chạy vòng lặp for kết hợp và sau đó là lưu vào DB. Nếu cấu trúc các trang là khác nhau thì bạn nên diễn tả như văn viết code để click element khác để crawl tiếp

Nếu trang bạn crawler dữ liệu ko render từ javascript thì bạn có thể crawler bằng cách PHP thuần cũng viết được get page source rồi cắt chuỗi các thứ là ok hết. Việc bạn muốn chạy đa tác vụ cùng lúc cần thận đó, tốt nhất là lần lượt hàng đợi đối với bài toán kiểu này. 1431424736081.jpg

Share