Crawl Website

Question

Xin chào mọi người, Em hiện tại đang có khó khăn về crawl website mong anh chị có thể giúp em ạ. Vấn đề: Em đang muốn dùng API đề lấy toàn bộ source code của một trang web về gồm cả html,css.... Em...

Answer

Lấy source code của website về là điều không thể nếu source code là private. Bạn chỉ có thể lưu lại html, css, image về tham khảo giao diện mà thôi. ha ha ha. 😜😛😝

Answer

Theo mình có 2 cách:
- Cách nhanh nhất: Sử dụng 1 thư viện nào đó để tự động hoá tool clone sẵn có. Trong đó 
httrack rất nổi tiếng trong việc clone website :grin: vd: `gem install win32-autogui`
- Cách chậm hơn chút: Gửi từng request để lấy hết dữ liệu về.  
Ví dụ websiteA.com
1. Gửi request tới websiteA/index để lấy nội dung html đầu tiên
2. Lưu hết asset của nó về (js, css, img). Replace asset links trong html nếu cần thiết
3. Lưu html đã chỉnh sửa vào file
4. Parse hết thẻ <a> trong html đó và làm lại bước 1 :joy:
5. Xong hết tất cả thì ném kết quả qua Rail để làm API thôi :v:

Ví dụ gửi request lấy nội dung:
```
require &#x27;net/http&#x27;
source = Net::HTTP.get(&#x27;viblo.asia&#x27;, &#x27;/q/crawl-website-QqKLQ0ArZ7z&#x27;)
```

Answer

Bạn thử cho API execute 1 command line được không
```bash
wget --recursive --domains example.com --no-parent http://example.com/vector/
```
command trên sẽ lấy tất cả html, css, image, font của website và xếp vào đúng cấu trúc của nó
source sau khi lấy về có thể chạy được bình thường trên trình duyệt (đôi khi cần đổi tên file của những file font lại vì tên file của font bị lỗi)
nếu bạn cần hiểu thêm về parameters của wget thì có thể xem ở [web của mình](https://dangphuongnam.com/article/8/download-a-web-site-using-wget)

3 CÂU TRẢ LỜI