hỏi ngu về crawling
Chuyện là thế này. em thực hiện crawl dữ liệu từ trang web về và trong dữ liệu có các kí tự toán học( trong đó có ký tự phép chia'/'), khi lưu vào database thì nó lại chuyển thành chữ over. VD 3/4 thì nó lưu là 3 over 4. lấy dữ liệu ra ngoài để hiển thị thì nó cũng là 3 over 4. Vì thế nên muốn hỏi các bậc tiền bối làm cách nào để nó lưu đúng theo dữ liệu mà mình crawl
1 CÂU TRẢ LỜI
Mình đoán là các biểu thức toán học trên các trang bạn crawl về được viết bằng các công cụ hỗ trợ kiểu như latex hay gì đó.
Ví dụ trên Viblo thì viết thế này $ 10 \over 2 $
nó sẽ ra:
$ 10\over2 $
Khi bạn chỉ crawl phần text thì nó sẽ ra nguyên như vậy nên phép chia nó mới thành over
. Giải pháp ở đây là bạn hãy crawl nguyên dạng html bao gồm các tag, sau đó add thêm các xử lý cho các tag đặc biệt để replace các biểu thức toán về dạng bạn mong muốn.
P.S. Với các biểu thức phức tạp mà có căn bậc n hay các phép sum, logarit chẳng hạn thì chắc chả có cách diễn đạt bằng text nào phù hợp
@bs90, tôi đã lấy nguyên dạng html của nó, khi mình var_dump thì nó ra " ({T \over 4}) " nhưng khi insert vào database thì nó mất dấu ' ' và chỉ lưu " T over 4" Bê cái var_dump qua Mathjax chuyển thì nó ra chuẩn là T/4 còn lấy từ database ra chuyển thì vẫn là T over 4. rất cảm ơn bạn
Thanh niên crawl dữ liệu Viblo về à =))
@huukimit crawl mấy trang học tập thôi