Yêu cầu thg 8 17, 2018 5:26 SA 154 0 1
  • 154 0 1
0

hỏi ngu về crawling

Chia sẻ
  • 154 0 1

Chuyện là thế này. em thực hiện crawl dữ liệu từ trang web về và trong dữ liệu có các kí tự toán học( trong đó có ký tự phép chia'/'), khi lưu vào database thì nó lại chuyển thành chữ over. VD 3/4 thì nó lưu là 3 over 4. lấy dữ liệu ra ngoài để hiển thị thì nó cũng là 3 over 4. Vì thế nên muốn hỏi các bậc tiền bối làm cách nào để nó lưu đúng theo dữ liệu mà mình crawl

thg 8 17, 2018 6:34 SA

Thanh niên crawl dữ liệu Viblo về à =))

Avatar Minh Dương Văn @minhduong07
thg 8 17, 2018 6:49 SA

@huukimit crawl mấy trang học tập thôi

1 CÂU TRẢ LỜI


Đã trả lời thg 8 17, 2018 5:34 SA
Đã được chấp nhận
+3

Mình đoán là các biểu thức toán học trên các trang bạn crawl về được viết bằng các công cụ hỗ trợ kiểu như latex hay gì đó. Ví dụ trên Viblo thì viết thế này $ 10 \over 2 $ nó sẽ ra:

$ 10\over2 $

Khi bạn chỉ crawl phần text thì nó sẽ ra nguyên như vậy nên phép chia nó mới thành over. Giải pháp ở đây là bạn hãy crawl nguyên dạng html bao gồm các tag, sau đó add thêm các xử lý cho các tag đặc biệt để replace các biểu thức toán về dạng bạn mong muốn.

P.S. Với các biểu thức phức tạp mà có căn bậc n hay các phép sum, logarit chẳng hạn thì chắc chả có cách diễn đạt bằng text nào phù hợp 😄

Chia sẻ
Avatar Minh Dương Văn @minhduong07
thg 8 17, 2018 7:22 SA

@bs90, tôi đã lấy nguyên dạng html của nó, khi mình var_dump thì nó ra " ({T \over 4}) " nhưng khi insert vào database thì nó mất dấu ' ' và chỉ lưu " T over 4" Bê cái var_dump qua Mathjax chuyển thì nó ra chuẩn là T/4 còn lấy từ database ra chuyển thì vẫn là T over 4. rất cảm ơn bạn

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí