Yêu cầu Jan 27th, 2023 5:41 a.m. 193 2 0
  • 193 2 0
+1

Làm sao để thêm dấu câu trong NLP

Chia sẻ
  • 193 2 0

Mình có một đoạn văn bản chưa được đánh dấu câu, ví dụ:

xin chào hôm nay trời đẹp quá bạn khỏe không

đầu ra mong muốn:

Xin chào. Hôm nay trời đẹp quá! Bạn khỏe không?

Trong NLP có model hay thư viện nào xử lý được việc thêm dấu câu này k ạ.

Jan 27th, 2023 6:42 a.m.

bạn tham khảo thử thư viện này xem fullstop-punctuation-multilang-large

Jan 27th, 2023 6:57 a.m.

Cái này bạn có thể sử dụng sequence labeling, dữ liệu thì crawl về, các trang báo tiếng việt. Các nhãn sẽ có dạng B-lower, I-lower, B-upper, I-upper, B-comma, I-comma, ...

Jan 31st, 2023 3:03 a.m.

Cho ai quan tâm, mình tìm được 2 model cho tiếng Việt khá hiệu quả:

https://huggingface.co/dragonSwing/xlm-roberta-capu : đánh dấu câu

https://huggingface.co/nguyenvulebinh/spoken-norm : chữ -> số

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí