+1
Làm sao để thêm dấu câu trong NLP
Mình có một đoạn văn bản chưa được đánh dấu câu, ví dụ:
xin chào hôm nay trời đẹp quá bạn khỏe không
đầu ra mong muốn:
Xin chào. Hôm nay trời đẹp quá! Bạn khỏe không?
Trong NLP có model hay thư viện nào xử lý được việc thêm dấu câu này k ạ.
bạn tham khảo thử thư viện này xem
fullstop-punctuation-multilang-large
Cái này bạn có thể sử dụng sequence labeling, dữ liệu thì crawl về, các trang báo tiếng việt. Các nhãn sẽ có dạng B-lower, I-lower, B-upper, I-upper, B-comma, I-comma, ...
Cho ai quan tâm, mình tìm được 2 model cho tiếng Việt khá hiệu quả:
https://huggingface.co/dragonSwing/xlm-roberta-capu : đánh dấu câu
https://huggingface.co/nguyenvulebinh/spoken-norm : chữ -> số