Asked Jan 27th, 5:41 a.m. 134 1 0
  • 134 1 0
+1

Làm sao để thêm dấu câu trong NLP

Share
  • 134 1 0

Mình có một đoạn văn bản chưa được đánh dấu câu, ví dụ:

xin chào hôm nay trời đẹp quá bạn khỏe không

đầu ra mong muốn:

Xin chào. Hôm nay trời đẹp quá! Bạn khỏe không?

Trong NLP có model hay thư viện nào xử lý được việc thêm dấu câu này k ạ.

Jan 27th, 6:42 a.m.

bạn tham khảo thử thư viện này xem fullstop-punctuation-multilang-large

0
| Reply
Share
Jan 27th, 6:57 a.m.

Cái này bạn có thể sử dụng sequence labeling, dữ liệu thì crawl về, các trang báo tiếng việt. Các nhãn sẽ có dạng B-lower, I-lower, B-upper, I-upper, B-comma, I-comma, ...

0
| Reply
Share
Jan 31st, 3:03 a.m.

Cho ai quan tâm, mình tìm được 2 model cho tiếng Việt khá hiệu quả:

https://huggingface.co/dragonSwing/xlm-roberta-capu : đánh dấu câu

https://huggingface.co/nguyenvulebinh/spoken-norm : chữ -> số

0
| Reply
Share
Viblo
Let's register a Viblo Account to get more interesting posts.