Hỏi về abstractive Text Summarization?
Hiện tại mình đang tìm hiểu về việc rút gọn 1 bài báo. Đã thử qua vs tóm tắt văn bản bằng "Extractive". Bây giờ minh đang chuyển sang thử các phương pháp Abstractive. Nhưng vẫn chưa thành công. Cụ thể mình có tham khảo code của 1 số source như:
https://github.com/llSourcell/How_to_make_a_text_summarizer
https://github.com/chen0040/keras-text-summarization
https://github.com/DeepsMoseli/Bidirectiona-LSTM-for-text-summarization-
Nhưng những ví dụ mình thử trên là gerenate headline thì đúng hơn. Mình cũng customize như thay đổi max target seq length lại nhưng không thành công. Bạn nào biết hướng dẫn giúp mình vs. Về mặt lý thuyết mình nắm đc cách nó generate nhưng thực hành thì chưa ổn nên đang tham khảo các source code cách làm. mình đang nghĩ ra 1 thuật toán như sau:
Chia bài văn thành các các đoạn văn nhỏ - paraghraph. Sau đó tìm headline như các ví dụ trên làm rồi ghép vs nhau.
Mình nghĩ ý tưởng của bạn đưa ra là mỗi đoạn genarate 1 headline rồi ghép lại thành 1 văn bản tóm tắt là khá hay nếu muốn kế thừa 1 số source code sẵn. Còn bài toán Abstractive text summarization này thì mình cũng chưa làm nên cũng không support được gì cho bạn. Mình thấy cộng đồng VNLP vẫn đang cố gắng làm tốt bài toán Extractive text summarization nhiều hơn. Rất mong có thể trao đổi nhiều với bạn về những bài toán này trong thời gian tới )
@QuangPH nếu là dạng bài báo áp dụng thuật toán kiểu mình nghĩ ra có vẻ ổn nhưng mà dạng khác thì thấy "ko ưng". Còn về Extractive đang tham khảo bài 1 bạn trên viblo.asia nhưng train skip-thoughts - sent2vec - chứ ko dùng word2vec. Bài toán mình dùng cho tiếng việt nên đang suy nghĩ dùng tập train nào.
@kstn_hut_hat Mình cũng rất hứng thứ với các bài toán NLP cho tiếng Việt. Nhưng có điều cách làm Extractive bạn bảo sử dụng skip-thoughts sau đó k-mean mình vẫn thấy nghi ngờ, bạn đã thử dùng độ đo gì để đánh giá kết quả chưa? Mình cũng đọc qua bài đó nhưng thấy bài báo gốc chưa được publish bởi 1 hội nghị nào uy tín(lúc mình đọc còn giờ thì chưa biết), cũng không có so sánh đánh giá gì nên mình cũng chưa muốn deploy. Mình còn nhận thấy 1 điểm khá nguy hiểm của phương pháp đấy là k-mean không phân cụm hiệu quả khi bài văn của bạn chỉ có vài chục đến vài trăm câu. Kỹ thuật cluster cho text summarization đúng là có nhưng dùng k-mean thì coi chừng thực tế sẽ khác xa so với paper đấy.
Các bài toán cho tiếng Việt thì mình nghĩ cố gắng sử dụng các giải thuật unsupervised là tốt nhất, mình vẫn đang cố khai thác tiềm năng từ wikipedia, mình nghĩ đây là bộ dữ liệu khá okie )
@QuangPH mình đang train. Tối or mai xem thế nào. Mong là nó tốt. Vì đúng như bạn nói. Bài toán của mình tầm vài trăm câu thôi.
@QuangPH Hú hú. Vụ train skip-thoughts trên tiếng Việt nói riêng và language nói chung thì cần bỏ hết punctuation ko nhỉ. Ví dụ câu: "Tôi (Hoàng Tuấn) đang làm ở Sài Gòn" thì có nên bỏ ngoặc '(' ')' không nhỉ? Nếu bỏ thì có vẻ câu vô nghĩa nhỉ
@kstn_hut_hat không nên bỏ đặc biệt là dấu câu. Cứ tách từ xong là cho vào luôn. Mình nghĩ vậy 😄😄😄