Chào bạn, Mình đang xem bài Phân tích phản hồi khách hàng hiệu quả với Machine learning(Vietnamese Sentiment Analysis) của bạn hay quá, vì mình đang tìm hiểu về sentiment analaysis nên bạn có thể cho mình xin ít thông tin, để có thể mình hỏi chút được không vậy
Trân trọng!
Ở đây, mình chỉ sử dụng một số tiền xử lý cơ bản như:
Chuẩn hóa về chữ thường
Thay thế các url trong dữ liệu bởi nhãn link_spam
Tách từ (Sử dụng underthesea của tác giả Vũ Anh)
Loại bỏ dấu câu và các ký tự đặc biệt
Xử lý các trường hợp người dùng láy láy âm tiết(Ví dụ: Ngooon quááááá điiiiiiii !!!!!)
Chuẩn hóa các từ viết tắt cơ bản(Ví dụ: k, ko, k0 --> không, bt --> bình thường,...)
Loại bỏ số và các từ chỉ có 1 ký tự
Bạn cho mình hỏi mục tiền xử lý dữ liệu không có code hả bạn?
Mình cũng đã muốn làm nốt phần 3 nhưng phần cứng hạn chế mình không train hay re-train lại được BERT cho tiếng Việt. Sau mình dùng pre-trained model BERT cho tiếng Việt nên thiết nghĩ việc viết không còn ý nghĩa nữa, để các bạn re-train lại viết vậy.
Bạn có thể viết bài reivew vê RoBERTa được không ạ? với lại cho mình hỏi thêm. mình dùng pretrain phobert cho đề tài thì có cần nêu lý thuyết của roberta và phobert không ạ. vì mình đã nêu lý thuyết về bert rồi.
Trân trọng Cảm ơn và kính chào
Về RoBERTa hay phoBERT mình thấy không có nhiều để viết, chỉ là một số thay đổi, tối ưu nhỏ so với mô hình gốc BERT bạn có thể xem trực tiếp ở paper của họ. Bạn sử dụng pre-trained phoBERT thì cần nêu lý thuyết về RoBERTa và BERT vì bản chất phoBERT vẫn là RoBERTa + corpus tiếng Việt.
Mình chỉ mới nêu lý thuyết BERT, còn roberta thì chưa đụng đến, mà không thấy bài viết nào Tiếng Việt về Roberta. Bạn dịch hay viết bài về roberta đi ạ.
Chúc sức khỏe và thành công!
Nhờ Thầy giúp.
Muốn dùng BERT để biểu diễn một câu cảm xúc, thì mình biểu diễn nó chính là cách hoạt động của attention (transfomers) đúng không Thầy?
Ví dụ mình muốn biểu diễn câu: “Trường có cơ cảnh quan đẹp thoáng mát”. Vậy mình biểu diễn từng bước để cuối cùng ra được kết quả: Positive.
Thầy có thể hướng dẫn sơ giúp, hoặc có link nào mà mô tả step by step với. Mình tìm trên mạng mà chưa thấy.
Cảm ơn Thầy rất nhiều, làm phiền Thầy quá.
Chúc Thầy cuối tuần vui vẽ!
Mình không hiểu câu hỏi này của bạn lắm. Nhưng có vẻ bạn đang muốn áp dụng pre-trained BERT cho bài toán sentiment analysis bert for sentiment analysis. Hoặc bạn có thể tham khảo qua repo của bạn này sentiment analysis cho tiếng Việt nữa https://github.com/suicao/PhoBert-Sentiment-Classification .
Cảm ơn bạn đã trả trả lời, hiện tại mình cũng build theo bài link trên. của mình hơi khác tí về data. Data của mình có 3 class, trong đó class neutral quá ít so với 2 data kia. Vì do data là dữ liệu thực tế của đơn vị mình. Mình cũng nhờ nhiều bạn giúp edit code lại. Mình train colab thì F1-score tầm 0.86 là cao nhất. Bài phân tích bình luận khách hàng của bạn có thể viết thêm nữa không ạ? mình định áp cho data của mình để so sánh.
Cảm ơn bạn và chúc sức khỏe!
Chào bác, @QuangPH
Mình có áp dụng cái phobert phân loại sắc thái bình luận cho data của mình á. bài của bác hay quá làm cho mình hiểu thêm tí. Bác có thể giúp viết thêm đoạn code dùng file test để kiểm tra xem nó dự đoán đúng được bao nhiêu á. Tại mình đọc bác kêu dễ tự viết coi như bài tập về nhà, do mình ko biết code thế nào nên bác giúp với ạ.
Cảm ơn rất là nhiều!
Chào bạn, Mình đang xem bài Phân tích phản hồi khách hàng hiệu quả với Machine learning(Vietnamese Sentiment Analysis) của bạn hay quá, vì mình đang tìm hiểu về sentiment analaysis nên bạn có thể cho mình xin ít thông tin, để có thể mình hỏi chút được không vậy Trân trọng!
Okie bạn, có gì cứ trao đổi với mình qua viblo hoặc qua facebook nhé https://www.facebook.com/quang.itbk
cảm ơn bạn đã rep, mình đang thử code nhưng chưa hiểu, có gì nhờ bạn giúp với nha. Mình kết bạn trên fb rồi, hy vọng được giúp đỡ.Thanks!
Ở đây, mình chỉ sử dụng một số tiền xử lý cơ bản như:
Chuẩn hóa về chữ thường Thay thế các url trong dữ liệu bởi nhãn link_spam Tách từ (Sử dụng underthesea của tác giả Vũ Anh) Loại bỏ dấu câu và các ký tự đặc biệt Xử lý các trường hợp người dùng láy láy âm tiết(Ví dụ: Ngooon quááááá điiiiiiii !!!!!) Chuẩn hóa các từ viết tắt cơ bản(Ví dụ: k, ko, k0 --> không, bt --> bình thường,...) Loại bỏ số và các từ chỉ có 1 ký tự
Bạn cho mình hỏi mục tiền xử lý dữ liệu không có code hả bạn?
Mình xem bài của ban về Bert thấy chi tiết, mà không biết ban đã viết phần 3 chưa: https://viblo.asia/p/thuc-hanh-voi-bert-ap-dung-the-nao-cho-tieng-viet-4P856PEWZY3
Mình cũng đã muốn làm nốt phần 3 nhưng phần cứng hạn chế mình không train hay re-train lại được BERT cho tiếng Việt. Sau mình dùng pre-trained model BERT cho tiếng Việt nên thiết nghĩ việc viết không còn ý nghĩa nữa, để các bạn re-train lại viết vậy.
Bạn có thể viết bài reivew vê RoBERTa được không ạ? với lại cho mình hỏi thêm. mình dùng pretrain phobert cho đề tài thì có cần nêu lý thuyết của roberta và phobert không ạ. vì mình đã nêu lý thuyết về bert rồi. Trân trọng Cảm ơn và kính chào
Về RoBERTa hay phoBERT mình thấy không có nhiều để viết, chỉ là một số thay đổi, tối ưu nhỏ so với mô hình gốc BERT bạn có thể xem trực tiếp ở paper của họ. Bạn sử dụng pre-trained phoBERT thì cần nêu lý thuyết về RoBERTa và BERT vì bản chất phoBERT vẫn là RoBERTa + corpus tiếng Việt.
Mình chỉ mới nêu lý thuyết BERT, còn roberta thì chưa đụng đến, mà không thấy bài viết nào Tiếng Việt về Roberta. Bạn dịch hay viết bài về roberta đi ạ. Chúc sức khỏe và thành công!
Nhờ Thầy giúp. Muốn dùng BERT để biểu diễn một câu cảm xúc, thì mình biểu diễn nó chính là cách hoạt động của attention (transfomers) đúng không Thầy? Ví dụ mình muốn biểu diễn câu: “Trường có cơ cảnh quan đẹp thoáng mát”. Vậy mình biểu diễn từng bước để cuối cùng ra được kết quả: Positive. Thầy có thể hướng dẫn sơ giúp, hoặc có link nào mà mô tả step by step với. Mình tìm trên mạng mà chưa thấy. Cảm ơn Thầy rất nhiều, làm phiền Thầy quá. Chúc Thầy cuối tuần vui vẽ!
Mình không hiểu câu hỏi này của bạn lắm. Nhưng có vẻ bạn đang muốn áp dụng pre-trained BERT cho bài toán sentiment analysis
bert for sentiment analysis
. Hoặc bạn có thể tham khảo qua repo của bạn này sentiment analysis cho tiếng Việt nữa https://github.com/suicao/PhoBert-Sentiment-Classification .Cảm ơn bạn đã trả trả lời, hiện tại mình cũng build theo bài link trên. của mình hơi khác tí về data. Data của mình có 3 class, trong đó class neutral quá ít so với 2 data kia. Vì do data là dữ liệu thực tế của đơn vị mình. Mình cũng nhờ nhiều bạn giúp edit code lại. Mình train colab thì F1-score tầm 0.86 là cao nhất. Bài phân tích bình luận khách hàng của bạn có thể viết thêm nữa không ạ? mình định áp cho data của mình để so sánh. Cảm ơn bạn và chúc sức khỏe!
Chào bác, @QuangPH Mình có áp dụng cái phobert phân loại sắc thái bình luận cho data của mình á. bài của bác hay quá làm cho mình hiểu thêm tí. Bác có thể giúp viết thêm đoạn code dùng file test để kiểm tra xem nó dự đoán đúng được bao nhiêu á. Tại mình đọc bác kêu dễ tự viết coi như bài tập về nhà, do mình ko biết code thế nào nên bác giúp với ạ. Cảm ơn rất là nhiều!