Cảm ơn ý kiến của bạn, những ý kiến của bạn mình đã đọc hết và sẽ tìm hiểu, nhất định sẽ áp dụng cho các bài viết tới trên Viblo. Rất hy vọng sẽ được bạn ủng hộ, theo dõi và cũng rất mong chờ những bài chia sẻ kiến thức của bạn để cho mình được học hỏi nhé!
Lần đầu vào viblo và tình cờ đọc đươc bài này của bạn, t thấy khá là nice:). t có một vài góp ý nho nhỏ, chỉ là mang tính xây dựng thôi^^
Có thể bạn nên dùng early stoping để automatically ngừng training khi accuracy ngừng tăng và hình như acc của bạn là training accuracy đúng ko nhỉ. Nếu thế để phát hiện mô hình có 'học thuộc lòng' hay không thì mình nghĩ cần validation accuracy để so sánh. Còn nếu acc của bạn là validation thì có lẽ ko nên dừng training vì nó ko cho biết mô hình có đang overfitting hay không. Mặc dù đây không hẳn là classification problem nhưng mình nghĩ không ai cấm xây và dùng validation set cho bài này cả.
Có thể bạn nên dùng perplexity để làm thông số đánh giá mô hình ngôn ngữ.
Mình không biết bạn có chủ ý không như model của bạn nice khi bạn chỉ dùng 1 dropout layer ở gần cuối mô hình. Mặc dù mình nghĩ là dùng dropout ở layer cuối cùng thì vẫn tốt hơn. Vì dùng dropout kèm với batch_norm thì có thể gây tác dụng không mong muốn, làm giảm acc đặc biệt ở testing.
B có thể tham khảo qua bài này: https://arxiv.org/abs/1801.05134
Có thể t đọc ko kĩ, nhừng như b dùng greedy search cho phần generate text đúng không nhỉ. Nếu đúng thì t nghĩ phần này bạn nên dùng beam_search, sẽ cho text tốt hơn.
Số 50 trong phần input length là sao bạn có được thế. T có đọc qua code của bạn thì t nghĩ bạn nên dùng median, mean hoặc các stat_metric khác để ra số này. Và nếu text của bạn có high variation về input length, bạn nên dùng thử cả bucketing ( chia là các nhóm input length) cùng với padding. Và tránh dùng post padding nếu có thể.
cuối cùng thì t thấy, với cách process input của bạn, many-to-one, và trong bài toán về mô hình ngôn ngữ, có lẽ bạn không cần long-dependency tới mức 50. B có thể thử giảm số này xuống thử 20 hay 15, và giảm sự phức tạp của mô hình của bạn, có thể sẽ tăng performance.
Ngoài ra thì mình không biết learning_rate strategy bạn dùng là gì, chỉnh cái đó chắc cũng sẽ giúp nhiều cho training
T bình luận có gì không đúng bạn góp ý thêm nhé ^^
Ps: thông số về raw input data cũng rất là quan trọng cho người đọc, nhất là những bạn lười như t, nên lần sau b có thể đưa các thông số khác về data lên được không? Như vocab_length, total_words, traing_data_length, ratio (training/validation set) mean, variation of input....
cám ơn bạn nhiều vì chia sẻ bài viết nhé ^^
regular expression để bắt các đoạn text theo 1 cấu trúc định trước nên để mining dữ liệu là xịn. Chứ phần thay hiển thị mấy từ cấm, em nghĩ chỉ cần tạo 1 dictionary của mấy từ cấm đấy xong replace là được ạ.
THẢO LUẬN
Cảm ơn ý kiến của bạn, những ý kiến của bạn mình đã đọc hết và sẽ tìm hiểu, nhất định sẽ áp dụng cho các bài viết tới trên Viblo. Rất hy vọng sẽ được bạn ủng hộ, theo dõi và cũng rất mong chờ những bài chia sẻ kiến thức của bạn để cho mình được học hỏi nhé!
tại sao lại là contents[1] nhỉ?
Ủa, kí tự u' trong feature_names có ý nghĩa gì vậy bạn, mình thấy feature_names nào cũng có cái này ?
nếu không hiểu chỗ nào bạn comment cho mình đc biết nhé
á đù chất quá anh h bá luôn cả aws
Dạ cảm ơn về lời khuyên ạ. Chúc anh sức khỏe và có thêm nhiều bài viết hay
So sánh giữa firebase và ruby có thực sự hợp lý không nhỉ?
Lần đầu vào viblo và tình cờ đọc đươc bài này của bạn, t thấy khá là nice:). t có một vài góp ý nho nhỏ, chỉ là mang tính xây dựng thôi^^
Ps: thông số về raw input data cũng rất là quan trọng cho người đọc, nhất là những bạn lười như t, nên lần sau b có thể đưa các thông số khác về data lên được không? Như vocab_length, total_words, traing_data_length, ratio (training/validation set) mean, variation of input.... cám ơn bạn nhiều vì chia sẻ bài viết nhé ^^
Bài viết chi tiết nhất mà mình được đọc. thanks tác giả
Dạ vâng
)
nó kiểu dư sức quá đungs không
regular expression để bắt các đoạn text theo 1 cấu trúc định trước nên để mining dữ liệu là xịn. Chứ phần thay hiển thị mấy từ cấm, em nghĩ chỉ cần tạo 1 dictionary của mấy từ cấm đấy xong replace là được ạ.
hiển thị mấy cái từ cấm thành **** khi chat chắc là dùng regular expression nhỉ
bài viết này e thấy 2 ví dụ này giống nhau đấy bác. e gà quá. đọc xong bài viết này không thấy hiểu gì
(
Tôi tạo 1 file .pkl như này:
2.Sau đó tôi dùng code của bạn để đọc và in ra nội dung:
#đến đây thay vì nội dung đã được chỉnh sửa theo contents_parsed.append(content.lower().strip()) thì nó chỉ hiển thị đúng chữ cái tôi gọi nó ra:
làm sao để có thể hiển thị toàn bộ nội dung mà contents_parsed.append sử dụng. cám ơn rất nhiều.
https://licklink.net/HXtTK
demo accordion bootstrap
cảm ơn bác thớt về bài viết !
lịch sử là từ vụ "làm sao ra trường để nhận luôn lương
$2000" của 1 đứa nào đó ra và sau đó các báo cũng PR mạnh lên....dù gì thì senpai hơn em tới 7 khóa lận. chắc chắn non yếu như em có thể học hỏi nhiều ạ
tks