THẢO LUẬN

thg 11 7, 2018 3:08 SA

hay quá

+1

Tôi đã thử làm theo chỉ dẫn của bạn nhưng vẫn có lỗi: 5.png Nếu được bạn có thể cho tôi xem cách bạn tạo 1 data bằng pickle được không? P/s: tôi nghĩ vẫn đề nằm ở: contents_parsed.append(content.lower().strip()). nó đã không được sử dụng, khi tôi sử dụng contents thay cho contents_parsed khi tách câu và tóm tắt thì tôi vẫn nhận được văn bản tóm tắt nhưng khác với văn bản tóm tắt bạn đưa ra.

0

ý nghĩa là lệnh là để mình duyệt qua từng văn bản trong tập văn bản mình có, nhưng bạn lưu ý là contents chứ không phải contents[1]

for content in contents

nếu để contents[1] thì mình cũng không rõ ý định của bạn là đang làm gì vì khi ấy nó sẽ duyệt từng ký tự trong đoạn văn bản contents[1] của bạn

0

Vì tôi chỉ tạo có 1 data thôi, nó chỉ như thế này: 4.png

0

@vuongthai95 font chuẩn Ubuntu

0

Bọn em trẻ nhỉ còn phát triển khả năng nhiều, như anh thì h khó rồi chỉ có cặm cụi đi làm thôi

0
thg 11 7, 2018 1:12 SA

Làm tí sau này su bóp ae sơ vơ thôi em 😂 Đã biết cái gì mấy đâu.

0
Avatar
đã bình luận cho bài viết
thg 11 7, 2018 12:45 SA

😃

0
thg 11 6, 2018 5:44 CH

mình thấy thằng flatsome hỗ trợ rất tốt, site mình vừa buid cho nhỏ em , https://cocoilvietnam.com kết hơp với wp fastest cache thấy tốc độ khá ok

0

Cảm ơn ý kiến của bạn, những ý kiến của bạn mình đã đọc hết và sẽ tìm hiểu, nhất định sẽ áp dụng cho các bài viết tới trên Viblo. Rất hy vọng sẽ được bạn ủng hộ, theo dõi và cũng rất mong chờ những bài chia sẻ kiến thức của bạn để cho mình được học hỏi nhé!

+1

tại sao lại là contents[1] nhỉ?

for content in contents[1]
0

Ủa, kí tự u' trong feature_names có ý nghĩa gì vậy bạn, mình thấy feature_names nào cũng có cái này ?

0
thg 11 6, 2018 2:04 CH

nếu không hiểu chỗ nào bạn comment cho mình đc biết nhé 😃

0
thg 11 6, 2018 12:27 CH

á đù chất quá anh h bá luôn cả aws

+1
thg 11 6, 2018 10:32 SA

Dạ cảm ơn về lời khuyên ạ. Chúc anh sức khỏe và có thêm nhiều bài viết hay 😄

0

So sánh giữa firebase và ruby có thực sự hợp lý không nhỉ?

0

Lần đầu vào viblo và tình cờ đọc đươc bài này của bạn, t thấy khá là nice:). t có một vài góp ý nho nhỏ, chỉ là mang tính xây dựng thôi^^

  1. Có thể bạn nên dùng early stoping để automatically ngừng training khi accuracy ngừng tăng và hình như acc của bạn là training accuracy đúng ko nhỉ. Nếu thế để phát hiện mô hình có 'học thuộc lòng' hay không thì mình nghĩ cần validation accuracy để so sánh. Còn nếu acc của bạn là validation thì có lẽ ko nên dừng training vì nó ko cho biết mô hình có đang overfitting hay không. Mặc dù đây không hẳn là classification problem nhưng mình nghĩ không ai cấm xây và dùng validation set cho bài này cả.
  2. Có thể bạn nên dùng perplexity để làm thông số đánh giá mô hình ngôn ngữ.
  3. Mình không biết bạn có chủ ý không như model của bạn nice khi bạn chỉ dùng 1 dropout layer ở gần cuối mô hình. Mặc dù mình nghĩ là dùng dropout ở layer cuối cùng thì vẫn tốt hơn. Vì dùng dropout kèm với batch_norm thì có thể gây tác dụng không mong muốn, làm giảm acc đặc biệt ở testing. B có thể tham khảo qua bài này: https://arxiv.org/abs/1801.05134
  4. Có thể t đọc ko kĩ, nhừng như b dùng greedy search cho phần generate text đúng không nhỉ. Nếu đúng thì t nghĩ phần này bạn nên dùng beam_search, sẽ cho text tốt hơn.
  5. Số 50 trong phần input length là sao bạn có được thế. T có đọc qua code của bạn thì t nghĩ bạn nên dùng median, mean hoặc các stat_metric khác để ra số này. Và nếu text của bạn có high variation về input length, bạn nên dùng thử cả bucketing ( chia là các nhóm input length) cùng với padding. Và tránh dùng post padding nếu có thể.
  6. cuối cùng thì t thấy, với cách process input của bạn, many-to-one, và trong bài toán về mô hình ngôn ngữ, có lẽ bạn không cần long-dependency tới mức 50. B có thể thử giảm số này xuống thử 20 hay 15, và giảm sự phức tạp của mô hình của bạn, có thể sẽ tăng performance. Ngoài ra thì mình không biết learning_rate strategy bạn dùng là gì, chỉnh cái đó chắc cũng sẽ giúp nhiều cho training T bình luận có gì không đúng bạn góp ý thêm nhé ^^

Ps: thông số về raw input data cũng rất là quan trọng cho người đọc, nhất là những bạn lười như t, nên lần sau b có thể đưa các thông số khác về data lên được không? Như vocab_length, total_words, traing_data_length, ratio (training/validation set) mean, variation of input.... cám ơn bạn nhiều vì chia sẻ bài viết nhé ^^

+6

Bài viết chi tiết nhất mà mình được đọc. thanks tác giả

+1

nó kiểu dư sức quá đungs không 😄

0
Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí