Em làm theo đến bước sau và cũng đã tải model theo đường link để chuyển các câu sang vector: https://github.com/Kyubyong/wordvectors
from gensim.models import KeyedVectors
w2v = KeyedVectors.load_word2vec_format("vi_txt/vi.vec")
Anh có thể chỉ cụ thể giúp e là cài đặt wordvectors như thế nào để nó không có còn báo lỗi: [Errno 2] No such file or directory: 'vi_txt/vi.vec' vì tới bước này e không biết làm tiếp nữa.
Do em mới học nên chưa biết nên xin anh chỉ cụ thể giúp e được k ạ. Xin cám ơn a nhiều
Xin lỗi do lúc lên bài viết mình có sửa lại tên biến mà mình chưa sửa hết. Mình vừa sửa lại rồi. Biến seq_len thực ra là biến max_seq.
Lí do mình break ở đó là vì ở đây mình có đưa tất cả các comment thành các ma trận cùng cỡ với số token là max_seq. Với những câu có độ dài ngắn hơn max_seq thì mình tiến hành lặp lại k lần câu đó(mình k sử dụng kiểu zero padding ).
Ví dụ câu: "đồ ăn ngon" sẽ được lặp lại 66 lần sau đó break vì 2 phần trống còn lại không đủ để lặp lại câu thêm lần nữa.
Bạn có thể không sử dụng phương pháp này nhưng mình nghĩ phương pháp này khá hiệu quá đặc biệt là khi bạn sử dụng mạng kiểu sequency như LSTM.
Cảm ơn bài chia sẻ tuyệt vời của bạn.
Ở mục Vector hóa dữ liệu, phần code chuyển comment thành matrix. Bạn có một đoạn code này và mình chưa rõ seq_len là biến gì?
Tại sao lại phải break ở đó nhỉ.
for i in range(max_seq):
indexword = i % lencmt
if (seq_len - i < lencmt):
break
if(words[indexword] in words_label):
matrix[i] = model[words[indexword]]
THẢO LUẬN
cảm ơn bạn nhé hehe
bài viết rất hữu ích
bài viết quá tuyệt vời
Em làm theo đến bước sau và cũng đã tải model theo đường link để chuyển các câu sang vector: https://github.com/Kyubyong/wordvectors from gensim.models import KeyedVectors w2v = KeyedVectors.load_word2vec_format("vi_txt/vi.vec") Anh có thể chỉ cụ thể giúp e là cài đặt wordvectors như thế nào để nó không có còn báo lỗi: [Errno 2] No such file or directory: 'vi_txt/vi.vec' vì tới bước này e không biết làm tiếp nữa. Do em mới học nên chưa biết nên xin anh chỉ cụ thể giúp e được k ạ. Xin cám ơn a nhiều
Xin lỗi do lúc lên bài viết mình có sửa lại tên biến mà mình chưa sửa hết. Mình vừa sửa lại rồi. Biến seq_len thực ra là biến max_seq.
Lí do mình break ở đó là vì ở đây mình có đưa tất cả các comment thành các ma trận cùng cỡ với số token là max_seq. Với những câu có độ dài ngắn hơn max_seq thì mình tiến hành lặp lại k lần câu đó(mình k sử dụng kiểu zero padding ).
Ví dụ câu: "đồ ăn ngon" sẽ được lặp lại 66 lần sau đó break vì 2 phần trống còn lại không đủ để lặp lại câu thêm lần nữa.
Bạn có thể không sử dụng phương pháp này nhưng mình nghĩ phương pháp này khá hiệu quá đặc biệt là khi bạn sử dụng mạng kiểu sequency như LSTM.
Chào bạn, sao mình tìm thì không có phần 2 vậy bạn? Không biết bạn đã up lên đây chưa, có rồi thì cho mình xin link với 😄
Thanks for your support =))
Cám ơn bạn 👍
Thật đúng là Cuộc sống mà :v
Cảm ơn bài chia sẻ tuyệt vời của bạn. Ở mục Vector hóa dữ liệu, phần code chuyển comment thành matrix. Bạn có một đoạn code này và mình chưa rõ
seq_lenlà biến gì? Tại sao lại phải break ở đó nhỉ.giờ đã có Kotlin để code Android
đùa. đúng thứ tự .env cho nó dễ nhìn nào bạn trẻ =))
hoàn toàn đc mà bạn, mục đích nó chỉ là xác thực tài khoản
Tôi là 1 beginer ,bài viết của bạn rất dễ hiểu , thanks so much
ok (bantim)
Hay lắm cảm ơn bạn nhé. Để mình test thử luôn 🤗
Hihi hay quá chờ đợt phần sau
Hay quá, bạn viết dễ hiểu lắm, mấy sơ đồ biểu diễn giúp mình hình dung rõ hơn. Mong chờ phần 2 bạn ơi
ác mộng thật chứ còn gì nữa
những từ nào thiên về thuật ngữ kiểu migrate, components, ... bác nên giữ nguyên đi