Phần giải thích asynchronize không rõ ràng, thậm chí dẫn dắt người đọc hiểu sai vấn đề.
"chương trình có thể nhảy đi bỏ qua một bước nào đó" => giải thích thế này với người chưa có khái niệm trước về synchronize lập tức sẽ hiểu nhầm vấn đề.
Thế em phải hỏi lại thầy là sao trong CNN tại một layer với cùng 1 kernel size tại sao lại đặt số lượng filters là các số lớn như 64 hay 128. Nhỡ các kernel này học phải nhưng patterns giống hệt nhau thì sao ( Vậy thì đặt 1 filters thôi chứ cần gì nhiều.
em đang bị vướng ở multihead seft attention , hôm trước thầy trung hỏi là multihead thì có thể học được nhiều pattent từ 1 context nhưng nếu không có các chiến lược optimize khác nhau thì tại sao các head sau khi cập nhật lại có thể có giá trị khác nhau (những pattent khác nhau ) . Em đọc paper với mấy blog giải thích mà k thấy có ai nhắc đến vấn đề này
THẢO LUẬN
welcome back bro
Cám ơn bạn đã mang series tuyệt với. Mong bạn nhiều sức khoẻ và thành công để có thể mang tới cho mọi người nhiều bài viết hay hơn nữa.
Phần giải thích asynchronize không rõ ràng, thậm chí dẫn dắt người đọc hiểu sai vấn đề. "chương trình có thể nhảy đi bỏ qua một bước nào đó" => giải thích thế này với người chưa có khái niệm trước về synchronize lập tức sẽ hiểu nhầm vấn đề.
Bổ nè, nhưng mà làm delayed_job đừng để bị delay nha
(good)
Detect cả thế giới với Yolovâng ợ
sẽ có những phần sau nhưng là fw js ợ
mình cảm ơn
(cuidau)
Bài viết hay quá
hầu hết các bài đều khuyên không nên sử dung DISTINCT.. đọc bài này lại khác luôn
đúng r em có nói là nó giống filters trong CNN dùng nhiều size để học được những đặc trưng khác nhau nhưng thầy nói chưa đủ mà k giải thích thêm
(thankyou)
Thế em phải hỏi lại thầy là sao trong CNN tại một layer với cùng 1 kernel size tại sao lại đặt số lượng filters là các số lớn như 64 hay 128. Nhỡ các kernel này học phải nhưng patterns giống hệt nhau thì sao
( Vậy thì đặt 1 filters thôi chứ cần gì nhiều.
Bài viết hay quá Quang ơi

Trending
))
em đang bị vướng ở multihead seft attention , hôm trước thầy trung hỏi là multihead thì có thể học được nhiều pattent từ 1 context nhưng nếu không có các chiến lược optimize khác nhau thì tại sao các head sau khi cập nhật lại có thể có giá trị khác nhau (những pattent khác nhau ) . Em đọc paper với mấy blog giải thích mà k thấy có ai nhắc đến vấn đề này
ra bài mới đi cậu ơi