Thế em phải hỏi lại thầy là sao trong CNN tại một layer với cùng 1 kernel size tại sao lại đặt số lượng filters là các số lớn như 64 hay 128. Nhỡ các kernel này học phải nhưng patterns giống hệt nhau thì sao ( Vậy thì đặt 1 filters thôi chứ cần gì nhiều.
em đang bị vướng ở multihead seft attention , hôm trước thầy trung hỏi là multihead thì có thể học được nhiều pattent từ 1 context nhưng nếu không có các chiến lược optimize khác nhau thì tại sao các head sau khi cập nhật lại có thể có giá trị khác nhau (những pattent khác nhau ) . Em đọc paper với mấy blog giải thích mà k thấy có ai nhắc đến vấn đề này
THẢO LUẬN
Detect cả thế giới với Yolovâng ợ
sẽ có những phần sau nhưng là fw js ợ
mình cảm ơn
(cuidau)
Bài viết hay quá
hầu hết các bài đều khuyên không nên sử dung DISTINCT.. đọc bài này lại khác luôn
đúng r em có nói là nó giống filters trong CNN dùng nhiều size để học được những đặc trưng khác nhau nhưng thầy nói chưa đủ mà k giải thích thêm
(thankyou)
Thế em phải hỏi lại thầy là sao trong CNN tại một layer với cùng 1 kernel size tại sao lại đặt số lượng filters là các số lớn như 64 hay 128. Nhỡ các kernel này học phải nhưng patterns giống hệt nhau thì sao
( Vậy thì đặt 1 filters thôi chứ cần gì nhiều.
Bài viết hay quá Quang ơi

Trending
))
em đang bị vướng ở multihead seft attention , hôm trước thầy trung hỏi là multihead thì có thể học được nhiều pattent từ 1 context nhưng nếu không có các chiến lược optimize khác nhau thì tại sao các head sau khi cập nhật lại có thể có giá trị khác nhau (những pattent khác nhau ) . Em đọc paper với mấy blog giải thích mà k thấy có ai nhắc đến vấn đề này
ra bài mới đi cậu ơi
Anh thấy Electra bên FPT cũng có làm trong paper mới
)
em thấy con electra tiếng việt cũng khá hứa hẹn mà cơ chế training cũng khá hay ho đó a
chất lượng quá
(nguong)
(tunghoa)