Hỏi về giá trị stride trong faster R-CNN?
xin chào mọi người. Mình muốn hỏi 1 vấn đề về giá trị stride trong faster R-CNN. Nếu như stride = 16 thì base network (dùng VGG) sẽ dừng ở sau block thứ 4 - maxpool thứ 4 - để lấy feature maps (size giảm 16 lần)
https://www.pyimagesearch.com/wp-content/uploads/2017/03/imagenet_vggnet_table1.png
Còn nếu như stride = 8 thì base network sẽ dừng ở đâu nhỉ? nếu vẫn là thằng thứ 4 như trên thì giá trị các box tương ứng trên feature maps sẽ có giá trị không phù hợp. ví dụ như set of box đầu tiên tại 0,0 trên input image thì trên feature maps là 0,0. Tiếp đến set of box thứ 2 là 0,8 thì trên feature map sẽ là 0,0.5. Mình nghĩ là dừng ở sau block thứ 3 0 - maxpool thứ 3 - lúc đó size giảm vừa bằng 8.
Nhờ anh em confirm vụ này
1 CÂU TRẢ LỜI
Mình cũng nghĩ nó sẽ dừng ở block thử 3. Nếu bạn dùng maxpooling2d qua mỗi lớp maxpool sẽ có nên với sẽ cần qua 4 block . Nếu thì cần 3 block
nếu như vậy thì stride = 8 đâu đủ tốt bằng thằng stride = 16 nhỉ?