Object Detection Intuition: R-CNN to YOLO
R-CNN

Region Proposal Network
Một Region Proposal Network nhận đầu vào là ảnh với kích thước bất kì và cho đầu ra là region proposal (tập vị trí của các hình chữ nhật có thể chứa vật thể), cùng với xác suất chứa vật thể của hình chữ nhật tương ứng.
- Dùng mạng CNN để tạo ra convolutional features.
- Dùng slide window để trượt qua extracted features.
- Với mỗi window, dùng 2 lớp fully connected để dự đoán đồng thời offset của k proposal region (từ k anchor box đã được training từ trước với tâm anchor box nằm ở tâm ảnh) và xác xuất của regions ấy chứa vật thể.
Faster R-CNN
Sau đó, N region proposal đó sẽ được đi qua lớp ROI pooling để tạo ra ma trận Op [N x 7 x 7 x 512] và đi qua mô hình Faster R-CNN để phân loại vật thể và chính xác hóa vị trí của bouding box từ offset của proposal region.
Addition - Sự khác nhau
R-CNN: Selective Search Algorithm → 2000 proposal regions → Cắt từng vùng trên ảnh map theo proposal regions → Input từng vùng ảnh vào CNN → Classification ảnh + Adjust bouding box
Fast R-CNN: Selective Search Algorithm → 2000 proposal regions → Đưa cả ảnh qua CNN tạo feature map → Ánh xạ proposal regions vào vị trí tương ứng trên feature map → ROI Pooling → Fully Connected → Classification ảnh + Adjust bouding box
Faster R-CNN: Region Proposal Network + Anchor Box → Trượt qua từng slide window và dự đoán k region proposal → chọn lọc 2000 proposal regions có điểm objectness cao nhất→ Ánh xạ proposal regions vào vị trí tương ứng trên feature map (dùng chung với RPN) → ROI Pooling → Fully Connected → Classification ảnh + Adjust bouding box
YOLO
All rights reserved
 
  
 