-1

Scale Invariant Feature Transform (SIFT)

Tổng quan.

Phép biến đổi đặc trưng bất biến theo tỷ lệ (Scale Invariant Feature Transform (SIFT)) là một thuật toán phát hiện đặc trưng trong thị giác máy tính để phát hiện và mô tả các đặc trưng cục bộ trong hình ảnh. Nó được xuất bản bởi David Lowe vào năm 1999. Các ứng dụng bao gồm nhận dạng đối tượng, lập bản đồ và điều hướng bằng robot, ghép hình ảnh, mô hình 3D, nhận dạng cử chỉ, theo dõi video, nhận dạng cá thể động vật hoang dã và di chuyển.

Tính năng SIFT là một vùng hình ảnh được chọn (còn được gọi là keypoint) với một bộ mô tả liên quan (descriptor). Các keypoints được trích xuất bởi bộ dò SIFT và bộ mô tả của chúng được bộ mô tả SIFT tính toán. Người ta cũng thường sử dụng độc lập bộ dò SIFT (tức là tính toán các keypoints không có bộ mô tả) hoặc bộ mô tả SIFT (tức là bộ mô tả tính toán của các keypoints tùy chỉnh).

Máy dò SIFT (SIFT detector )

SIFT keypoint là một vùng hình tròn có hướng. Nó được mô tả bằng một khung hình gồm bốn tham số: tọa độ tâm keypoint x và y, tỷ lệ của nó (bán kính của vùng) và hướng của nó (một góc được biểu thị bằng đơn vị radian). Máy dò SIFT sử dụng keypoints cấu trúc hình ảnh giống như "đốm màu". Bằng cách tìm kiếm các đốm màu ở nhiều tỷ lệ và vị trí, máy dò SIFT luôn bất biến (hoặc chính xác hơn là đồng biến) đối với quá trình dịch, xoay và thay đổi tỷ lệ của hình ảnh.

Hướng của keypoints cũng được xác định từ hình ảnh cục bộ và đồng biến với các phép quay hình ảnh. Tùy thuộc vào sự đối xứng của giao diện trọng điểm, việc xác định hướng có thể không rõ ràng. Trong trường hợp này, bộ dò SIFT trả về danh sách tối đa bốn hướng có thể, xây dựng tối đa bốn khung (chỉ khác nhau về hướng của chúng) cho mỗi đốm hình ảnh được phát hiện.

Có một số tham số ảnh hưởng đến việc phát hiện các SIFT keypoints. Đầu tiên, việc tìm kiếm các keypoints ở nhiều tỷ lệ có được bằng cách xây dựng cái gọi là “không gian tỷ lệ Gaussian”. Không gian tỷ lệ chỉ là một tập hợp các hình ảnh thu được bằng cách làm mịn dần dần hình ảnh đầu vào, tương tự như việc giảm dần độ phân giải hình ảnh. Thông thường, mức độ làm mịn được gọi là tỷ lệ của hình ảnh. Việc xây dựng không gian tỷ lệ bị ảnh hưởng bởi các tham số sau:

  • Số quãng tám. Tăng tỷ lệ lên một quãng tám có nghĩa là tăng gấp đôi kích thước của hạt nhân làm mịn, có tác dụng gần tương đương với việc giảm một nửa độ phân giải hình ảnh. Theo mặc định, không gian tỷ lệ kéo dài càng nhiều quãng tám càng tốt (tức là khoảng log2 (tối thiểu (chiều rộng, chiều cao)), có tác dụng tìm kiếm các điểm chính ở tất cả các kích thước có thể.
  • Chỉ số quãng tám đầu tiên. Theo quy ước, quãng tám của chỉ số 0 bắt đầu với độ phân giải đầy đủ của hình ảnh. Việc chỉ định một chỉ mục lớn hơn 0 sẽ bắt đầu không gian tỷ lệ ở độ phân giải thấp hơn (ví dụ: 1 giảm một nửa độ phân giải). Tương tự như vậy, việc chỉ định một chỉ số âm sẽ bắt đầu không gian tỷ lệ ở hình ảnh có độ phân giải cao hơn và có thể hữu ích để trích xuất các tính năng rất nhỏ (vì điều này có được bằng cách nội suy hình ảnh đầu vào, không có ý nghĩa gì khi vượt qua -1).
  • Số cấp độ mỗi quãng tám. Mỗi quãng tám được lấy mẫu ở số thang âm trung gian nhất định này (theo mặc định là 3). Việc tăng số lượng này về nguyên tắc có thể trả về các điểm khóa tinh vi hơn, nhưng trên thực tế có thể làm cho việc lựa chọn của chúng không ổn định do nhiễu.

Các keypoint được tinh chỉnh hơn nữa bằng cách loại bỏ những điểm có khả năng không ổn định, vì chúng được chọn gần cạnh hình ảnh, thay vì đốm hình ảnh hoặc được tìm thấy trên cấu trúc hình ảnh có độ tương phản thấp.

Bộ mô tả SIFT (SIFT Descriptor)

Bộ mô tả SIFT là một biểu đồ không gian 3-D của các độ dốc hình ảnh để mô tả sự xuất hiện của một điểm chính. Gradient tại mỗi pixel được coi là một mẫu của vector đặc trưng cơ bản ba chiều, được hình thành bởi vị trí pixel và hướng gradient. Các mẫu được cân bằng chuẩn độ dốc và được tích lũy trong biểu đồ 3-D h, biểu đồ này (cho đến khi chuẩn hóa và kẹp chặt) tạo thành bộ mô tả SIFT của vùng. Một hàm trọng số Gaussian bổ sung được áp dụng để giảm bớt tầm quan trọng đối với các gradient ở xa trung tâm điểm chính hơn. Các định hướng được lượng tử hóa thành tám thùng và tọa độ không gian thành bốn thùng, như sau:

Nguồn: https://www.vlfeat.org/api/sift.html#:~:text=The SIFT descriptor is a,orientation on the image plane.

                   Bộ mô tả SIFT là một biểu đồ không gian của gradient hình ảnh

All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí