Signature Verification trong Machine Learning: Tất tần tật mọi thứ về xác minh chữ ký cho người mới.
1. Giới thiệu
Signature Verification ở Việt Nam thì còn khá mới. Đây được xem là một hướng khá tiềm năng trong các hệ thống ngân hàng, chính phủ,...
Signature Verification (xác minh chữ ký) là một trong những bài toán quan trọng trong lĩnh vực Behavioral Biometrics (sinh trắc học hành vi). Không giống với Signature Recognition — nơi hệ thống cần xác định danh tính của người ký trong một tập người dùng (bài toán phân loại đa lớp), Signature Verification tập trung vào việc xác định liệu một chữ ký đầu vào có phải là chữ ký hợp lệ của một cá nhân cụ thể hay không. Vì vậy, đây thường được xem là một bài toán Binary Classification hoặc Metric Learning.
Trong thực tế, chữ ký giả mạo thường được chia thành ba nhóm chính:
-
Random Forgery: Kẻ giả mạo sử dụng một chữ ký hoàn toàn ngẫu nhiên hoặc chính chữ ký của họ mà không biết bất kỳ thông tin nào về chữ ký thật của nạn nhân.
-
Simple Forgery: Kẻ giả mạo biết tên của người ký nhưng chưa từng quan sát hình dạng chữ ký thật.
-
Skilled Forgery: Kẻ giả mạo đã quan sát và luyện tập sao chép chữ ký thật nhiều lần. Đây là dạng giả mạo khó phát hiện nhất và cũng là thách thức lớn nhất đối với các hệ thống Machine Learning hiện đại.
Dựa trên phương thức thu thập dữ liệu, Signature Verification được chia thành hai hướng tiếp cận chính:
-
Offline Signature Verification: Chỉ sử dụng ảnh 2D của chữ ký sau khi đã được viết trên giấy và scan lại.
-
Online Signature Verification: Thu thập dữ liệu động theo thời gian thực thông qua các thiết bị số như tablet hoặc stylus, bao gồm thông tin về tọa độ, vận tốc, áp lực bút và góc nghiêng nét viết.
Do tính phổ biến cũng như độ khó cao của bài toán, bài viết này sẽ tập trung chủ yếu vào Offline Signature Verification.
2. Quy trình xử lý truyền thống (Traditional Pipeline)
Trước khi Deep Learning trở thành xu hướng chủ đạo, các hệ thống Signature Verification truyền thống chủ yếu dựa trên mô hình pipeline nhiều giai đoạn (multi-stage pipeline).
Trong cách tiếp cận này, hệ thống không học trực tiếp từ dữ liệu thô mà phụ thuộc mạnh vào các bước xử lý thủ công (handcrafted processing), bao gồm:
- Tiền xử lý dữ liệu (Preprocessing)
- Trích xuất đặc trưng (Feature Extraction)
- Phân loại (Classification)
Mỗi giai đoạn đóng vai trò riêng biệt nhằm giảm nhiễu, biểu diễn chữ ký dưới dạng đặc trưng toán học và cuối cùng đưa ra quyết định xác minh.
2.1. Tiền xử lý dữ liệu (Data Preprocessing)
Dữ liệu chữ ký thu được từ quá trình scan thường không đồng nhất về:
- kích thước,
- độ sáng,
- vị trí,
- độ nghiêng,
- chất lượng giấy,
- hoặc nhiễu sinh ra trong quá trình số hóa.
Nếu đưa trực tiếp các ảnh này vào mô hình Machine Learning, hiệu năng sẽ giảm mạnh do mô hình học phải các yếu tố không liên quan đến đặc trưng thực sự của nét chữ.
Vì vậy, bước preprocessing đóng vai trò chuẩn hóa dữ liệu đầu vào trước khi trích xuất đặc trưng.
2.1.1. Chuyển ảnh xám (Grayscale Conversion)
Ảnh chữ ký thường được scan ở định dạng RGB. Tuy nhiên, màu sắc gần như không mang nhiều thông tin hữu ích đối với Signature Verification.
Do đó, bước đầu tiên thường là chuyển ảnh RGB sang ảnh grayscale:
Việc giảm từ 3 kênh màu xuống 1 kênh giúp:
- giảm số chiều dữ liệu,
- giảm chi phí tính toán,
- tập trung vào hình dạng nét bút thay vì màu sắc.
2.1.2. Binarization
Sau khi chuyển grayscale, ảnh tiếp tục được biến đổi thành ảnh nhị phân (binary image) để tách nét chữ khỏi nền giấy.
Một phương pháp phổ biến là thresholding:
Trong đó:
- là cường độ pixel tại vị trí
- là ngưỡng threshold
Kết quả là:
- nền giấy trở thành màu trắng,
- nét chữ trở thành màu đen.
Một số kỹ thuật thường dùng:
- Global Thresholding
- Otsu Thresholding
- Adaptive Thresholding
2.1.3. Noise Removal
Trong quá trình scan, ảnh thường xuất hiện các nhiễu như:
- salt-and-pepper noise,
- bụi giấy,
- vết scan,
- điểm đen nhỏ không liên quan.
Các bộ lọc phổ biến gồm:
Median Filter
Median Filter thay thế pixel trung tâm bằng giá trị trung vị trong vùng lân cận:
Bộ lọc này đặc biệt hiệu quả với salt-and-pepper noise vì có thể loại bỏ nhiễu mà vẫn bảo toàn biên nét chữ.
Gaussian Filter
Gaussian Blur làm mượt ảnh bằng phép tích chập với Gaussian Kernel:
Phương pháp này giúp giảm nhiễu ngẫu nhiên nhưng có thể làm mờ nét chữ nếu kernel quá lớn.
2.1.4. Cropping và Centering
Chữ ký thường chỉ chiếm một vùng nhỏ trong ảnh scan.
Nếu giữ nguyên toàn bộ nền trắng:
- mô hình sẽ học nhiều thông tin dư thừa,
- tăng chi phí tính toán,
- giảm hiệu quả feature extraction.
Do đó, hệ thống thường:
- xác định bounding box chứa chữ ký,
- crop vùng chữ ký,
- căn giữa ảnh (centering).
Bước này giúp chuẩn hóa vị trí chữ ký giữa các mẫu khác nhau.
2.1.5. Resizing và Normalization
Các mô hình Machine Learning yêu cầu kích thước đầu vào cố định.
Do đó, ảnh thường được resize về các kích thước như:
Ngoài ra, giá trị pixel thường được chuẩn hóa:
để đưa dữ liệu về khoảng:
hoặc:
Việc normalization giúp quá trình tối ưu gradient ổn định hơn.
2.1.6. Thinning / Skeletonization
Độ dày nét bút có thể thay đổi do:
- loại bút,
- áp lực viết,
- chất lượng scan.
Skeletonization làm giảm nét chữ xuống độ rộng một pixel trong khi vẫn giữ nguyên cấu trúc hình học chính.
Mục tiêu:
- loại bỏ ảnh hưởng độ dày nét,
- nhấn mạnh hình thái học (morphology),
- hỗ trợ các thuật toán feature extraction như HOG hoặc graph-based methods.
Một thuật toán phổ biến là:
- Zhang-Suen Thinning Algorithm
2.2. Trích xuất đặc trưng (Feature Extraction)
Sau bước preprocessing, hệ thống cần chuyển ảnh chữ ký thành các vector đặc trưng số học để mô hình Machine Learning có thể xử lý.
Khác với Deep Learning, các phương pháp truyền thống không tự học đặc trưng mà phụ thuộc vào các đặc trưng được thiết kế thủ công (handcrafted features).
Mục tiêu của feature extraction là:
- giảm số chiều dữ liệu,
- giữ lại thông tin phân biệt quan trọng,
- tăng khả năng tổng quát hóa của mô hình.
Các đặc trưng thường được chia thành hai nhóm chính:
2.2.1. Global Features
Global Features mô tả các thuộc tính tổng quát của toàn bộ chữ ký.
Ví dụ:
Aspect Ratio
Tỷ lệ giữa chiều rộng và chiều cao:
Signature Area
Tổng số pixel thuộc nét chữ:
Center of Gravity
Tâm khối của chữ ký:
Các đặc trưng global thường đơn giản nhưng chưa đủ mạnh để xử lý Skilled Forgery.
2.2.2. Local Features
Local Features tập trung vào các vùng nhỏ trong chữ ký nhằm mô tả:
- hướng nét bút,
- kết cấu,
- độ cong,
- biến đổi pixel cục bộ.
Đây là nhóm đặc trưng quan trọng nhất trong Signature Verification truyền thống.
HOG (Histogram of Oriented Gradients)
HOG mô tả phân bố hướng gradient của ảnh.
Gradient được tính theo:
Độ lớn gradient:
Hướng gradient:
HOG đặc biệt hiệu quả trong việc phát hiện cấu trúc nét chữ và hướng viết.
LBP (Local Binary Patterns)
LBP mô tả texture cục bộ bằng cách so sánh pixel trung tâm với các pixel lân cận.
Nếu pixel lân cận lớn hơn pixel trung tâm:
ngược lại:
Kết quả tạo thành một mã nhị phân biểu diễn texture của vùng ảnh.
LBP có ưu điểm:
- tính toán nhanh,
- robust với thay đổi ánh sáng,
- phù hợp với texture analysis.
SIFT (Scale-Invariant Feature Transform)
SIFT phát hiện các keypoints đặc trưng bất biến với:
- scale,
- rotation,
- translation.
Mỗi keypoint được mô tả bằng vector gradient cục bộ.
SIFT rất mạnh trong việc nhận diện các nét cong hoặc giao điểm đặc trưng trong chữ ký.
2.3. Phân loại (Classification)
Sau khi trích xuất đặc trưng, mỗi chữ ký sẽ được biểu diễn dưới dạng vector số học:
Bộ phân loại sẽ học ranh giới giữa:
- Genuine
- Forged
2.3.1. Support Vector Machine (SVM)
SVM tìm siêu phẳng tối ưu để phân tách hai lớp:
Mục tiêu của SVM là tối đa hóa margin giữa hai lớp dữ liệu.
SVM hoạt động đặc biệt tốt với:
- dữ liệu ít,
- feature vectors có chiều cao,
- bài toán nhị phân.
2.3.2. K-Nearest Neighbors (KNN)
KNN phân loại dựa trên khoảng cách giữa mẫu mới và các mẫu gần nhất:
Mẫu sẽ được gán nhãn theo đa số của hàng xóm gần nhất.
2.3.3. Random Forest
Random Forest sử dụng nhiều Decision Trees để tăng khả năng tổng quát hóa.
Kết quả cuối cùng được xác định bằng voting:
Trong đó:
- là dự đoán của cây thứ .
2.4. Hạn chế của phương pháp truyền thống
Mặc dù các pipeline truyền thống từng đạt kết quả tốt trên các dataset nhỏ, chúng tồn tại nhiều hạn chế:
- Phụ thuộc mạnh vào handcrafted features.
- Khó phát hiện Skilled Forgery tinh vi.
- Khả năng tổng quát hóa thấp giữa các dataset khác nhau.
- Pipeline nhiều bước khiến việc tối ưu end-to-end gần như không thể.
Những hạn chế này chính là lý do Deep Learning và Siamese Networks dần trở thành hướng tiếp cận chủ đạo trong Signature Verification hiện đại.
3. Sự chuyển dịch sang Deep Learning
Sự phát triển của Deep Learning, đặc biệt là Convolutional Neural Networks (CNNs), đã làm thay đổi đáng kể cách tiếp cận bài toán Signature Verification.
Thay vì tách riêng bước trích xuất đặc trưng và phân loại, CNN cho phép mô hình học trực tiếp các biểu diễn đặc trưng từ dữ liệu đầu vào theo cơ chế end-to-end.
Điều này đặc biệt quan trọng đối với chữ ký giả mạo tinh vi, nơi các đặc trưng phân biệt thường rất khó thiết kế thủ công.
3.1. Siamese Network
Trong bài toán Signature Verification, số lượng mẫu chữ ký thật của mỗi người thường rất ít, trong khi dữ liệu giả mạo lại cực kỳ khan hiếm. Đây là môi trường điển hình của Few-shot Learning.
Để giải quyết vấn đề này, Siamese Network đã trở thành một trong những kiến trúc phổ biến nhất cho Signature Verification.
"Siamese networks, characterized by their unique dual-branch architecture with shared weights, have emerged as a powerful framework for similarity metric learning, demonstrating exceptional capabilities in handling few-shot learning and imbalanced data scenarios."
— A Survey on Siamese Network: Methodologies, Applications and Opportunities
Khác với các mô hình phân loại truyền thống, Siamese Network không học để dự đoán danh tính của người ký. Thay vào đó, mô hình học một hàm đo độ tương đồng giữa hai chữ ký.
Kiến trúc
Siamese Network bao gồm hai mạng nơ-ron con có cùng kiến trúc và chia sẻ hoàn toàn trọng số (shared weights). Mỗi nhánh nhận một ảnh chữ ký đầu vào và ánh xạ nó vào một không gian đặc trưng nhiều chiều (embedding space).
Nếu ký hiệu hàm ánh xạ là:
thì khoảng cách giữa hai chữ ký được tính bằng khoảng cách Euclid:
Nếu khoảng cách nhỏ hơn một ngưỡng , hệ thống xem cặp chữ ký là hợp lệ (genuine). Ngược lại, chữ ký sẽ bị xem là giả mạo (forged).
3.2. Hàm mất mát trong Metric Learning
Do Siamese Network học trên khoảng cách đặc trưng thay vì nhãn phân loại trực tiếp, các hàm mất mát truyền thống như Cross-Entropy thường không còn phù hợp.
Contrastive Loss
Contrastive Loss được thiết kế để tối ưu khoảng cách giữa hai embedding trong không gian đặc trưng.
Cho:
- : hai ảnh đầu vào
- :
- : cặp Genuine
- : cặp Forged
- : khoảng cách Euclid giữa hai embedding
- : margin tối thiểu
Khoảng cách embedding:
Hàm Contrastive Loss:
Ý nghĩa trực quan:
- Với các cặp Genuine (), mô hình cố gắng giảm khoảng cách embedding về gần 0.
- Với các cặp Forged (), mô hình cố gắng đẩy khoảng cách lớn hơn margin .
Nhờ đó, embedding space sẽ hình thành các cụm đặc trưng rõ ràng giữa chữ ký thật và giả mạo.
Triplet Loss
Contrastive Loss chỉ xét từng cặp dữ liệu riêng lẻ. Trong khi đó, Triplet Loss học quan hệ tương đối giữa ba mẫu cùng lúc:
- Anchor (): chữ ký tham chiếu
- Positive (): chữ ký thật cùng người
- Negative (): chữ ký giả hoặc chữ ký của người khác
Mục tiêu là đảm bảo:
với một khoảng cách chênh lệch tối thiểu gọi là margin .
Hàm Triplet Loss:
Trong đó:
- : khoảng cách giữa Anchor và Positive
- : khoảng cách giữa Anchor và Negative
- : margin giúp tăng độ phân tách giữa hai nhóm embedding
Ý nghĩa trực quan:
- Anchor và Positive phải nằm gần nhau trong embedding space.
- Negative phải bị đẩy ra xa hơn ít nhất một khoảng .
Triplet Loss thường tạo ra embedding space có khả năng phân tách mạnh hơn Contrastive Loss, đặc biệt hiệu quả trong các bài toán Few-shot Learning và Signature Verification.
4. Đánh giá hệ thống (Evaluation Metrics)
Trong các hệ thống sinh trắc học, việc đánh giá hiệu năng không chỉ phụ thuộc vào độ chính xác tổng thể mà còn liên quan trực tiếp đến sự cân bằng giữa bảo mật và trải nghiệm người dùng.
Khác với các bài toán phân loại thông thường, Signature Verification đặc biệt quan tâm đến khả năng hạn chế chấp nhận nhầm chữ ký giả mạo và từ chối nhầm chữ ký thật.
4.1. Confusion Matrix
Các độ đo đánh giá đều được xây dựng từ bốn trường hợp cơ bản:
| Predicted Genuine | Predicted Forged | |
|---|---|---|
| Actual Genuine | True Positive (TP) | False Rejection (FN) |
| Actual Forged | False Acceptance (FP) | True Negative (TN) |
Trong đó:
- TP (True Positive): Chữ ký thật được chấp nhận đúng.
- TN (True Negative): Chữ ký giả bị từ chối đúng.
- FP (False Positive): Chữ ký giả bị chấp nhận nhầm.
- FN (False Negative): Chữ ký thật bị từ chối nhầm.
4.2. Accuracy
Accuracy đo tỷ lệ dự đoán đúng trên toàn bộ tập dữ liệu:
Mặc dù dễ hiểu, Accuracy thường không phải metric quan trọng nhất trong Signature Verification do dữ liệu thường mất cân bằng (imbalanced dataset).
Ví dụ: nếu số lượng chữ ký thật lớn hơn rất nhiều so với chữ ký giả, mô hình có thể đạt Accuracy cao nhưng vẫn có FAR rất tệ.
4.3. Precision
Precision đo mức độ đáng tin cậy của các dự đoán Genuine:
Precision cao nghĩa là khi hệ thống chấp nhận một chữ ký, khả năng đó thực sự là chữ ký thật rất lớn.
4.4. Recall (True Positive Rate)
Recall đo khả năng phát hiện đúng các chữ ký thật:
Recall cao giúp giảm nguy cơ từ chối nhầm người dùng hợp pháp.
Trong sinh trắc học, Recall còn được gọi là:
4.5. False Acceptance Rate (FAR)
FAR là một trong những độ đo quan trọng nhất trong Signature Verification.
FAR thể hiện tỷ lệ hệ thống chấp nhận nhầm chữ ký giả mạo thành chữ ký thật.
Trong các hệ thống ngân hàng hoặc pháp lý, FAR cần phải cực kỳ thấp để đảm bảo tính bảo mật.
4.6. False Rejection Rate (FRR)
FRR đo tỷ lệ hệ thống từ chối nhầm chữ ký hợp lệ:
FRR cao gây ảnh hưởng trực tiếp đến trải nghiệm người dùng do người dùng thật bị từ chối xác thực.
FRR còn được gọi là:
4.7. Equal Error Rate (EER)
Trong các hệ thống sinh trắc học, FAR và FRR thường tồn tại mối quan hệ đánh đổi thông qua threshold .
-
Threshold thấp:
- FAR giảm
- FRR tăng
-
Threshold cao:
- FAR tăng
- FRR giảm
Equal Error Rate (EER) là giá trị tại điểm:
EER được xem là metric chuẩn mực nhất để so sánh các hệ thống Signature Verification.
- EER càng thấp hệ thống càng tốt.
- Một mô hình có EER thấp thường có embedding space phân tách rõ giữa Genuine và Forged.
4.8. Receiver Operating Characteristic (ROC Curve)
ROC Curve mô tả sự thay đổi giữa:
- True Positive Rate (TPR)
- False Positive Rate (FPR)
ở nhiều mức threshold khác nhau.
Trong đó:
Một hệ thống tốt sẽ có ROC Curve tiến gần góc trên bên trái của đồ thị.
4.9. Area Under Curve (AUC)
AUC là diện tích dưới đường cong ROC:
- : mô hình phân biệt hoàn hảo
- : mô hình hoạt động như đoán ngẫu nhiên
AUC càng cao cho thấy khả năng phân tách giữa Genuine và Forged càng mạnh.
4.10. Threshold trong Signature Verification
Hầu hết các hệ thống Siamese Network không trực tiếp xuất ra nhãn Genuine/Forged mà trả về một khoảng cách embedding:
Hệ thống sẽ sử dụng một threshold :
Việc lựa chọn threshold phù hợp là yếu tố cực kỳ quan trọng vì nó ảnh hưởng trực tiếp đến FAR, FRR và EER của toàn hệ thống.
5. Thách thức và xu hướng nghiên cứu
Mặc dù đã đạt được nhiều tiến bộ đáng kể, Signature Verification vẫn là một bài toán đầy thách thức.
5.1. Intra-class Variability
Chữ ký của cùng một người hiếm khi giống hệt nhau giữa các lần ký do ảnh hưởng của tâm lý, tốc độ viết, loại bút hoặc điều kiện vật lý.
5.2. Data Scarcity
Việc thu thập Skilled Forgery chất lượng cao để huấn luyện mô hình là rất khó khăn và tốn kém.
5.3. Generalization
Một mô hình được huấn luyện trên tập dữ liệu chữ ký phương Tây có thể suy giảm hiệu năng đáng kể khi áp dụng cho chữ ký phương Đông hoặc chữ ký Hán tự.
5.4. Hướng nghiên cứu tương lai
Các xu hướng nổi bật hiện nay bao gồm:
-
Generative Adversarial Networks (GANs) để sinh chữ ký giả mạo nhân tạo phục vụ data augmentation.
-
Attention Mechanisms và Vision Transformers (ViT) nhằm giúp mô hình tập trung vào các vùng nét bút quan trọng thay vì toàn bộ ảnh.
-
Self-supervised Learning để học biểu diễn đặc trưng từ lượng lớn dữ liệu chưa gán nhãn trước khi fine-tune cho bài toán xác minh chữ ký.
6. Kết luận
Signature Verification là một bài toán tiêu biểu trong lĩnh vực Behavioral Biometrics và Metric Learning. Từ các phương pháp truyền thống dựa trên handcrafted features như HOG hoặc SIFT cho đến các kiến trúc Deep Learning hiện đại như Siamese Network, mục tiêu cốt lõi vẫn là giảm thiểu khoảng cách giữa chữ ký thật và chữ ký giả mạo trong không gian đặc trưng.
Đối với người mới bắt đầu, việc xây dựng một hệ thống Siamese Network trên các bộ dữ liệu công khai như CEDAR hoặc BHSig260 là bước thực hành lý tưởng để tiếp cận các khái niệm quan trọng như CNN, Metric Learning, Contrastive Loss và Evaluation Metrics trong sinh trắc học hiện đại.
Trong tương lai, sự kết hợp giữa Transformer architectures, self-supervised learning và generative models được kỳ vọng sẽ tiếp tục cải thiện đáng kể khả năng phát hiện Skilled Forgery — vốn vẫn là thách thức lớn nhất của Signature Verification hiện nay.
All rights reserved