Đã đăng vào thg 6 9, 7:03 SA 6 phút đọc

Cách trích xuất thông tin từ hóa đơn để đẩy vào hệ thống ERP

Bài toán ban đầu nghe khá đơn giản: “Trích xuất thông tin từ hóa đơn để đẩy vào hệ thống ERP.” Hầu hết các AI team khi mới bắt đầu đều nghĩ đây chỉ là một OCR pipeline cơ bản: Detect text → OCR → Regex extract field. Nhưng khi chính thức bước vào môi trường Production, mọi giả định ban đầu đều “vỡ trận”.

1. Thực Tế Nghiệt Ngã Của Dataset Khi Deploy Production

Trong môi trường Lab hoặc Demo, hình ảnh đầu vào luôn sạch sẽ. Nhưng dữ liệu thực tế (Real-world dataset) lại là một câu chuyện hoàn toàn khác:

Ảnh chụp thiếu sáng, rung tay bằng điện thoại.
Hóa đơn bị nhăn nheo, gấp nếp hoặc scan lệch góc.
Chữ in nhiệt bị mờ, bay màu theo thời gian.
Con dấu đỏ (stamp) đóng đè thẳng lên text.
Hàng trăm template hóa đơn khác nhau từ các nhà cung cấp.

Khi áp dụng giải pháp OCR Pretrained kết hợp Rule-based Extraction truyền thống, hệ thống lập tức bộc lộ lỗ hổng: OCR bỏ sót field “Total”, tên công ty bị dính chữ của con dấu, địa chỉ bị split thành nhiều dòng, và chỉ cần layout thay đổi là Regex hoàn toàn thất bại. Chưa kể, Latency (độ trễ) tăng phi mã khi hệ thống đối mặt với Traffic cao.

Lúc này, bài toán thực sự không còn là OCR đơn thuần nữa, mà là câu chuyện Xây dựng hệ thống Document Understanding end-to-end.

2. Redesign Toàn Bộ Pipeline: Từ OCR Rời Rạc Đến Document AI Hiện Đại

Nhận thấy việc OCR trực tiếp trên tài liệu thô (raw document) gây nhiễu nghiêm trọng cho downstream extraction, pipeline cần được tái cấu trúc toàn diện theo kiến trúc chuẩn công nghiệp:

Layout Analysis

Thay vì OCR mù quáng, hệ thống cần detect các block text, table, title trước để định hình cấu trúc tài liệu.

Text Detection

Tiến hành fine-tune model detection trên tập dữ liệu hóa đơn/biên lai thực tế (receipt) thay vì phụ thuộc vào các checkpoint pretrained nguyên bản.

Text Recognition (OCR)

Chuyển dịch từ cấu trúc CRNN baseline sang PARSeq nhờ các ưu điểm vượt trội:

Robustness (độ mạnh mẽ) tốt hơn hẳn với irregular text (chữ cong, chữ nghiêng, chữ bị lệch).
Khả năng Contextual Decoding mạnh mẽ hơn.
Accuracy ổn định trên các bản scan receipt nhiều nhiễu.

Key Information Extraction (KIE)

Ứng dụng LayoutLMv3 để khai thác sức mạnh đa phương thức (Multimodal):

Textual embedding: Bản chất ngữ nghĩa của văn bản.
Spatial/Layout embedding (bbox): Tọa độ không gian của các trường dữ liệu.
Visual embedding: Đặc trưng hình ảnh trực tiếp từ image patch.

Kinh nghiệm thực chiến (EEAT): Có giai đoạn chỉ số CER (Character Error Rate) của OCR giảm đáng kể, nhưng Field-level F1-score của hệ thống gần như không cải thiện. Tại sao? Vì lỗi nghiêm trọng ảnh hưởng đến Business (Business-critical) thường nằm ở khâu alignment các trường, layout nhập nhằng (layout ambiguity) và trích xuất ngữ nghĩa (semantic extraction), chứ không chỉ nằm ở việc nhận diện ký tự. Đây là khoảng cách lớn giữa OCR Metric và Business Metric mà người mới làm AI rất dễ nhầm lẫn.

3. Khoảng Cách Giữa "Demo AI" và "Production AI": Serving & Deployment

Sau khi model đạt độ chính xác cao trên Jupyter Notebook, bạn mới chỉ đi được 30% chặng đường. 70% còn lại nằm ở bài toán MLOps, Serving và Deployment:

Tối ưu hóa Inference: Export model sang ONNX, TensorRT để tăng tốc phần cứng.
Hạ tầng Serving: Triển khai qua Triton Inference Server hoặc vLLM để tối ưu dynamic batching, xử lý async API.
Hệ thống: Cân bằng throughput, benchmark latency, thiết lập monitoring để bắt các failure cases.

Một model có thể chỉ mất 150ms để inference trong notebook, nhưng khi lên API end-to-end có thể mất vài giây do bottleneck ở khâu tiền xử lý (preprocessing), pipeline chạy tuần tự (sequential), blocking I/O hoặc batching chưa tối ưu.

4. Làm Sao Để Làm Chủ Workflow Document AI Thực Tế?

Nếu bạn đang là một AI/CV Engineer, muốn nâng cấp lên Senior AI Engineer, hoặc đã làm OCR nhưng chưa từng giải quyết bài toán scale hệ thống trong Production, việc đầu tư vào kỹ năng Document AI toàn diện là cực kỳ cấp thiết.

Hiện nay, Document AI đang là xương sống trong chuỗi tự động hóa của nhiều khối ngành: Banking (eKYC, duyệt hồ sơ), Insurance (xử lý claim), Logistics (vận đơn), Chăm sóc sức khỏe và Tự động hóa quy trình doanh nghiệp (Enterprise Workflow Automation). Nhu cầu tuyển dụng kỹ sư AI có kinh nghiệm thực chiến hệ thống này đang tăng trưởng phi mã.

Để rút ngắn thời gian tự bơi và va vấp, bạn có thể tham khảo chương trình “MasterClass AI for Document Understanding”. Đây là chương trình thiết kế bám sát 100% workflow thực tế tại các doanh nghiệp lớn với các nội dung cốt lõi:

Fine-tune chuyên sâu: MixNet / PARSeq / LayoutLMv3.
KIE với LLM: Ứng dụng Qwen2.5-3B + kỹ thuật QLoRA để trích xuất thông tin thông minh.
Production Serving: ONNX + Triton Inference Server, vLLM serving, FastAPI dual-backend.
Optimize: Benchmark latency/throughput, Dockerized pipeline hoàn chỉnh.

Sản phẩm đầu ra của bạn không phải là những file notebook demo, mà là một hệ thống Document AI thực thụ: có Triton/vLLM serving, API chuẩn chỉnh, report benchmark và sẵn sàng đóng gói deploy.

Xem chi tiết: Phân tích nghiệp vụ

Business Analyst Document Understanding