@Naem template matching trước anh cũng apply vào project nhưng kết quả cho rất tệ(đối với form của bọn anh) nên thực tế anh đã không sử dụng template matching nữa (yaoming). Phần detect cắt cells thì cứ xử lý theo hướng đó đi, tập trung optimize phần detect này lên product thoải mái mà (anh làm thế, anh không dùng CV thuần đâu, DL đấy).
@QuangPH khó mà a, e làm cho cty khác kp Sun* ạ, bọn e đang làm phần này đang đi theo hướng đó nhưng gặp khó khăn nên e hỏi chút ạ
Với cái tọa độ tương quan thì e nghĩ là oke, chắc chắn phải apply rồi nhưng h bọn e có khoảng 1000 format thì phần template matching cx khó phết, cả phần detect cắt cells e đang hướng thêm đến làm 1 con DNN nữa. Cái này khó vì lúc chạy thực trên product thì phần cells này nó ko chuẩn ảnh hưởng đến kết quả cuối cùng khá nhiều. E đang khá confuse với bài này.
@Naem Ừ theo lý thuyết thì nếu cắt được các cells table ra trước rồi mới cho qua model thì kết quả sẽ tốt hơn nhưng anh cũng gặp vấn đề là sử dụng OpenCV không để cắt cells không đạt được độ chính xác cần thiết đặc biệt với ảnh chụp hơi nát. Anh vẫn cho cả ảnh vào để detect tất cả xong kết hợp với NLP và tọa độ tương quan giữa các box trên ảnh để extract đúng data nhưng trong task này, nếu làm tốt được phần xử lý đầu vào trước khi detect thì mới là tốt, anh cũng đang nghiên cứu giải pháp cho phần extract data này để hiệu quả hơn(cả về độ chính xác và thời gian xử lý). Có vẻ khó nhưng vui.
Với kiểu có nhiều cells kiểu table thì bên a thường giải quyết ntn ạ, có cắt cells ra để đưa vào mô hình ko hay train cả ảnh luôn, vì bọn e cần cả extract thông tin, mà có nhiều loại format (khoảng vài nghìn format) nên cái table nó cx ko cố định và có nhiều loại (bọn e đang làm kiểu cắt cells của table để đưa vào mô hình, dùng thuần CV thôi nhưng cắt ra ko chính xác tuyệt đối lắm) còn để cả ảnh thì lúc extract infor ra sẽ rất khó (kể cả là NLP làm cx khó)
@khanh1234 mình nghĩ bạn nên show code ra xem đang lỗi ở đoạn nào, framework hay ngôn ngữ đang dùng là gì, cần yêu cầu đầu ra thế nào để mọi người dễ support hơn
Bạn cho mình hỏi chút, thế cứ mỗi lần muốn phân loại một văn bản mới thì lại vector hóa nó phải k?Làm như các bước vector hóa văn bản ở phần 1 đúng k ban?Mình cám ơn nhiều!
Mới học nên hỏi có j k phải mong bạn thông cảm!
nó còn phụ thuộc vào thẻ cha có là relative hay k nữa bạn. nếu thẻ cha là relative thì n xác định theo thẻ cha đó còn không có thẻ cha nào có thuộc tính relative thì n sẽ xác định theo thẻ body
THẢO LUẬN
Chào Long!
@QuangPH thank a, e cx đang thử kết hợp ạ.
@Naem template matching trước anh cũng apply vào project nhưng kết quả cho rất tệ(đối với form của bọn anh) nên thực tế anh đã không sử dụng template matching nữa (yaoming). Phần detect cắt cells thì cứ xử lý theo hướng đó đi, tập trung optimize phần detect này lên product thoải mái mà (anh làm thế, anh không dùng CV thuần đâu, DL đấy).
@QuangPH khó mà a, e làm cho cty khác kp Sun* ạ, bọn e đang làm phần này đang đi theo hướng đó nhưng gặp khó khăn nên e hỏi chút ạ
Với cái tọa độ tương quan thì e nghĩ là oke, chắc chắn phải apply rồi nhưng h bọn e có khoảng 1000 format thì phần template matching cx khó phết, cả phần detect cắt cells e đang hướng thêm đến làm 1 con DNN nữa. Cái này khó vì lúc chạy thực trên product thì phần cells này nó ko chuẩn ảnh hưởng đến kết quả cuối cùng khá nhiều. E đang khá confuse với bài này.
@Naem Ừ theo lý thuyết thì nếu cắt được các cells table ra trước rồi mới cho qua model thì kết quả sẽ tốt hơn nhưng anh cũng gặp vấn đề là sử dụng OpenCV không để cắt cells không đạt được độ chính xác cần thiết đặc biệt với ảnh chụp hơi nát. Anh vẫn cho cả ảnh vào để detect tất cả xong kết hợp với NLP và tọa độ tương quan giữa các box trên ảnh để extract đúng data nhưng trong task này, nếu làm tốt được phần xử lý đầu vào trước khi detect thì mới là tốt, anh cũng đang nghiên cứu giải pháp cho phần extract data này để hiệu quả hơn(cả về độ chính xác và thời gian xử lý). Có vẻ khó nhưng vui.
Mà bên em là bên nào nhỉ?
@khanh1234 Viblo có nút approved câu trả lời đó. Bạn tích vào nút đó để mọi người biết vấn đề đã được giải quyết nhé.
tks anh,em làm được rồi ạ
Với kiểu có nhiều cells kiểu table thì bên a thường giải quyết ntn ạ, có cắt cells ra để đưa vào mô hình ko hay train cả ảnh luôn, vì bọn e cần cả extract thông tin, mà có nhiều loại format (khoảng vài nghìn format) nên cái table nó cx ko cố định và có nhiều loại (bọn e đang làm kiểu cắt cells của table để đưa vào mô hình, dùng thuần CV thôi nhưng cắt ra ko chính xác tuyệt đối lắm) còn để cả ảnh thì lúc extract infor ra sẽ rất khó (kể cả là NLP làm cx khó)
cách này dễ hiểu này
@khanh1234 như trong bài này thì họ dùng $request->merge để truyền biến vào, bạn dùng thử xem sao
@khanh1234 mình nghĩ bạn nên show code ra xem đang lỗi ở đoạn nào, framework hay ngôn ngữ đang dùng là gì, cần yêu cầu đầu ra thế nào để mọi người dễ support hơn
Vâng ạ, em cảm ơn anh
{$available} biến này thì mk khai báo như nào ạ,vd số tiền của em trong ví trường dữ liệu là money
Bài viết rất chi tiết, cảm ơn bạn!
tại vì số tiền trong ví hay thay đổi bạn ạ,
Cho em cái balo nếu anh được giải nhé
cảm ơn bạn nhé !! m ko ngờ là có người đọc
))
hay phết
Bạn cho mình hỏi chút, thế cứ mỗi lần muốn phân loại một văn bản mới thì lại vector hóa nó phải k?Làm như các bước vector hóa văn bản ở phần 1 đúng k ban?Mình cám ơn nhiều! Mới học nên hỏi có j k phải mong bạn thông cảm!
nó còn phụ thuộc vào thẻ cha có là
relativehay k nữa bạn. nếu thẻ cha làrelativethì n xác định theo thẻ cha đó còn không có thẻ cha nào có thuộc tínhrelativethì n sẽ xác định theo thẻ body