Đánh giá chất lượng OCR MinerU
Chức năng OCR & Phân tích tài liệu của MinerU
- Phát hiện và xử lý OCR tự động cho các PDF bị scan hoặc văn bản không thể sao chép; hỗ trợ 84 ngôn ngữ khác nhau trong nhận diện văn bản [GitHub] https://github.com/opendatalab/MinerUopendatalab.github.io高效码农 .
- Phát hiện và loại bỏ các yếu tố không cần thiết như tiêu đề, chân trang, chú thích chân trang, số trang – giúp nội dung rõ ràng hơn
- Giữ cấu trúc tài liệu nguyên bản: bao gồm tiêu đề, đoạn văn, danh sách, thứ tự đọc, đa cột, layout phức tạp
- Nhận diện và trích xuất các thành phần đặc biệt:
- Biểu thức toán học: tự động chuyển đổi sang LaTeX.
- Bảng biểu: trích xuất thành HTML hoặc định dạng tương ứng.
- Hình ảnh và chú thích: được giữ lại và xử lý phù hợp
- Xác định PDF dạng scan hoặc lỗi mã hóa (garbled) để chọn xử lý phù hợp (OCR hoặc trích xuất văn bản trực tiếp) ar5iv.
- Chuyển đổi đầu ra đa dạng: hỗ trợ xuất kết quả dưới dạng Markdown (kể cả markdown đa phương tiện/NLP), JSON theo thứ tự đọc và các định dạng trung gian giàu thông tin
- Tăng tốc phần cứng: hoạt động trên CPU và hỗ trợ tăng tốc GPU (CUDA), NPU (CANN), MPS trên macOS
- Hỗ trợ đa nền tảng: tương thích Windows, Linux và macOS
| Điều khoản | Chi tiết |
|---|---|
| Chi phí sử dụng | Hoàn toàn miễn phí trong giai đoạn beta, không bắt buộc trả tiền hoặc tạo tài khoản. |
| Giới hạn sử dụng | Ưu tiên xử lý 2,000 trang mỗi ngày, vượt đó sẽ giảm độ ưu tiên; chưa có quy định giới hạn về số trang hay chi phí khác. |
| Beta testing | MinerU đang trong giai đoạn thử nghiệm, có thể điều chỉnh giới hạn theo tải hệ thống. |
| Không có gói giá | Không có thông tin về gói trả phí hoặc bản trả phí—có thể là mã nguồn mở và miễn phí tại hiện tại. |
Model VLM:
Tiếng việt:

Tiếng việt bị thiếu dấu

detect ảnh với text lộn xộn, không chính xác
Tiếng Nhật:
text bị đảo vị trí

miss text

Tiếng anh:

| Adoption, entry into force & date of taking effect of Special Areas | ||||
| Special Areas | Adopted # | Date of Entry into Force | In Effect From | |
| Annex I: Oil | ||||
| Mediterranean Sea | 2 Nov 1973 | 2 Oct 1983 | 2 Oct 1983 | |
| Baltic Sea | 2 Nov 1973 | 2 Oct 1983 | 2 Oct 1983 | |
| Black Sea | 2 Nov 1973 | 2 Oct 1983 | 2 Oct 1983 | |
| Red Sea | 2 Nov 1973 | 2 Oct 1983 | * | |
| "Gulfs" area | 2 Nov 1973 | 2 Oct 1983 | 1 Aug 2008 | |
| Gulf of Aden | 1 Dec 1987 | 1 Apr 1989 | * | |
| Antarctic area | 16 Nov 1990 | 17 Mar 1992 | 17 Mar 1992 | |
| North West European Waters | 25 Sept 1997 | 1 Feb 1999 | 1 Aug 1999 | |
| Oman area of the Arabian Sea | 15 Oct 2004 | 1 Jan 2007 | * | |
| Southern South African waters | 13 Oct 2006 | 1 Mar 2008 ** | 1 Aug 2008 | |
| Annex II: Noxious Liquid Substances | ||||
| Antarctic area | 30 Oct 1992 | 1 Jul 1994 | 1 Jul 1994 | |
| Annex V: Garbage | ||||
| Mediterranean Sea | 2 Nov 1973 | 31 Dec 1988 | * | |
| Baltic Sea | 2 Nov 1973 | 31 Dec 1988 | 1 Oct 1989 | |
| Black Sea | 2 Nov 1973 | 31 Dec 1988 | * | |
| Red Sea | 2 Nov 1973 | 31 Dec 1988 | * | |
| "Gulfs" area | 2 Nov 1973 | 31 Dec 1988 | 1 Aug 2008 | |
| North Sea | 17 Oct 1989 | 18 Feb 1991 | 18 Feb 1991 | |
| Antarctic area (south of latitude 60 degrees south) | 16 Nov 1990 | 17 Mar 1992 | 17 Mar 1992 | |
| Wider Caribbean region including the Gulf of Mexico and the Caribbean Sea | 4 July 1991 | 4 Apr 1993 | * | |
| Annex VI: Prevention of air pollution by ships (SOx Emission Control Areas) | ||||
| Baltic Sea | 26 Sept 1997 | 19 May 2005 | 19 May 2006 | |
| North Sea | 22 July 2005 | 22 Nov 2006 | 22 Nov 2007 | |
Xử lý dữ liệu bảng đơn giản khá tốt

| Type of garbage | Ships outside special areas | Ships within special areas |
| Food waste comminuted or ground | Discharge permitted ≥ 3 nm from the nearest land, en route and as far as practicable | Discharge permitted ≥ 12 nm from the nearest land, en route and as far as practicable |
| Food waste not comminuted or ground | Discharge permitted ≥ 12 nm from the nearest land, en route and as far as practicable | Discharge Prohibited |
| Cargo residues* not contained in wash water | Discharge permitted ≥ 12 nm from the nearest land, en route and as far as practicable | Discharge Prohibited |
| Cargo residues* contained in wash water | ||
| Cargo residues* contained in wash water | ||
| Cleaning agents and additives** contained in cargo hold wash water | Discharge permitted | Discharge permitted ≥ 12 nm from the nearest land, en route and as far as practicable and subject to two additional conditions |
| Cleaning agents and additives** in deck and external surfaces wash water | Discharge permitted | |
| All other garbage including plastics, synthetic ropes, fishing gear, plastic garbage bags, incinerator ashes, clinkers, cooking oil, floating dummage, lining and packing materials, paper, rags, glass, metal, bottles, crockery and similar refuse | Discharge Prohibited | Discharge Prohibited |
| Mixed garbage | Discharge Prohibited |

| Ship area (this should be completed for areas particularly susceptible to biofouling) | Planned management action (i.e.g., inspections, cleaning, repairs and maintenance) | Management action if ship Operates outside its usual operating profile (like Hot, Cold layup, longwaiting) |
| External hull surfaces: | ||
| Vertical sides | 1)Inspection by Ship-every 6 Months* 2)Inwater or Drydocking cleaning ** | 1)Inspection at shorter intervals, not less then 2 months 2)Inwater or drydocking cleaning ** |
| Flats | 1)Inwater or Drydocking cleaning ** | 1)Inwater or Drydocking cleaning ** |
| Boottop | 1)Inspection by Ship-every 6 Months* 2)Inwater or Drydocking cleaning | 1)Inspection at shorter intervals, not less then 3 months 2)Inwater or drydocking cleaning |
| Bow | 1)Inspection by Ship-every 6 Months 2)Cleaning by Fresh water/scrapping 3)Cleaning in drydocking | 1)Inspection at shorter intervals, not less then 3 months 2)Cleaning by Fresh water/scrapping 3)Cleaning in drydocking |
| Transom | 1)Inspection by Ship-every 6 Months 2)Cleaning by Fresh water/scrapping 3)Cleaning in drydocking | 1)Inspection at shorter intervals, not less then 3 months 2)Cleaning by Fresh water/scrapping 3)Cleaning in drydocking |
| Underwater Hull parts and fittings: | ||
| Bilge keels | 1)Cleaning Inwater(if found necessary) 2)Cleaning in drydocking | 1)Inwater Inspection when found necessary 2)Cleaning Inwater when found necessary 3)Cleaning in drydocking |
| CP anodes | 1)Inspection and replacement in Drydocking | 1)Inspection and replacement in Drydocking |
| Docking keel blocks stripes on flat bottom | Apply alternative block arrangement every docking, for treatment of stripes from previous dock | After long cold layup, apply full treatment of block stripes by shifting the blocks. |

Xử lý công thức tốt
Tiếng Đài loan:

miss text
Tiếng Hàn :

| Bai | Chù dé/Thinh huống | Kỳ núng | Ngữ pháp | Từ vùng | Phát âm | Ván hoá |
| 09 | 집 Nhà của | Moi khách và hoàng đài đường đi | (으)로 -(phương huống), -(으)근래요, 도 | Từ chi phuong huống, nhà của và đó gia dụng, nơi chốn(2) | Phát âm e | Nhà của ở Hàn Quốc |
| 10 | 가족 Gia đình | Giới thiệu gia đình, cùng cấp thông tin, nhận thông tin | Định từ số(2), 제서, -(으)시-, gián lược ㅋ | Gia đình, nghệ nghiệp(2), từ vùng liên quan đến nghệ nghiệp | Phụ âm(2) | Xung hô trong gia đình người Hàn Quốc |
| 11 | 남서 Thói tiết | Các biểu hiện thói tiết, nơi sẽ kế hoạch của mình | -고, 부터 ~까지, -(으)근 거예요, bất quy tắc của ㅂ | Mua, thói tiết, từ vùng liên quan đến thói tiết, nhiệt độ không khí | Am thanh môn(3) | Bốn mùa ở Hàn Quốc |
| 12 | 전화(1) Điện thoại(1) | Goi đến thoại, nói mục đích | 에게·한테·제, -지만, -(으)라고 하다 | Từ liên quan đến điện thoại, biểu hiện liên quan đến điện thoại, gọi điện thoại | Phụ âm(3): Am lướt | Số điện thoại thú vị |
| 13 | 영역 Sinh nhật | Chúc mừng, giải thích lý do | -아/어서, -(으)근까요, 못 | Từ vùng vế sinh nhật, từ vùng vế quả cáp | Am thanh vòm | Tiệc sinh nhật đặc biệt của người Hàn-Thói nói-(sinh nhật đấy năm) |
| 14 | 위미 Sô thích | Nói vé cái mình có thể làm được nói vé sở thích | -(으)로 수 있다 /없다, -기/--는 것, bất quy tắc của ㄷ | Món thể thao, sở thích, tấn suất, biểu hiện khả năng | Phụ âm(4): Am mũi | Thú vui của người Hàn Quốc |
| 15 | 교통(1) Giao thông(1) | Nói vé sinh hoạt hàng ngày, sử dụng các phương tiện giao thông công cộng | 에서 ~까지, (으)로 -(으)리 가다 | Phương tiện giao thông(1), phó từ nghi vấn, từ vùng liên quan đến giao thông | Am bắt hơi(2) | Phương tiện giao thông công cộng của Hàn Quốc |

| No. | 한글 | English | 예문 | Example |
| 1 | 이/가 | is [subject particle] | 이름이 뭐예요? | What is your name? |
| 날씨가 좋아요. | The weather is good. | |||
| 2 | 은/는 | is / am [topic particle] | 선생님은 지금 안 계세요. | The teacher is not here now. |
| 저는 미국사람이에요. | I am an American. | |||
| 3 | 을/를 | [object particle] | 책을 있어요. | I am reading a book. |
| 택시를 불러 주세요. | Please, call a taxi. | |||
| 4 | 와/과 | and | 토미 씨와 친구예요. | Tommy and I are friends. |
| 소설책과 교과서를 가져왔어요. | I brought a novel and a textbook. | |||
| 5 | (이)랑 | and | 설렁탕이랑 김밥 주세요. | Please, give me seoulleongtang and kimbap. |
| 6 | (이)랑 | with | 친구랑 같이 왔어요. | I came with a friend. |
| 7 | 하고 | and | 양념 치킨하고 맥주 주세요. | Please, give me yangnyeom chicken and beer. |
| 8 | 도 | also / as well | 내일도 오늘도 비가 와요. | It is raining also today and tomorrow. |
| 9 | 에 | to | 남대문 지정에 가고 싶어요. | I want to go to Namaaemun market. |
| 10 | 에서 | from | 공항에서 지하철 타고 왔어요. | I came by subway from the airport. |
| 11 | 까지 | until | 강남까지 가고 싶어요. | I want to go until Gangnam. |
| 12 | 부터 | from | 지하철은 아침 5시부터 운영해요. | The subway operates from 5 am in the morning. |
| 13 | (으)로 | to | 저는 학교로 가는 길이에요. | I am on my way to school. |
| 저는 부산으로 가요. | I am going to Busan. |
Tiếng Thái :


| English | Thai | English | Thai |
| Essentials | Conversation | ||
| 39 - Happy New Year! | - ฤชชั่นนิโขะพันธ์ [ Suk San Wan Pimai Kha ] | 47 - Hello. How are you? | - ฤชชั่นนิโขะพันธ์ [ Sawatdi Kha , Sabai Di Mai Kha ] |
| 40 - Happy New Year! | - ฤชชั่นนิโขะพันธ์ [ Sut San Wan Pimai Khrap ] | 48 - Hello. How are you? | - ฤชชั่นนิโขะพันธ์ [ Sawatdi Khrap , Sabai Di Mai Khrap ] |
| 41 - Happy birthday! | - ฤชชั่นนิโขะพันธ์ [ Suk San Wan Koet Kha ] | 49 - Hello. I'm fine, thank you | - ฤชชั่นนิโขะพันธ์ [ Sawatdi Khrap , Phom Sabai Di Khrap ] |
| 42 - Happy birthday! | - ฤชชั่นนิโขะพันธ์ [ Suk San Wan Koet Khrap ] | 50 - Hello. I'm fine, thank you | - ฤชชั่นนิโขะพันธ์ [ Sawatdi Kha, Dichan Sabai Di Kha ] |
| 43 - Happy holiday! | - ขยไหชญานุกะ [ Kho Hai Sanuk na Kha ] | 51 - Do you speak Thai? | - ฤชชชุกะพันธ์ [ Khun Phut Phasa Thai Mai Kha ] |
| 44 - Happy holiday! | - ขยไหชญะพันธ์ [ Kho Hai Sanuk na Khrap ] | 52 - No, I don't speak Thai | - ขยไหชุกะพันธ์ [ Mai Khrap, Phom Mai Phut Phasa Thai ] |
| 45 - Congratulations! | - ขานศิษย์ขานะ [ Yindi Dual na Kha ] | 53 - No, I don't speak Thai | - ขานศิษย์ขานะ [ Mai Kha, Dichan Mai Phut Phasa Thai ] |
| 46 - Congratulations! | - ขานศิษย์ขานะ [ Yindi Dual na Khrap ] | 54 - Only a little bit | - ขานศิษย์ขานะ [ Nitnoi Korpor Khrap ] |
| 55 - Only a little bit | - ขานศิษย์ขานะ [ Nitnoi Korpor Kha ] | 56 - Which country are you from? | - ขานศิษย์ขานะ [ Khun Ma Chak Prathet Nai Kha ] |
Tiếng Trung :

| 张东 | 离起飞还早呢! Lí qǐfēi hái zāo ne! | Còn lâu nữa máy bay mới cắt cánh. |
| 玛丽 | 我们去候机室坐一会儿。 Wǒmen qù hòu jī shì zuò yīhuīfèr. | Chúng mình đến phòng chờ ngồi nghỉ chút đi. |
| 小兰 | 张丽英还没来。 Zhāngliyīng hái méi lái | Trương Lệ Anh vẫn chưa đến. |
| 张东 | 你看!她跑来了。嘿,在这儿呢。 Nǐ kàn! Tā pǎo láile. Hēi, zài zhèr ne. | Nhin kia, cậu ấy đến rồi. Hey, chúng mình ở đây. |
| 张丽英 | 车太挤,耽误了时间。我来晚了。 Chē tài jǐ, dānwùle shíjiān. Wǒ lái wǎnle. | Xe đông quá, thật mắt thời gian, mình đến muộn. |
| 张东 | 不晚,你来的正合适。 Bù wǎn, nǐ lái de zhèng héshì. | Không muộn, cậu đến đúng lúc mà! |
| 小兰 | 走吧!哎呀,你跑得都出汗了。 Zǒu ba! āiyā, nǐ pǎo de dōu chī hànle | Đi thôi! Ói, cậu chạy đến nỗi toát hét mỏ hôi rồi này. |
| 玛丽 | 快坐下。喝点儿冷饮吧! Kuài zuò xià. Hē diǎnr lěngyǐn ba! | Ngòi xuống đầy. Uổng chút nước mát nhé! |
| 张东 | 你没把护照放在箱子里吧。 Nǐ méi bǎ hùzhào fàng zài xiāngzi lǐ ba. | Cậu không dễ hộ chiếu trong vali đây chứ? |
| 玛丽 | 我随身带着呢。 Wǒ suíshēn dài zhe ne. | Mình lúc nào cũng mang bên người đây. |
Kết luận
- Xác định nhầm giữa “text” và “ảnh”: Có trường hợp hệ thống nhầm hình ảnh thành văn bản (và ngược lại), dẫn đến lỗi nhận diện cấu trúc tài liệu.
- Nhận diện không chính xác ở một số ngôn ngữ:
- Tiếng Thái: Kết quả không tốt, nhiều lỗi ký tự và không đúng ngữ nghĩa.
- Tiếng Việt: Có hiện tượng thiếu dấu, một số chữ bị sai.
- Tiếng Nhật: Text bị đảo vị trí, có phần bị bỏ sót.
- Bảng biểu: Trong một số trường hợp, bảng bị nhận diện nhầm thành hình ảnh .
- Tái cấu trúc:form , công thức, bảng biểu phức tạp tương đối tốt
All rights reserved