Claude Mythos: Hiệu năng, chỉ số đánh giá và khả năng tiếp cận
Anthropic phát hành đồng thời hai mô hình ngày 9/6/2026: Claude Fable 5, phiên bản công khai với lớp bảo vệ an toàn thận trọng, và Claude Mythos 5, cùng kiến trúc nền nhưng với các lớp bảo vệ đó được dỡ bỏ cho nhóm đối tác được kiểm duyệt kỹ lưỡng. Anthropic mô tả Mythos 5 là mô hình có "năng lực an ninh mạng mạnh nhất trong bất kỳ mô hình nào trên thế giới."
Infinity News tổng hợp toàn bộ tài liệu kỹ thuật và bảng chỉ số đánh giá của Mythos 5, cho thấy đây là bước tiến thực chất so với tầm Opus, không chỉ là cải thiện biên.
Tóm tắt các điểm chính
- Lập trình tác nhân tự chủ: Mythos 5 đạt 80,3% trên SWE-bench Pro, dẫn trước Opus 4.8 (69,2%), GPT-5.5 (58,6%) và Gemini 3.1 Pro (54,2%).
- An ninh mạng: Khoảng cách 38 điểm so với Opus 4.8 trên ExploitBench (78,0% so với 40,0%) giải thích tại sao lớp bảo vệ an ninh mạng tồn tại ở Fable 5.
- Thiết kế thuốc: Nhóm thiết kế protein nội bộ của Anthropic dùng Mythos 5 để tăng tốc thiết kế thuốc khoảng 10 lần, tạo ra 9 ứng viên thuốc tiềm năng từ 14 mục tiêu protein.
- Giá: 10 USD/50 USD mỗi triệu token đầu vào/đầu ra, thấp hơn gần 60% so với Mythos Preview (25 USD/125 USD).
- Tiếp cận: Hiện giới hạn trong đối tác Project Glasswing và một nhóm nhỏ nhà nghiên cứu y sinh được kiểm duyệt. Với hầu hết nhà phát triển, Fable 5 là lựa chọn thực tế hiện nay.
Claude Mythos 5 là gì và nó khác Fable 5 ở điểm nào?
Claude Mythos 5 và Fable 5 dùng cùng kiến trúc nền. Sự khác biệt duy nhất là lớp phân loại an toàn: Fable 5 chuyển hướng các truy vấn an ninh mạng và sinh học nhạy cảm sang Opus 4.8, còn Mythos 5 dỡ bỏ các lớp phân loại đó cho đối tác được kiểm duyệt.
Mythos 5 là mô hình thứ hai trong tầm Mythos của Anthropic, đứng trên tầm Opus trong hệ thống phân cấp mô hình. Mô hình Mythos đầu tiên, Claude Mythos Preview, phát hành tháng 4/2026 qua Project Glasswing, chương trình hợp tác với Chính phủ Mỹ tập trung vào an ninh mạng. Mythos 5 là bản nâng cấp trực tiếp từ Mythos Preview.
Anthropic nói rõ: sự khác biệt tên gọi phản ánh sự khác biệt lớp bảo vệ, không phải sự khác biệt năng lực. Trên hầu hết các chỉ số đánh giá, Mythos 5 và Fable 5 cách nhau 1 đến 3 điểm phần trăm. Khoảng cách lớn hơn chỉ xuất hiện ở các chỉ số đánh giá an ninh mạng và sinh học, nơi lớp phân loại của Fable 5 kéo điểm về gần tầm Opus 4.8.
Mythos 5 có những năng lực mới nào so với Mythos Preview?
Mythos 5 cải thiện so với Mythos Preview trên mọi lĩnh vực năng lực chính, với mức tăng rõ rệt nhất ở lập trình tự chủ dài hạn, suy luận khoa học và tác vụ thị giác.
Lập trình tự chủ quy mô lớn
Mythos 5 có thể làm việc tự chủ trên các cơ sở mã nguồn lớn lâu hơn bất kỳ mô hình Claude nào trước đây. Stripe báo cáo mô hình rút ngắn nhiều tháng công việc kỹ thuật xuống còn vài ngày, hoàn thành quá trình di chuyển toàn bộ cơ sở mã nguồn Ruby 50 triệu dòng trong một ngày. Trên FrontierCode (Diamond), chỉ số đo chất lượng và khả năng bảo trì mã tác nhân tự chủ thay vì chỉ hoàn thành tác vụ thô, Mythos 5 đạt 29,3% ở mức nỗ lực cao nhất, so với 13,4% của Opus 4.8 và 5,7% của GPT-5.5.
Với công việc an ninh, Mythos 5 mở rộng các năng lực đã giúp Mythos Preview có giá trị cho đối tác Project Glasswing. Các đối tác đó đã dùng Mythos Preview để xác định hơn 10.000 lỗ hổng bảo mật nghiêm trọng và cực kỳ nghiêm trọng trong các hệ thống đang vận hành.
Thiết kế thuốc và kỹ thuật protein
Nhóm thiết kế protein nội bộ của Anthropic dùng Mythos 5 để tăng tốc thiết kế thuốc khoảng 10 lần. Trong so sánh có kiểm soát, Mythos 5 sánh ngang hoặc vượt người vận hành lành nghề trên 14 mục tiêu protein cho toàn bộ quy trình: chọn vị trí gắn kết, lựa chọn công cụ và phục hồi sau thất bại. Chín trong số đó tạo ra ứng viên thiết kế thuốc tiềm năng đang được tiếp tục nghiên cứu.

Tạo ra giả thuyết khoa học mới
Mythos 5 là mô hình đầu tiên của Anthropic liên tục tạo ra các giả thuyết khoa học thực sự mới thay vì chỉ tóm tắt tài liệu hiện có. Trong các so sánh mù, các nhà khoa học của Anthropic ưu tiên các giả thuyết sinh học phân tử của mô hình khoảng 80% trường hợp. Một giả thuyết về cơ chế protein E. coli mới đã được một phòng thí nghiệm đang nghiên cứu cùng vấn đề xác nhận độc lập.
Nghiên cứu hệ gene tự chủ
Mythos 5 thực hiện nghiên cứu hệ gene mới trong hơn một tuần làm việc phần lớn tự chủ: thu thập dữ liệu tế bào đơn cho hàng triệu tế bào từ 138 loài động vật và huấn luyện mô hình học máy tùy chỉnh để xác định các loại tế bào tương đương giữa các sinh vật có quan hệ xa. Mô hình được huấn luyện vượt qua một mô hình được công bố trên tạp chí Science dù nhỏ hơn 100 lần.
Thị giác và ngữ cảnh dài
Mythos 5 đạt 93,2% trên CharXiv Reasoning khi có công cụ hỗ trợ và có thể trích xuất số liệu chính xác từ các hình khoa học chi tiết hoặc xây dựng lại ứng dụng web chỉ từ ảnh chụp màn hình. Với bộ nhớ dựa trên tệp trong các tác vụ ngữ cảnh dài, hiệu năng của Mythos 5 cải thiện gấp 3 lần so với cùng thiết lập cho Opus 4.8.
Claude Mythos 5 đạt kết quả thế nào trên các chỉ số đánh giá chính?
Mythos 5 dẫn đầu hoặc ngang bằng trên hầu hết mọi chỉ số đánh giá Anthropic kiểm thử, với khoảng cách so với Opus 4.8 nhất quán trên nhiều danh mục thay vì tập trung ở một lĩnh vực.
| Danh mục | Chỉ số đánh giá | Mythos 5 | Mythos Preview | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| Lập trình tác nhân | SWE-bench Pro | 80,3% | 77,8% | 69,2% | 58,6% | 54,2% |
| Lập trình tác nhân | FrontierCode (Diamond) | 29,3% | — | 13,4% | 5,7% | — |
| Lập trình tác nhân | Terminal-Bench 2.1 | 88,0%* | — | 82,7% | 83,4% | 70,7% |
| Tác vụ tri thức | GDPval-AA | 1.932 | — | 1.890 | 1.769 | 1.314 |
| Tác vụ tri thức (thị giác) | GDPpdf | 29,8% | — | 22,5% | 24,9% | 16,7% |
| Suy luận đa lĩnh vực | Humanity's Last Exam (có công cụ) | 64,5%* | 64,7% | 57,9% | 52,2% | 51,4% |
| Suy luận đa lĩnh vực | Humanity's Last Exam (không có công cụ) | 59,0%* | 56,8% | 49,8% | 41,4% | 44,4% |
| Sử dụng máy tính | OSWorld-Verified | 85,0% | 85,4% | 83,4% | 78,7% | 76,2% |
| Suy luận không gian | Blueprint-Bench 2 | 38,6% | — | 14,5% | 36,2% | 26,5% |
| An ninh mạng | ExploitBench | 78,0%* | 69,0% | 40,0% | 34,0% | — |
| Sinh học | BioMysteryBench (khó) | 46,1%* | 29,6% | 40,0% | — | — |
| Y tế | HealthBench Professional | 66,0%* | 64,7% | 56,9% | 51,8% | — |
| Pháp lý | Legal Agent Benchmark | 13,3% | — | 10,4% | 2,1% | 0,0% |
Các chỉ số có dấu (*) là điểm Mythos 5 và Fable 5 cách nhau đáng kể vì lớp phân loại an toàn của Fable 5 chuyển hướng truy vấn nhạy cảm sang Opus 4.8.
Lập trình tác nhân tự chủ
Khoảng cách 11,1 điểm trên SWE-bench Pro so với Opus 4.8 là đáng kể với chỉ số được thiết kế để chống rò rỉ dữ liệu đáp án. Trên FrontierCode (Diamond), mức độ tách biệt còn rõ hơn: 29,3% so với 13,4% của Opus 4.8 và 5,7% của GPT-5.5. Trên Terminal-Bench 2.1, Mythos 5 lấy lại vị trí dẫn đầu từ OpenAI với 88,0% so với 83,4% của GPT-5.5 (Codex CLI).

An ninh mạng và sinh học
Khoảng cách 38 điểm so với Opus 4.8 trên ExploitBench là khoảng cách đơn lẻ lớn nhất trong toàn bộ bảng so sánh. Đây cũng là lý do trực tiếp giải thích tại sao lớp bảo vệ an ninh mạng tồn tại ở Fable 5. Nhóm kiểm tra đối nghịch bên ngoài của Anthropic không tìm thấy cách phá vỡ lớp bảo vệ toàn diện trên các tác vụ tác nhân tự chủ dài hạn, dù AISI của Anh đã đạt tiến bộ nhất định trong giai đoạn kiểm tra ban đầu.
Suy luận không gian
Đây là một kết quả đáng chú ý: Blueprint-Bench 2 đạt 38,6%, hơn gấp đôi Opus 4.8 ở mức 14,5%. GPT-5.5 gần hơn với 36,2%, nhưng Mythos 5 vẫn dẫn trước.
Y tế và pháp lý
Trên HealthBench Professional, Mythos 5 đạt 66,0%* so với 56,9% của Opus 4.8 và 51,8% của GPT-5.5. Trên Legal Agent Benchmark, khoảng cách so với GPT-5.5 là rất lớn: 13,3% so với 2,1%. Điểm tuyệt đối thấp trên toàn bộ trường cho thấy suy luận pháp lý vẫn là ranh giới khó với mọi mô hình hiện nay.
Giá và điều kiện tiếp cận Claude Mythos 5 như thế nào?
Claude Mythos 5 có giá 10 USD/50 USD mỗi triệu token đầu vào/đầu ra, thấp hơn gần 60% so với Mythos Preview (25 USD/125 USD), giúp việc nâng cấp trở nên đơn giản cho đối tác Glasswing hiện tại.
Truy cập hiện giới hạn trong hai nhóm:
| Nhóm | Lớp bảo vệ được dỡ bỏ |
|---|---|
| Đối tác Project Glasswing (an ninh mạng) | Lớp bảo vệ an ninh mạng được dỡ bỏ |
| Nhà nghiên cứu y sinh được kiểm duyệt | Lớp bảo vệ sinh học và hóa học được dỡ bỏ, lớp bảo vệ an ninh mạng vẫn giữ |
Anthropic có kế hoạch mở rộng cả hai chương trình, với chương trình tiếp cận tin cậy rộng hơn cho các tổ chức an ninh mạng đăng ký có hệ thống hơn, phối hợp với Chính phủ Mỹ. Chưa có mốc thời gian cho việc mở rộng phạm vi tiếp cận.
Nhà phát triển có thể truy cập qua giao diện lập trình ứng dụng Claude với mã định danh mô hình claude-mythos-5. Với hầu hết nhà phát triển, Fable 5 là lựa chọn thực tế hiện nay với cùng kiến trúc nền.
Một lưu ý vận hành quan trọng: Anthropic áp dụng chính sách lưu giữ dữ liệu 30 ngày cho toàn bộ lưu lượng mô hình tầm Mythos. Dữ liệu không được dùng để huấn luyện và bị xóa sau 30 ngày trong hầu hết trường hợp, nhưng được giữ lại cho mục đích giám sát an toàn. Tổ chức xử lý dữ liệu nhạy cảm hoặc được quản lý cần xem xét chính sách này trước khi triển khai.
Kết luận
Claude Mythos 5 là tuyên bố rõ ràng nhất của Anthropic rằng công ty nghiêm túc triển khai trí tuệ nhân tạo tiên tiến trong các bối cảnh chuyên nghiệp rủi ro cao, và các con số chỉ số đánh giá ủng hộ điều đó.
Infinity News nhận thấy toàn bộ dữ liệu chỉ về một kết luận: khoảng cách trên SWE-bench Pro (80,3% so với 69,2%), Terminal-Bench 2.1 (88,0% so với 82,7%) và ExploitBench (78,0% so với 40,0%) đều chỉ ra một mô hình xử lý các tác vụ khó nhất đáng tin cậy hơn bất kỳ thứ gì hiện có. Mô hình tiếp cận hạn chế là cách tiếp cận hợp lý trước rủi ro lưỡng dụng, và điểm ExploitBench tạo ra lập luận thuyết phục rằng các công cụ tấn công an ninh mạng mạnh nhất không nên được công khai rộng rãi. Câu hỏi khó hơn là liệu Anthropic có thể mở rộng chương trình tiếp cận tin cậy đủ nhanh để hữu ích cho cộng đồng nghiên cứu an ninh và y sinh rộng hơn trước khi các đối thủ thu hẹp khoảng cách.
All rights reserved