1.8K 31 49

Đã đăng vào thg 6 11, 6:17 CH

trong

13 phút đọc

Claude Mythos: Hiệu năng, chỉ số đánh giá và khả năng tiếp cận

Anthropic phát hành đồng thời hai mô hình ngày 9/6/2026: Claude Fable 5, phiên bản công khai với lớp bảo vệ an toàn thận trọng, và Claude Mythos 5, cùng kiến trúc nền nhưng với các lớp bảo vệ đó được dỡ bỏ cho nhóm đối tác được kiểm duyệt kỹ lưỡng. Anthropic mô tả Mythos 5 là mô hình có "năng lực an ninh mạng mạnh nhất trong bất kỳ mô hình nào trên thế giới."

Infinity News tổng hợp toàn bộ tài liệu kỹ thuật và bảng chỉ số đánh giá của Mythos 5, cho thấy đây là bước tiến thực chất so với dòng Opus, không chỉ là cải thiện biên.

Tóm tắt các điểm chính

Lập trình tác nhân tự chủ: Mythos 5 đạt 80,3% trên SWE-bench Pro, dẫn trước Opus 4.8 (69,2%), GPT-5.5 (58,6%) và Gemini 3.1 Pro (54,2%).
An ninh mạng: Khoảng cách 38 điểm so với Opus 4.8 trên ExploitBench (78,0% so với 40,0%) giải thích tại sao lớp bảo vệ an ninh mạng tồn tại ở Fable 5.
Thiết kế thuốc: Nhóm thiết kế protein nội bộ của Anthropic dùng Mythos 5 để tăng tốc thiết kế thuốc khoảng 10 lần, tạo ra 9 ứng viên thuốc tiềm năng từ 14 mục tiêu protein.
Giá: 10 USD/50 USD mỗi triệu token đầu vào/đầu ra, thấp hơn gần 60% so với Mythos Preview (25 USD/125 USD).
Tiếp cận: Hiện giới hạn trong đối tác Project Glasswing và một nhóm nhỏ nhà nghiên cứu y sinh được kiểm duyệt. Với hầu hết nhà phát triển, Fable 5 là lựa chọn thực tế hiện nay.

Claude Mythos 5 là gì và nó khác Fable 5 ở điểm nào?

Claude Mythos 5 và Fable 5 dùng cùng kiến trúc nền. Sự khác biệt duy nhất là lớp phân loại an toàn: Fable 5 chuyển hướng các truy vấn an ninh mạng và sinh học nhạy cảm sang Opus 4.8, còn Mythos 5 dỡ bỏ các lớp phân loại đó cho đối tác được kiểm duyệt.

Mythos 5 là mô hình thứ hai trong dòng Mythos của Anthropic, đứng trên dòng Opus trong hệ thống phân cấp mô hình. Mô hình Mythos đầu tiên, Claude Mythos Preview, phát hành tháng 4/2026 qua Project Glasswing, chương trình hợp tác với Chính phủ Mỹ tập trung vào an ninh mạng. Mythos 5 là bản nâng cấp trực tiếp từ Mythos Preview.

Anthropic nói rõ: sự khác biệt tên gọi phản ánh sự khác biệt lớp bảo vệ, không phải sự khác biệt năng lực. Trên hầu hết các chỉ số đánh giá, Mythos 5 và Fable 5 cách nhau 1 đến 3 điểm phần trăm. Khoảng cách lớn hơn chỉ xuất hiện ở các chỉ số đánh giá an ninh mạng và sinh học, nơi lớp phân loại của Fable 5 kéo điểm về gần mức của Opus 4.8.

Mythos 5 có những năng lực mới nào so với Mythos Preview?

Mythos 5 cải thiện so với Mythos Preview trên mọi lĩnh vực năng lực chính, với mức tăng rõ rệt nhất ở lập trình tự chủ dài hạn, suy luận khoa học và tác vụ thị giác.

Lập trình tự chủ quy mô lớn

Mythos 5 có thể làm việc tự chủ trên các cơ sở mã nguồn lớn lâu hơn bất kỳ mô hình Claude nào trước đây. Stripe báo cáo mô hình rút ngắn nhiều tháng công việc kỹ thuật xuống còn vài ngày, hoàn thành quá trình di chuyển toàn bộ cơ sở mã nguồn Ruby 50 triệu dòng trong một ngày. Trên FrontierCode (Diamond), chỉ số đo chất lượng và khả năng bảo trì mã tác nhân tự chủ thay vì chỉ hoàn thành tác vụ thô, Mythos 5 đạt 29,3% ở mức nỗ lực cao nhất, so với 13,4% của Opus 4.8 và 5,7% của GPT-5.5.

Với công việc an ninh, Mythos 5 mở rộng các năng lực đã giúp Mythos Preview có giá trị cho đối tác Project Glasswing. Các đối tác đó đã dùng Mythos Preview để xác định hơn 10.000 lỗ hổng bảo mật nghiêm trọng và cực kỳ nghiêm trọng trong các hệ thống đang vận hành.

Thiết kế thuốc và kỹ thuật protein

Nhóm thiết kế protein nội bộ của Anthropic dùng Mythos 5 để tăng tốc thiết kế thuốc khoảng 10 lần. Trong so sánh có kiểm soát, Mythos 5 sánh ngang hoặc vượt người vận hành lành nghề trên 14 mục tiêu protein cho toàn bộ quy trình: chọn vị trí gắn kết, lựa chọn công cụ và phục hồi sau thất bại. Chín trong số đó tạo ra ứng viên thiết kế thuốc tiềm năng đang được tiếp tục nghiên cứu.

Các phức hợp protein được thiết kế bởi Mythos 5. Các mục tiêu bao gồm các điểm kiểm soát miễn dịch, tín hiệu yếu tố tăng trưởng và thụ thể, thoái hóa thần kinh, bệnh cơ và các mục tiêu cấu trúc khó hơn.

Tạo ra giả thuyết khoa học mới

Mythos 5 là mô hình đầu tiên của Anthropic liên tục tạo ra các giả thuyết khoa học thực sự mới thay vì chỉ tóm tắt tài liệu hiện có. Trong các so sánh mù, các nhà khoa học của Anthropic ưu tiên các giả thuyết sinh học phân tử của mô hình khoảng 80% trường hợp. Một giả thuyết về cơ chế protein E. coli mới đã được một phòng thí nghiệm đang nghiên cứu cùng vấn đề xác nhận độc lập.

Nghiên cứu hệ gene tự chủ

Mythos 5 thực hiện nghiên cứu hệ gene mới trong hơn một tuần làm việc phần lớn tự chủ: thu thập dữ liệu tế bào đơn cho hàng triệu tế bào từ 138 loài động vật và huấn luyện mô hình học máy tùy chỉnh để xác định các loại tế bào tương đương giữa các sinh vật có quan hệ xa. Mô hình được huấn luyện vượt qua một mô hình được công bố trên tạp chí Science dù nhỏ hơn 100 lần.

Thị giác và ngữ cảnh dài

Mythos 5 đạt 93,2% trên CharXiv Reasoning khi có công cụ hỗ trợ và có thể trích xuất số liệu chính xác từ các hình khoa học chi tiết hoặc xây dựng lại ứng dụng web chỉ từ ảnh chụp màn hình. Với bộ nhớ dựa trên tệp trong các tác vụ ngữ cảnh dài, hiệu năng của Mythos 5 cải thiện gấp 3 lần so với cùng thiết lập cho Opus 4.8.

Claude Mythos 5 đạt kết quả thế nào trên các chỉ số đánh giá chính?

Mythos 5 dẫn đầu hoặc ngang bằng trên hầu hết mọi chỉ số đánh giá Anthropic kiểm thử, với khoảng cách so với Opus 4.8 nhất quán trên nhiều danh mục thay vì tập trung ở một lĩnh vực.

Danh mục	Chỉ số đánh giá	Mythos 5	Mythos Preview	Opus 4.8	GPT-5.5	Gemini 3.1 Pro
Lập trình tác nhân	SWE-bench Pro	80,3%	77,8%	69,2%	58,6%	54,2%
Lập trình tác nhân	FrontierCode (Diamond)	29,3%	—	13,4%	5,7%	—
Lập trình tác nhân	Terminal-Bench 2.1	88,0%*	—	82,7%	83,4%	70,7%
Tác vụ tri thức	GDPval-AA	1.932	—	1.890	1.769	1.314
Tác vụ tri thức (thị giác)	GDPpdf	29,8%	—	22,5%	24,9%	16,7%
Suy luận đa lĩnh vực	Humanity's Last Exam (có công cụ)	64,5%*	64,7%	57,9%	52,2%	51,4%
Suy luận đa lĩnh vực	Humanity's Last Exam (không có công cụ)	59,0%*	56,8%	49,8%	41,4%	44,4%
Sử dụng máy tính	OSWorld-Verified	85,0%	85,4%	83,4%	78,7%	76,2%
Suy luận không gian	Blueprint-Bench 2	38,6%	—	14,5%	36,2%	26,5%
An ninh mạng	ExploitBench	78,0%*	69,0%	40,0%	34,0%	—
Sinh học	BioMysteryBench (khó)	46,1%*	29,6%	40,0%	—	—
Y tế	HealthBench Professional	66,0%*	64,7%	56,9%	51,8%	—
Pháp lý	Legal Agent Benchmark	13,3%	—	10,4%	2,1%	0,0%

Các chỉ số có dấu (*) là điểm Mythos 5 và Fable 5 cách nhau đáng kể vì lớp phân loại an toàn của Fable 5 chuyển hướng truy vấn nhạy cảm sang Opus 4.8.

Lập trình tác nhân tự chủ

Khoảng cách 11,1 điểm trên SWE-bench Pro so với Opus 4.8 là đáng kể với chỉ số được thiết kế để chống rò rỉ dữ liệu đáp án. Trên FrontierCode (Diamond), mức độ tách biệt còn rõ hơn: 29,3% so với 13,4% của Opus 4.8 và 5,7% của GPT-5.5. Trên Terminal-Bench 2.1, Mythos 5 lấy lại vị trí dẫn đầu từ OpenAI với 88,0% so với 83,4% của GPT-5.5 (Codex CLI).

coding benchmark comparison

An ninh mạng và sinh học

Khoảng cách 38 điểm so với Opus 4.8 trên ExploitBench là khoảng cách đơn lẻ lớn nhất trong toàn bộ bảng so sánh. Đây cũng là lý do trực tiếp giải thích tại sao lớp bảo vệ an ninh mạng tồn tại ở Fable 5. Nhóm kiểm tra đối nghịch bên ngoài của Anthropic không tìm thấy cách phá vỡ lớp bảo vệ toàn diện trên các tác vụ tác nhân tự chủ dài hạn, dù AISI của Anh đã đạt tiến bộ nhất định trong giai đoạn kiểm tra ban đầu.

Suy luận không gian

Đây là một kết quả đáng chú ý: Blueprint-Bench 2 đạt 38,6%, hơn gấp đôi Opus 4.8 ở mức 14,5%. GPT-5.5 gần hơn với 36,2%, nhưng Mythos 5 vẫn dẫn trước.

Y tế và pháp lý

Trên HealthBench Professional, Mythos 5 đạt 66,0%* so với 56,9% của Opus 4.8 và 51,8% của GPT-5.5. Trên Legal Agent Benchmark, khoảng cách so với GPT-5.5 là rất lớn: 13,3% so với 2,1%. Điểm tuyệt đối thấp trên toàn bộ trường cho thấy suy luận pháp lý vẫn là ranh giới khó với mọi mô hình hiện nay.

Giá và điều kiện tiếp cận Claude Mythos 5 như thế nào?

Claude Mythos 5 có giá 10 USD/50 USD mỗi triệu token đầu vào/đầu ra, thấp hơn gần 60% so với Mythos Preview (25 USD/125 USD), giúp việc nâng cấp trở nên đơn giản cho đối tác Glasswing hiện tại.

Truy cập hiện giới hạn trong hai nhóm:

Nhóm	Lớp bảo vệ được dỡ bỏ
Đối tác Project Glasswing (an ninh mạng)	Lớp bảo vệ an ninh mạng được dỡ bỏ
Nhà nghiên cứu y sinh được kiểm duyệt	Lớp bảo vệ sinh học và hóa học được dỡ bỏ, lớp bảo vệ an ninh mạng vẫn giữ

Anthropic có kế hoạch mở rộng cả hai chương trình, với chương trình tiếp cận tin cậy rộng hơn cho các tổ chức an ninh mạng đăng ký có hệ thống hơn, phối hợp với Chính phủ Mỹ. Chưa có mốc thời gian cho việc mở rộng phạm vi tiếp cận.

Nhà phát triển có thể truy cập qua giao diện lập trình ứng dụng Claude với mã định danh mô hình claude-mythos-5. Với hầu hết nhà phát triển, Fable 5 là lựa chọn thực tế hiện nay với cùng kiến trúc nền.

Một lưu ý vận hành quan trọng: Anthropic áp dụng chính sách lưu giữ dữ liệu 30 ngày cho toàn bộ lưu lượng mô hình dòng Mythos. Dữ liệu không được dùng để huấn luyện và bị xóa sau 30 ngày trong hầu hết trường hợp, nhưng được giữ lại cho mục đích giám sát an toàn. Tổ chức xử lý dữ liệu nhạy cảm hoặc được quản lý cần xem xét chính sách này trước khi triển khai.

Kết luận

Claude Mythos 5 là tuyên bố rõ ràng nhất của Anthropic rằng công ty nghiêm túc triển khai trí tuệ nhân tạo tiên tiến trong các bối cảnh chuyên nghiệp rủi ro cao, và các con số chỉ số đánh giá ủng hộ điều đó.

Infinity News nhận thấy toàn bộ dữ liệu chỉ về một kết luận: khoảng cách trên SWE-bench Pro (80,3% so với 69,2%), Terminal-Bench 2.1 (88,0% so với 82,7%) và ExploitBench (78,0% so với 40,0%) đều chỉ ra một mô hình xử lý các tác vụ khó nhất đáng tin cậy hơn bất kỳ thứ gì hiện có. Mô hình tiếp cận hạn chế là cách tiếp cận hợp lý trước rủi ro lưỡng dụng, và điểm ExploitBench tạo ra lập luận thuyết phục rằng các công cụ tấn công an ninh mạng mạnh nhất không nên được công khai rộng rãi. Câu hỏi khó hơn là liệu Anthropic có thể mở rộng chương trình tiếp cận tin cậy đủ nhanh để hữu ích cho cộng đồng nghiên cứu an ninh và y sinh rộng hơn trước khi các đối thủ thu hẹp khoảng cách.

Claude