2.0K 31 69

Đã đăng vào thg 6 12, 7:41 SA

trong

14 phút đọc

1.1K

Claude Fable 5 là gì? Mô hình dòng Mythos dành cho người dùng phổ thông

Đây là mô hình cùng kiến trúc nền với Claude Mythos 5, nhưng được trang bị hệ thống phân loại an toàn hai tầng để chuyển hướng các truy vấn nhạy cảm về an ninh mạng và sinh học sang Opus 4.8. Anthropic ước tính việc chuyển hướng này xảy ra trong chưa đến 5% tổng số truy vấn. Infinity News tổng hợp toàn bộ tài liệu phát hành, kết quả chỉ số đánh giá và phản hồi từ người dùng thực tế để cung cấp đánh giá toàn diện về mô hình này.

Tóm tắt các điểm chính

Lập trình tác nhân tự chủ: Fable 5 đạt 80,3% trên SWE-bench Pro, cao hơn Opus 4.8 (69,2%), GPT-5.5 (58,6%) và Gemini 3.1 Pro (54,2%).
Chất lượng mã nguồn: Fable 5 vượt mọi mô hình khác trên FrontierCode (Diamond) ngay cả khi không dùng tham số nỗ lực cao, chỉ số đo tiêu chuẩn sản xuất thực tế thay vì chỉ hoàn thành tác vụ thô.
Thị giác: Đạt 93,2% trên CharXiv Reasoning khi có công cụ hỗ trợ, có thể xây dựng lại mã nguồn ứng dụng web chỉ từ ảnh chụp màn hình.
Giá: 10 USD/50 USD mỗi triệu token đầu vào/đầu ra qua giao diện lập trình ứng dụng, gấp đôi Opus 4.8 tiêu chuẩn nhưng ngang bằng Opus 4.8 chế độ nhanh.
Tiếp cận hiện tại: Miễn phí cho gói Pro, Max, Team và Enterprise đến hết ngày 22/6/2026, sau đó yêu cầu tín dụng sử dụng bổ sung.

Claude Fable 5 là gì và nó khác Mythos 5 thế nào?

Claude Fable 5 là phiên bản công khai của mô hình dòng Mythos, dùng cùng kiến trúc nền với Mythos 5 nhưng được trang bị hệ thống phân loại an toàn ngăn chặn việc sử dụng sai các năng lực nguy hiểm nhất của mô hình.

Khi một truy vấn bị lớp phân loại gắn cờ, nó không bị từ chối thẳng thừng mà được chuyển hướng sang Opus 4.8, và người dùng được thông báo mô hình nào đã xử lý yêu cầu của mình. Đây là hành vi minh bạch mới: người dùng không phải tự đoán lý do phản hồi có cảm giác khác thường.

Mythos 5, phiên bản không có lớp bảo vệ an ninh mạng, không dành cho người dùng phổ thông. Quyền tiếp cận giới hạn trong đối tác Project Glasswing và một nhóm nhỏ nhà nghiên cứu y sinh được kiểm duyệt.

Fable 5 có những tính năng mới nào so với Opus 4.8?

Fable 5 bổ sung bốn thay đổi cấu trúc so với dòng Opus: hệ thống phân loại an toàn hai tầng, thông báo chuyển hướng, bộ nhớ làm việc dựa trên tệp và chính sách lưu giữ dữ liệu 30 ngày.

Hệ thống phân loại an toàn hai tầng

Một đầu dò giám sát các kích hoạt nội bộ của mô hình trên toàn bộ lưu lượng. Các yêu cầu bị gắn cờ được chuyển lên một mô hình ngôn ngữ phân loại được huấn luyện riêng để đưa ra quyết định cuối cùng. Khi yêu cầu bị chặn, nó được chuyển hướng sang Opus 4.8 thay vì bị từ chối, đảm bảo người dùng vẫn nhận được phản hồi hữu ích.

Thông báo chuyển hướng

Khi lớp phân loại của Fable 5 chuyển truy vấn sang Opus 4.8, người dùng được thông báo mô hình nào đã xử lý yêu cầu. Cơ chế này không tồn tại ở các phiên bản trước.

Bộ nhớ làm việc dựa trên tệp

Fable 5 có thể ghi chú vào tệp giữa chừng trong một tác vụ và tham chiếu lại những ghi chú đó sau. Đây là hành vi bộ nhớ làm việc chủ động, khác với việc chỉ có cửa sổ ngữ cảnh dài. Theo kiểm thử nội bộ của Anthropic, tính năng này cải thiện hiệu năng của Fable 5 đáng kể hơn so với cùng thiết lập áp dụng cho Opus 4.8.

Chính sách lưu giữ dữ liệu 30 ngày

Dữ liệu lưu lượng Fable 5 được giữ lại 30 ngày cho mục đích phát hiện cách phá vỡ lớp bảo vệ mới và giảm thiểu phân loại sai. Dữ liệu không được dùng để huấn luyện mô hình và quyền truy cập của con người vào dữ liệu này được ghi nhật ký.

Fable 5 đạt kết quả thế nào trên các chỉ số đánh giá chính?

Fable 5 dẫn đầu trên mọi chỉ số đánh giá lớn, với khoảng cách so với Opus 4.8 và các đối thủ nhất quán trên nhiều danh mục.

Danh mục	Chỉ số đánh giá	Fable 5 / Mythos 5	Opus 4.8	GPT-5.5	Gemini 3.1 Pro
Lập trình tác nhân	SWE-bench Pro	80,3%	69,2%	58,6%	54,2%
Lập trình tác nhân	FrontierCode (Diamond)	29,3%	13,4%	5,7%	—
Lập trình tác nhân	Terminal-Bench 2.1	88,0%*	82,7%	83,4%	70,7%
Tác vụ tri thức	GDPval-AA	1.932	1.890	1.769	1.314
Tác vụ tri thức (thị giác)	GDPpdf	29,8%	22,5%	24,9%	16,7%
Suy luận không gian	Blueprint-Bench 2	38,6%	14,5%	36,2%	26,5%
Sử dụng công cụ	AutomationBench	17,4%	15,5%	12,9%	9,6%
Sử dụng máy tính	OSWorld-Verified	85,0%	83,4%	78,7%	76,2%
Pháp lý	Legal Agent Benchmark	13,3%	10,4%	2,1%	0,0%
Suy luận đa lĩnh vực	Humanity's Last Exam (có công cụ)	64,5%*	57,9%	52,2%	51,4%
Suy luận đa lĩnh vực	Humanity's Last Exam (không có công cụ)	59,0%*	49,8%	41,4%	44,4%
Y tế	HealthBench Professional	66,0%*	56,9%	51,8%	—
An ninh mạng	ExploitBench	78,0%*	40,0%	34,0%	—

Các chỉ số có dấu (*) là điểm Fable 5 thấp hơn Mythos 5 do lớp phân loại an toàn chuyển hướng truy vấn nhạy cảm sang Opus 4.8.

Lập trình tác nhân tự chủ

Khoảng cách trên SWE-bench Pro so với GPT-5.5 (80,3% so với 58,6%) lớn hơn nhiều so với các chỉ số đánh giá ngắn hơn. Đây là mẫu hình nhất quán: khi tác vụ dài và chỉ được chấm điểm ở cuối, không có phản hồi trung gian để mô hình tự điều chỉnh, mô hình mạnh hơn bỏ xa hơn. Terminal-Bench 2.1 gần hơn (88,0% so với 83,4% của GPT-5.5 qua Codex CLI) vì dòng lệnh báo lỗi ngay lập tức.

Trên FrontierCode (Diamond), chỉ số đo chất lượng mã sản xuất thực tế (hiệu năng ở quy mô lớn, viết đúng thành ngữ ngôn ngữ, có cấu trúc cho khả năng bảo trì lâu dài), Fable 5 đạt 29,3%, hơn gấp đôi Opus 4.8 ở mức 13,4% và gần gấp 6 lần GPT-5.5 ở mức 5,7%.

Suy luận không gian

Blueprint-Bench 2 là chỉ số đáng chú ý: Fable 5 đạt 38,6%, cao hơn gấp 2,6 lần Opus 4.8 ở mức 14,5%. GPT-5.5 theo sát với 36,2%, nhưng Gemini 3.1 Pro kém hơn đáng kể với 26,5%.

Fable 5 hoạt động thế nào trong lập trình?

Fable 5 được thiết kế để tạo ra mã nguồn đáp ứng tiêu chuẩn sản xuất thực tế, không chỉ vượt qua bài kiểm thử.

FrontierCode (Diamond) kiểm thử liệu mô hình có thể không chỉ vượt qua bài kiểm thử lập trình mà còn đáp ứng các tiêu chuẩn cao hơn cho cơ sở mã nguồn sản xuất chất lượng: hiệu năng ở quy mô lớn, viết đúng thành ngữ ngôn ngữ lập trình, có cấu trúc cho khả năng bảo trì lâu dài. Fable 5 đạt điểm cao nhất trên FrontierCode ngay cả khi không dùng tham số nỗ lực cao hoặc rất cao.

Claude Fable 5 benchmark 1

Claude Fable 5 benchmark 2

Fable 5 xử lý thị giác và ngữ cảnh dài thế nào?

Fable 5 là mô hình tốt nhất hiện tại cho tác vụ thị giác, đạt 93,2% trên CharXiv Reasoning khi có công cụ hỗ trợ, và duy trì hành vi nhất quán trên ngữ cảnh lên đến hàng triệu token.

Trong kiểm thử của Anthropic, Fable 5 có thể xây dựng lại mã nguồn ứng dụng web chỉ từ ảnh chụp màn hình mà không cần thêm thông tin. Mô hình cũng trích xuất số liệu chính xác từ các hình khoa học phức tạp với rất ít sai sót, một vấn đề thực tế phổ biến hơn trong nghiên cứu.

Testing Claude Fable 5

Về ngữ cảnh dài, một triệu token tương đương tiểu thuyết 700 trang, Fable 5 duy trì hành vi nhất quán xuyên suốt mà không mất mạch theo dõi ngữ cảnh ban đầu. Kết hợp với bộ nhớ làm việc dựa trên tệp, hiệu năng của Fable 5 cải thiện gấp 3 lần so với cùng thiết lập áp dụng cho Opus 4.8 trong điều kiện ngữ cảnh dài.

So sánh Fable 5 với GPT-5.5 và Gemini 3.1 Pro

Fable 5 dẫn đầu trên mọi chỉ số đánh giá so với cả hai đối thủ, nhưng hình dạng khoảng cách khác nhau tùy theo loại tác vụ.

So với GPT-5.5, hai mô hình gần nhau trên các tác vụ ngắn có phản hồi trung gian: Blueprint-Bench 2 (38,6% so với 36,2%) và Terminal-Bench 2.1 (88,0% so với 83,4%). Khoảng cách mở rộng đáng kể trên tác vụ dài chỉ được chấm điểm ở cuối: SWE-bench Pro là 80,3% so với 58,6%, chênh lệch 21,7 điểm.

So với Gemini 3.1 Pro, khoảng cách lớn hơn và nhất quán hơn. Trên GDPval-AA, chỉ số tác vụ tri thức thực tế, Gemini 3.1 Pro đạt 1.314 so với Fable 5 ở mức 1.932. Trên Terminal-Bench 2.1, khoảng cách là 17,3 điểm (88,0% so với 70,7%). Mẫu hình chỉ ra mô hình xử lý tác vụ ngắn đủ tốt nhưng mất mạch trên các quy trình dài, nặng công cụ, nơi Fable 5 được thiết kế để vận hành.

Hệ thống bảo vệ an toàn của Fable 5 hoạt động như thế nào?

Fable 5 đủ năng lực để gây hại nghiêm trọng trong lĩnh vực an ninh mạng và sinh học nếu không có giới hạn. Hệ thống phân loại được xây dựng để loại bỏ những năng lực đó trước khi đến tay người dùng phổ thông.

Ba lĩnh vực chính mà lớp phân loại bao phủ:

Lĩnh vực	Lý do cần bảo vệ
An ninh mạng	Lớp phân loại kích hoạt trên hầu hết các tình huống kiểm thử khai thác lỗ hổng
Sinh học và hóa học	Mô hình nền đạt hiệu năng gần mức chuyên gia trên một số tác vụ sinh học có thể bị lạm dụng
Chắt lọc mô hình	Anthropic đã phát hiện các nỗ lực quy mô lớn nhằm trích xuất năng lực của Claude để huấn luyện mô hình cạnh tranh

Bảng trên này đặt Opus 4.8 vào ngữ cảnh: ngay cả không có lớp bảo vệ, Opus 4.8 đạt điểm thấp hơn đáng kể so với Mythos 5. Bước nhảy vọt về năng lực giữa dòng Opus và dòng Mythos chính là lý do lớp bảo vệ cần thiết và việc phát hành rộng rãi bị trì hoãn.

Giá và điều kiện tiếp cận Claude Fable 5

Fable 5 có giá 10 USD/50 USD mỗi triệu token đầu vào/đầu ra qua giao diện lập trình ứng dụng, gấp đôi Opus 4.8 tiêu chuẩn nhưng ngang bằng Opus 4.8 chế độ nhanh.

Kênh tiếp cận	Điều kiện
Giao diện lập trình ứng dụng	Khả dụng ngay, 10 USD đầu vào / 50 USD đầu ra mỗi triệu token
Claude.ai (Pro, Max, Team, Enterprise)	Miễn phí đến hết 22/6/2026, sau đó yêu cầu tín dụng sử dụng bổ sung
Truy vấn bị chuyển hướng sang Opus 4.8	Tính phí theo giá Opus 4.8, không phải giá Fable 5

Infinity News khuyến nghị đội ngũ cân nhắc kỹ trước khi triển khai Fable 5 cho toàn bộ quy trình xử lý: mô hình phù hợp nhất cho các tác vụ dài, phức tạp và chỉ được chấm điểm ở cuối. Với tác vụ ngắn, thường xuyên và có phản hồi trung gian, Opus 4.8 hoặc các mô hình dòng thấp hơn thường cho tỷ lệ chi phí trên kết quả tốt hơn.

Người dùng thực tế đánh giá Fable 5

Phản hồi sớm từ người có quyền truy cập trước khi phát hành nhất quán về hai điểm: năng lực vượt trội và chi phí cao.

Andrej Karpathy, nhà nghiên cứu trí tuệ nhân tạo nổi tiếng, đánh giá Fable 5 là mô hình dẫn đầu mọi chỉ số đánh giá liên quan với khoảng cách đáng kể và so sánh đây là bước chuyển đổi tương tự Opus 4.5 vào tháng 11/2024.

Dan Shipper, CEO của Every, có quyền truy cập sớm, ghi nhận Fable 5 có thể nhận một dự án lớn và hoàn thành trong khi người dùng không theo dõi, đáng tin cậy qua đêm. Ông cũng cảnh báo thẳng thắn về chi phí: mô hình chậm và tiêu thụ nhiều token, và chỉ nên dùng cho những tác vụ thực sự cần đến năng lực của nó.

Kết luận

Claude Fable 5 là mô hình mạnh nhất hiện có cho người dùng phổ thông tính đến tháng 6/2026, dẫn đầu mọi chỉ số đánh giá lớn và mở ra các lĩnh vực ứng dụng mới trong nghiên cứu khoa học, kỹ thuật phần mềm quy mô lớn và tác vụ thị giác phức tạp.

Infinity News nhận thấy toàn bộ dữ liệu chỉ về một kết luận: Fable 5 không phải cải tiến biên so với dòng Opus mà là bước chuyển đổi thực chất, đặc biệt rõ trên các tác vụ dài không có phản hồi trung gian. Câu hỏi thực tiễn không phải là mô hình có đủ tốt không mà là liệu tác vụ cụ thể có đủ phức tạp để xứng đáng với mức chi phí gấp đôi Opus 4.8. Với IPO đang đến gần và chu kỳ phát hành mô hình ngày càng rút ngắn, áp lực cạnh tranh và áp lực an toàn sẽ cùng tăng song song trong các tháng tới.

Claude