1.9K 31 51

Đã đăng vào thg 6 29, 1:33 SA

trong

8 phút đọc

So sánh Sakana Fugu với Claude Fable 5

Claude Fable 5 dẫn trước Sakana Fugu Ultra từ 6 đến 9 điểm trên ba benchmark có thể so sánh trực tiếp, nhưng Fable 5 đang bị đình chỉ truy cập công khai từ ngày 12/6/2026 theo lệnh kiểm soát xuất khẩu của chính phủ Mỹ, trong khi Fugu Ultra khả dụng ngay hôm nay với giá bằng một nửa. Đây là thực tế của cuộc so sánh này: model mạnh hơn trên giấy tờ hiện không ai dùng được, model yếu hơn một chút đang hoạt động bình thường và rẻ hơn đáng kể.

Tóm tắt các điểm chính

Infinity đối chiếu benchmark từ hai nguồn công bố riêng biệt, phân tích khoảng cách thực sự giữa hai hệ thống, và đánh giá trường hợp nào Fugu là lựa chọn thực dụng hợp lý.

Fable 5 dẫn trước Fugu Ultra trên SWE-bench Pro (80,3% vs. 73,7%), Humanity's Last Exam (59,0% vs. 50,0%), và TerminalBench 2.1 (88,0 vs. 82,1), ba benchmark duy nhất có thể so sánh trực tiếp với baseline khớp nhau.
Sakana tuyên bố Fugu Ultra "ngang vai" với Fable 5, nhưng dữ liệu thực tế cho thấy "gần nhưng thua" là mô tả chính xác hơn.
Fugu Ultra giá $5/1M input token và $30/1M output token, bằng một nửa Fable 5 ($10/1M input, $50/1M output).
Toàn bộ điểm Fugu do Sakana tự công bố, chưa xuất hiện trên third-party leaderboard độc lập.
Cả hai model đều không khả dụng tại EU/EEA: Fable 5 bị đình chỉ toàn cầu, Fugu đang hoàn thiện GDPR compliance.

Bảng so sánh benchmark Fugu Ultra vs. Claude Fable 5

Hai triết lý khác nhau đằng sau hai hệ thống

Fable 5 và Fugu Ultra không chỉ là hai model cạnh tranh mà là hai cách đặt cược khác nhau về hướng phát triển AI.

Anthropic đặt cược vào quy mô: một Mythos-class model đủ mạnh đến mức cần một hệ thống classifier song song để đưa ra sử dụng đại trà. Fable 5 là phiên bản an toàn của Claude Mythos 5, chạy với safety classifier active. Khi query chạm đến cybersecurity, sinh học/hóa học, hoặc model distillation, two-stage classifier tự động chuyển hướng sang Claude Opus 4.8 và thông báo cho người dùng.

Sakana đặt cược vào phối hợp: một orchestrator được train để điều phối pool các frontier model có thể swap được, tạo ra hệ thống rẻ hơn, linh hoạt hơn, và không phụ thuộc vào một provider. Fugu không phải model đơn theo nghĩa thông thường mà là một orchestrator nhận request, quyết định xử lý trực tiếp hay delegate cho specialist model, rồi trả về một response duy nhất qua API OpenAI-compatible.

Lưu ý quan trọng: Fable 5 không có trong agent pool của Fugu vì không publicly accessible. Sakana loại Fable 5 khỏi benchmark table chính thức của mình vì lý do đó.

Benchmark head-to-head: ba điểm duy nhất có thể so sánh trực tiếp

Chỉ có ba benchmark xuất hiện trong cả bảng công bố của Anthropic lẫn Sakana với baseline khớp nhau, đủ điều kiện để so sánh trực tiếp.

Benchmark	Fugu	Fugu Ultra	Claude Fable 5	Dẫn đầu
SWE-bench Pro	59,0%	73,7%	80,3%	Fable 5 (+6,6 điểm)
Humanity's Last Exam	47,2%	50,0%	59,0%	Fable 5 (+9,0 điểm)
TerminalBench 2.1	80,2	82,1	88,0	Fable 5 (+5,9 điểm)

Lưu ý: hai lab báo cáo baseline và scaffold khác nhau cho TerminalBench, điều kiện không hoàn toàn đồng nhất. Toàn bộ điểm Fugu do Sakana tự công bố. Fable 5 hiện bị đình chỉ truy cập.

Fable 5 dẫn đầu cả ba. Khoảng cách từ 6 đến 9 điểm nhất quán qua các benchmark, phù hợp với lý do Fable 5 được thiết kế để thắng: tác vụ long-horizon được chấm điểm tổng thể, nơi một model đơn mạnh hơn tích lũy ít lỗi ghép chuỗi hơn so với hệ thống orchestration nhiều bước.

Bảng benchmark đầy đủ của Fugu so với Opus 4.8, GPT-5.5 và Gemini 3.1 Pro cho thấy Fugu Ultra thắng 10 trong 11 tiêu chí với các model này. Nhưng đó là benchmark của Sakana tự công bố và chưa được tái kiểm chứng độc lập.

Điểm Sakana tuyên bố "ngang vai" Fable 5 có chính xác không

Sakana tuyên bố Fugu Ultra "ngang vai" với Fable 5 và Mythos Preview. Dữ liệu benchmark cho thấy "gần nhưng thua" chính xác hơn.

"Ngang vai" là cách đọc có thể bào chữa được nhưng hào phóng. Fable 5 thắng Fugu Ultra 6-9 điểm trên mọi benchmark có thể so sánh. Đây không phải khoảng cách không đáng kể, đặc biệt trên SWE-bench Pro, benchmark đo khả năng giải quyết GitHub issue thực tế trong repository phần mềm.

Hai hệ thống cũng được tối ưu cho hình dạng công việc khác nhau một phần:

Fable 5 dẫn đầu về vision, có thể rebuild source code của web app từ screenshot, một khả năng Fugu không nhấn mạnh.
Fugu công bố long-context và banking benchmark mà bảng của Anthropic không bao gồm.

Phần còn lại của so sánh phải dừng ở mức định tính vì không có đủ benchmark chung với baseline khớp.

Infinity nhận định: tuyên bố marketing "ngang vai" phản ánh kết quả tốt nhất có thể chọn từ tập benchmark không đầy đủ, không phải đánh giá toàn diện. Người dùng cần đọc số liệu thô thay vì tiêu đề.

Tình trạng truy cập: model nào dùng được ngay hôm nay

Fable 5 bị đình chỉ truy cập công khai từ ngày 12/6/2026 theo lệnh kiểm soát xuất khẩu của chính phủ Mỹ. Anthropic xác nhận đang làm việc để khôi phục truy cập nhưng chưa có timeline.

Các model khác của Anthropic, bao gồm Opus 4.8, vẫn khả dụng bình thường.
Fugu Ultra khả dụng ngay qua console.sakana.ai với API OpenAI-compatible.
Không cần migration SDK, trỏ client hiện tại sang Fugu endpoint là dùng được.

Ngoại lệ quan trọng: Fugu chưa khả dụng tại EU và EEA trong khi Sakana hoàn thiện GDPR compliance, không có timeline cụ thể. Điều này tạo ra tình huống đặc biệt: team châu Âu hiện không thể dùng được cả hai model này, Fable 5 vì bị đình chỉ toàn cầu, Fugu vì chưa có GDPR clearance.

So sánh giá: Fugu Ultra bằng một nửa Fable 5

	Fugu Ultra	Claude Fable 5
Input	$5 / 1M token	$10 / 1M token
Output	$30 / 1M token	$50 / 1M token
Gói tháng	$20 / $100 / $200	$20 / $100 / $200

Cả hai có cùng cấu trúc subscription tier ($20/$100/$200/tháng). Điểm khác biệt nằm ở pay-as-you-go: Fugu Ultra rẻ hơn 50% ở cả input lẫn output so với Fable 5. Với workload nặng ở API rate, khoảng cách giá này có ý nghĩa thực chất trong chi phí hàng tháng.

Kết luận: model nào đặt cược đúng hơn

Trên giấy tờ, đây là cuộc cạnh tranh thực sự giữa hai triết lý. Trên thực tế, chỉ có một model đang hoạt động.

Infinity tổng hợp nhận định: benchmark nói rằng cách đặt cược của Anthropic tạo ra artifact mạnh hơn trên các test có thể so sánh. Cách đặt cược của Sakana tạo ra hệ thống khả dụng hơn, rẻ hơn, và không phụ thuộc vào provider. Khoảng cách 6-9 điểm là thực sự, không phải marginal, nhưng mức độ quan trọng phụ thuộc vào workload cụ thể.

Với team cần giải quyết GitHub issue phức tạp hoặc tác vụ long-horizon nhiều bước ngay hôm nay, Fugu Ultra là lựa chọn khả thi duy nhất trong hai cái tên này.
Với team sẵn sàng chờ Fable 5 quay lại và có workload đòi hỏi hiệu suất tối đa, câu trả lời phụ thuộc vào timeline khôi phục truy cập mà Anthropic chưa công bố.

Một điểm thực dụng cuối cùng: tuyên bố "ngang vai" của Sakana là marketing, nhưng "Fugu dẫn đầu 10/11 benchmark trên các model đang publicly available" là sự thật có thể kiểm chứng được, dù toàn bộ số liệu vẫn chờ tái kiểm chứng độc lập.

Claude Sakana Fugu