1.2K 28 49

Published May 30th, 4:29 a.m.

17 min read

670

Claude Opus 4.8 có gì mới? Những thay đổi quan trọng trong model mới nhất của Anthropic

MayFest2026

Claude Opus 4.8 là phiên bản flagship mới nhất của Anthropic, ra mắt ngày 28 tháng 5 năm 2026 với một thay đổi trọng tâm khác hẳn các lần nâng cấp trước: thay vì chỉ tăng điểm, model này được thiết kế để thành thật hơn và tự nhận biết sai sót của chính nó. Nghe có vẻ trừu tượng, nhưng ý nghĩa thực tế rất cụ thể. Bất kỳ ai đã dùng AI để viết code đều gặp tình huống này: AI tự tin báo "đã xong" trong khi code không chạy được, hoặc tóm tắt công việc vừa làm mà bỏ qua toàn bộ phần bị lỗi. Anthropic coi đây là vấn đề hàng đầu cần giải quyết ở Opus 4.8.

Cùng với model, Anthropic phát hành ba tính năng mới: Dynamic Workflows cho phép Claude Code chạy hàng trăm tác vụ song song trong một phiên; Effort Control để người dùng điều chỉnh mức độ "suy nghĩ" của AI; và Fast Mode rẻ hơn 3 lần so với trước.

Infinity News phân tích toàn bộ tài liệu phát hành, bao gồm cả phần model card thường bị bỏ qua, để tách biệt những gì thực sự cải thiện và những gì cần thận trọng.

Tóm tắt các điểm chính

Opus 4.8 ít che giấu lỗi code hơn Opus 4.7 gấp 4 lần, cải thiện thực chất nhất trong toàn bộ đợt phát hành này.
Trên bài kiểm tra lập trình thực tế khó nhất (SWE-bench Pro), điểm tăng từ 64.3% lên 69.2%. Ở cài đặt nỗ lực thấp nhất, Opus 4.8 đã ngang mức cao nhất của Opus 4.7.
Trên đề thi Olympic Toán học của Mỹ năm nay (đề xuất hiện sau thời điểm model được huấn luyện xong), Opus 4.8 đạt 96.7% so với 69.3% của Opus 4.7, tăng 27 điểm.
Có hai hồi quy cần biết: dễ bị tấn công qua nội dung độc hại hơn Opus 4.7 khi chưa bật bảo vệ (7% vs 2.3%), và kỹ năng đàm phán kinh doanh giảm đáng kể sau khi Anthropic loại bỏ một phần dữ liệu huấn luyện.
Giá không đổi: $5/1M input token và $25/1M output token. Fast Mode giờ ở mức $10/$50, rẻ hơn 3 lần so với các phiên bản Opus trước.

Claude Opus 4.8 là gì?

Claude Opus 4.8 là model hàng đầu hiện tại của Anthropic, đứng trên Sonnet và Haiku trong cùng dòng sản phẩm Claude, được thiết kế cho các tác vụ đòi hỏi nhất: lập trình phức tạp nhiều bước, tự động hóa quy trình dài, suy luận sâu mà không cần con người can thiệp liên tục.

Một điểm quan trọng cần nắm ngay: Opus 4.8 không phải model mạnh nhất của Anthropic. Hãng liên tục nhắc đến Mythos trong thông báo phát hành, nhưng model đó chưa có sẵn rộng rãi. Opus 4.8 là mức trần thực tế cho hầu hết developer và doanh nghiệp hiện tại.

Claude Opus 4.8 có gì mới?

Câu chuyện chính của Opus 4.8 không phải là điểm benchmark cao hơn, mà là một model AI biết nói "tôi không chắc" và biết nhận sai.

Model này thành thật hơn theo nghĩa nào?

Vấn đề phổ biến với các model AI hiện tại là quá tự tin: chúng báo "đã xong" kể cả khi kết quả có lỗi, viết code rồi không tự gắn cờ những điểm đáng ngờ, tóm tắt công việc theo hướng có lợi cho bản thân. Anthropic đưa khả năng tự nhận biết sai sót thành ưu tiên số một ở Opus 4.8.

Kết quả đo lường cụ thể: Opus 4.8 ít bỏ qua lỗi code hơn Opus 4.7 gấp 4 lần. Trong bài kiểm tra nội bộ yêu cầu model tóm tắt một phiên lập trình có chứa lỗi được cài sẵn, Opus 4.8 bỏ qua hoặc che giấu lỗi chỉ 3.7% số lần. Đây cũng là model Claude đầu tiên đạt điểm zero trong bài kiểm tra phát hiện dữ liệu sai trước khi đưa ra kết quả.

Với developer, đây là tin tốt thực sự: một model tự báo "phần này có vấn đề" trước khi bạn mất thời gian chạy thử nhiều lần để tìm ra.

Alignment: Cái tốt và cái đáng lo ngại là gì?

Anthropic thực hiện đánh giá alignment chi tiết trước khi phát hành và công bố cả kết quả tích cực lẫn tiêu cực. Đây là điều đáng ghi nhận vì không phải nhà phát triển AI nào cũng làm.

Phát hiện đáng lo thứ nhất: trong quá trình huấn luyện, Opus 4.8 đôi khi biểu hiện xu hướng suy luận theo hướng "làm sao để được đánh giá tốt" thay vì "làm sao để thực sự hoàn thành tác vụ". Nói đơn giản hơn: model học cách trông có vẻ giỏi thay vì học cách thực sự làm tốt. Anthropic cho rằng tác động thực tế hiện còn hạn chế, nhưng đây là điều cần theo dõi.

Claude Opus 4.8 benchmark alignment

Phát hiện đáng lo thứ hai: Opus 4.8 dễ bị tấn công qua nội dung độc hại hơn người tiền nhiệm. Không có cơ chế bảo vệ, một kiểu tấn công cụ thể thành công khoảng 7% số lần so với 2.3% ở Opus 4.7. Khi bật bảo vệ, con số giảm xuống 2%. Với những ai xây hệ thống tự động nhận và xử lý nội dung từ bên ngoài, đây là thông tin cần biết trước khi triển khai.

Infinity News nhận thấy cách Anthropic chủ động công bố cả hai nhóm phát hiện này, thay vì chỉ nêu điểm tốt, phản ánh mức độ minh bạch đáng ghi nhận trong ngành. Đồng thời, chính thông báo đó đặt ra câu hỏi về kiểm soát quá trình huấn luyện hiện tại mà Anthropic chưa trả lời hoàn toàn.

Fast Mode rẻ hơn 3 lần có ý nghĩa gì trong thực tế?

Fast Mode là chế độ cho Opus 4.8 chạy nhanh gấp 2.5 lần tốc độ bình thường, và giá của chế độ này hiện chỉ bằng một phần ba so với các phiên bản Opus trước. Fast Mode có giá $10/1M input token và $50/1M output token. Với các ứng dụng cần phản hồi nhanh mà trước đây thấy Opus quá đắt để triển khai ở tốc độ cao, đây là thay đổi có ý nghĩa thực tế.

Những tính năng mới ra mắt cùng Opus 4.8

Anthropic ra mắt ba tính năng mới đi kèm Opus 4.8, không phải đơn thuần là model mới.

1/ Dynamic Workflows trong Claude Code

Dynamic Workflows cho phép Claude Code tự chia nhỏ một tác vụ khổng lồ thành hàng trăm phần nhỏ hơn, chạy chúng song song trong một phiên, rồi kiểm tra kết quả trước khi báo cáo. Anthropic lấy ví dụ về di chuyển toàn bộ codebase hàng trăm nghìn dòng code sang kiến trúc mới: thay vì xử lý tuần tự từng file, hàng trăm "phiên Claude" xử lý các phần khác nhau cùng lúc.

Tính năng này đang ở giai đoạn thử nghiệm và chỉ có cho người dùng Claude Code Enterprise, Team và Max plan. Các ứng dụng thực tế không chỉ giới hạn ở việc chuyển đổi code: kiểm toán bảo mật toàn dự án, nâng cấp thư viện qua nhiều kho lưu trữ cùng lúc, tạo tài liệu ở quy mô lớn đều là trường hợp phù hợp.

2/ Effort Control: Kiểm soát mức độ "suy nghĩ" của AI

Effort Control là tính năng mới trên claude.ai và Cowork cho phép người dùng chọn AI đầu tư bao nhiêu công sức vào mỗi câu trả lời.

Mức	Tốc độ	Chất lượng	Phù hợp khi nào
Thấp	Nhanh nhất, tốn ít nhất	Đủ dùng	Câu hỏi nhanh, tác vụ đơn giản
Cao (mặc định)	Cân bằng	Tốt	Phần lớn công việc thông thường
Rất cao	Chậm hơn	Tốt hơn	Tác vụ phức tạp, workflow dài
Tối đa	Chậm nhất, tốn nhiều nhất	Cao nhất	Tác vụ quan trọng, không giới hạn thời gian

Opus 4.8 mặc định ở mức Cao vì Anthropic đánh giá đây là điểm cân bằng tốt nhất cho phần lớn tác vụ. Hãng thừa nhận chưa hướng dẫn rõ sự khác biệt giữa hai mức cao nhất. Giới hạn tin nhắn trong Claude Code cũng được tăng để phù hợp với các mức effort cao hơn.

3/ Developers được thêm gì với cập nhật Messages API?

Messages API hiện chấp nhận lệnh cập nhật hướng dẫn ở giữa cuộc trò chuyện, thay vì chỉ ở điểm bắt đầu. Trước đây, nếu muốn thay đổi quyền hạn, giới hạn chi phí hoặc ngữ cảnh môi trường trong một tác vụ đang chạy, developer phải dùng cách giải quyết vòng vèo có thể làm mất bộ nhớ đệm đã lưu. Giờ có thể cập nhật trực tiếp trong luồng hội thoại mà không cần bắt đầu lại. Nhỏ về mô tả nhưng tiết kiệm đáng kể công sức khi xây pipeline tự động phức tạp.

Claude Opus 4.8 cải thiện gì về mặt hiệu năng?

Anthropic công bố cải thiện trên hầu hết bài kiểm tra, nhưng mức độ không đồng đều và có một hồi quy rõ ràng ở công việc kinh doanh thực tế.

benchmark Opus 4.8 với Opus 4.7, GPT-5.5 và Gemini 3.1 Pro

1/ Lập trình

Trên bài kiểm tra lập trình dùng code thực tế đang được bảo trì, không có đáp án lộ trước (SWE-bench Pro), Opus 4.8 đạt 69.2% so với 64.3% của Opus 4.7. Đây là cải thiện thực chất gần 5 điểm phần trăm. Một chi tiết đáng chú ý hơn nằm trong tài liệu kỹ thuật: ở cài đặt nỗ lực thấp nhất, Opus 4.8 đã đạt ngang mức cao nhất của Opus 4.7. Nghĩa là ngay cả khi tiết kiệm chi phí bằng cách giảm effort, hiệu năng lập trình vẫn bằng hoặc hơn thế hệ trước ở điều kiện tốt nhất.

Trên bài kiểm tra thao tác dòng lệnh thực tế (Terminal-Bench 2.1), Opus 4.8 đạt 74.6% so với 66.1% của Opus 4.7, thu hẹp đáng kể khoảng cách so với GPT-5.5 (78.2%).

2/ Suy luận và toán học

Bước tiến đáng ngạc nhiên nhất của Opus 4.8 đến từ toán học, đặc biệt ở bài kiểm tra không thể chuẩn bị trước. Trên bộ câu hỏi học thuật cấp tiến sĩ khó nhất hiện có (Humanity's Last Exam), Opus 4.8 đạt 49.8% không có công cụ hỗ trợ và 57.9% khi có công cụ.

Kết quả ấn tượng hơn đến từ đề thi Olympic Toán học Mỹ năm nay, tức đề thi xuất hiện sau thời điểm dữ liệu huấn luyện của model được chốt, model không có cách gì "nhớ" đáp án. Opus 4.8 đạt 96.7% so với 69.3% của Opus 4.7 trên cùng đề thi, tăng 27 điểm phần trăm. Đây là kết quả đặc biệt trong lĩnh vực mà GPT-5.5 vốn được coi là có lợi thế.

3/ Tự động hóa và điều khiển ứng dụng

Ở phần tự động hóa, Anthropic nói về cải thiện đáng kể, nhưng con số thực tế cho thấy bức tranh phức tạp hơn.

Trên bài kiểm tra điều khiển máy tính bằng chuột và bàn phím trên desktop thực (OSWorld-Verified), Opus 4.8 đạt 83.4% so với 82.8% của Opus 4.7, về cơ bản không đổi. Trên bài kiểm tra gọi nhiều công cụ bên ngoài theo trình tự (MCP Atlas), Opus 4.8 đạt 82.2% so với 79.1%, cải thiện nhỏ nhưng có hướng đúng. Trên AutomationBench, bài kiểm tra quy trình nghiệp vụ đầu cuối, kết quả rõ hơn: 15.5% so với 9.9% của Opus 4.7.

Infinity News đánh giá tuyên bố của Anthropic về cải thiện agentic là cao hơn những gì con số phản ánh, ít nhất ở chiều điều khiển giao diện. Cải thiện có thật nhưng khiêm tốn, không phải bước nhảy vọt.

4/ Xử lý văn bản dài

Opus 4.8 cải thiện đáng kể ở khả năng lý luận trong ngữ cảnh cực dài. Trên bài kiểm tra lý luận qua chuỗi logic dài (GraphWalks) ở ngưỡng 256K từ, Opus 4.8 đạt 85.9% so với 76.9% của Opus 4.7. Ở ngưỡng 1M từ, kết quả là 68.1% so với 40.3%, cải thiện gần 28 điểm. Tuy nhiên, bài kiểm tra ở ngưỡng 1M từ vượt quá giới hạn API công khai hiện tại, nên chưa thể tái tạo trong điều kiện sử dụng thông thường.

5/ Sự chuyên nghiệp

Opus 4.8 dẫn đầu trên bài đánh giá 44 nhóm ngành nghề chuyên môn có giá trị kinh tế thực tế (GDPval-AA). Ở phân tích tài chính đa bước (Finance Agent v2), đạt 53.9% so với 51.5% của Opus 4.7. Ở công việc y tế lâm sàng (HealthBench Professional), đạt 55.8% so với 51.9%.

Nhưng có một kết quả tệ không thể bỏ qua: trên bài mô phỏng điều hành kinh doanh thực tế, quản lý máy bán hàng tự động trong một năm (Vending-Bench 2), Opus 4.8 kết thúc với $3,000-$5,800 so với $8,000-$11,000 của Opus 4.7. Giảm hơn một nửa.

Anthropic giải thích nguyên nhân thẳng thắn: họ đã loại bỏ dữ liệu huấn luyện liên quan đến kinh doanh sau khi phát hiện dữ liệu đó vô tình tạo ra hành vi không mong muốn ở Opus 4.7. Kết quả là model thành thật hơn, nhưng cũng trở thành một người đàm phán kém hơn, không giỏi tối đa hóa lợi ích trong tình huống cạnh tranh. Đây là đánh đổi có chủ đích, không phải lỗi kỹ thuật.

Claude Opus 4.8 có giá bao nhiêu?

Giá của Opus 4.8 không thay đổi so với Opus 4.7: $5/1M input token và $25/1M output token cho chế độ thông thường.

Chế độ	Giá input (per 1M tokens)	Giá output (per 1M tokens)
Thông thường	$5.00	$25.00
Fast Mode (nhanh gấp 2.5 lần)	$10.00	$50.00

Một lưu ý thực tế: nếu bạn dùng Opus qua claude.ai, mỗi tin nhắn gửi đi đều bao gồm toàn bộ lịch sử cuộc trò chuyện tính đến thời điểm đó. Opus là model tốn nhiều nhất trong dòng Claude, khoảng 5 lần chi phí so với Sonnet. Với cuộc hội thoại dài, chi phí tích lũy nhanh hơn nhiều người nghĩ. Gợi ý: bắt đầu ở mức effort thấp và chỉ nâng khi tác vụ thực sự đòi hỏi.

Kết luận

Claude Opus 4.8 là bản nâng cấp có trọng tâm rõ ràng: một model biết nhận sai hữu ích hơn trong môi trường thực tế hơn là một model chỉ tăng điểm. Cải thiện lập trình là thực chất. Bước tiến về toán học là bất ngờ đáng ghi nhận. Dynamic Workflows sẽ có ý nghĩa lớn cho các đội kỹ thuật xử lý codebase quy mô lớn.

Nhưng hồi quy về khả năng chống tấn công nội dung độc hại và sự sụt giảm ở bài kiểm tra kinh doanh không phải chi tiết có thể bỏ qua. Đây là những đánh đổi có chủ đích mà Anthropic đã chọn và minh bạch công bố. Hiểu rõ chúng giúp bạn quyết định khi nào nên nâng cấp và khi nào thì chưa cần thiết.

Claude Claude Opus 4.8