1.8K 31 49

Đã đăng vào thg 6 19, 12:19 SA

trong

13 phút đọc

So sánh Claude Opus 4.8 và Gemini 3.5 Flash

Claude Opus 4.8 dẫn đầu chỉ số trí tuệ tổng hợp Artificial Analysis Intelligence Index với 61,4 điểm trong khi Gemini 3.5 Flash xử lý đầu ra nhanh gấp gần 3 lần ở mức 192,2 token mỗi giây và rẻ hơn 2,8 lần trên mỗi triệu token đầu ra, theo so sánh công bố tháng 6/2026.

Hai mô hình này không cạnh tranh trực tiếp: một là mô hình hàng đầu cao cấp tập trung vào chất lượng, một là mô hình tốc độ cao tiết kiệm chi phí. Infinity News tổng hợp dữ liệu từ 8 chỉ số đánh giá độc lập cho thấy sự phân hóa rõ rệt theo loại tác vụ, không phải theo chất lượng tuyệt đối.

Tóm tắt các điểm chính

Chỉ số trí tuệ tổng hợp: Opus 4.8 đạt 61,4 điểm, Gemini 3.5 Flash đạt 55 điểm trên Artificial Analysis Intelligence Index.
Điểm bất ngờ về tác nhân tự chủ: Gemini 3.5 Flash dẫn trước trên MCP Atlas (83,6% so với 82,2%), chỉ số phối hợp đa công cụ, dù là mô hình tầm thấp hơn.
Kỹ thuật phần mềm: Opus 4.8 đạt 69,2% trên SWE-bench Pro, Flash đạt 55,0%.
Giá đầu ra: 25 USD so với 9 USD mỗi triệu token, chênh lệch 2,8 lần tích lũy đáng kể trên quy trình xử lý khối lượng lớn.
Định dạng đầu vào: Flash nhận văn bản, hình ảnh, video, âm thanh và PDF. Opus 4.8 chỉ nhận văn bản và hình ảnh.
Infinity News phân tích từng chiều khác biệt dưới đây để xác định mô hình nào phù hợp với loại công việc nào.

Tổng quan Claude Opus 4.8

Claude Opus 4.8 là mô hình hàng đầu của Anthropic, phát hành ngày 28/5/2026, kế nhiệm Opus 4.7, được thiết kế cho suy luận phức tạp và lập trình tác nhân tự chủ chạy theo chuỗi dài.

Mô hình này hiện dẫn đầu Artificial Analysis Intelligence Index với 61,4 điểm, dẫn đầu bảng xếp hạng GDPval-AA (đánh giá mô hình trên tác vụ thực tế thuộc nhiều ngành nghề) và dẫn đầu ITBench-AA (kiểm thử khả năng chẩn đoán nguyên nhân gốc rễ sự cố Kubernetes từ ảnh chụp sự cố đã lưu).

Các thông số kỹ thuật chính:

Cửa sổ ngữ cảnh 1 triệu token, tối đa 128.000 token đầu ra
Chế độ tư duy thích ứng là chế độ tư duy duy nhất được hỗ trợ
Tham số nỗ lực mặc định ở mức cao ở mọi nơi, kể cả Claude Code
Chế độ nhanh (đang trong giai đoạn thử nghiệm): tốc độ cao hơn 2,5 lần, giá 10 USD/50 USD mỗi triệu token đầu vào/đầu ra, bằng một phần ba giá chế độ nhanh của Opus 4.7

Cải tiến đáng chú ý trong giao diện lập trình ứng dụng: Messages API nay cho phép cập nhật hướng dẫn hệ thống giữa chừng mà không cần khởi động lại cuộc trò chuyện. Ngưỡng tối thiểu để lưu cache giảm từ 4.096 xuống còn 1.024 token, cho phép các câu lệnh ngắn hơn được cache.

So với Opus 4.7, mức cải thiện đo được gồm: Terminal-Bench Hard tăng 6,6 điểm, bài kiểm thử mô phỏng hỗ trợ kỹ thuật viễn thông tăng 5,8 điểm, và chỉ số tuân thủ hướng dẫn chính xác tăng 3,6 điểm.

Tổng quan Gemini 3.5 Flash

Gemini 3.5 Flash là mô hình tốc độ cao mới nhất của Google, phát hành ngày 19/5/2026, được xây dựng để đạt chất lượng gần mức hàng đầu với chi phí thấp hơn đáng kể.

Mô hình này đạt 76,2% trên Terminal-Bench 2.1 và đạt 1.656 Elo trên GDPval-AA. Điểm nổi bật nhất: 83,6% trên MCP Atlas, chỉ số phối hợp đa công cụ, vượt qua cả Opus 4.8 ở mức 82,2%, một kết quả hiếm gặp với mô hình tầm này.

Các thông số kỹ thuật chính:

Cửa sổ ngữ cảnh đầu vào khoảng 1 triệu token (1.048.576 token), tối đa 65.536 token đầu ra
Nhận đầu vào đa phương thức: văn bản, hình ảnh, video, âm thanh, PDF
Bốn mức tư duy: tối thiểu, thấp, trung bình, cao (mặc định: trung bình)
Hỗ trợ giao diện lập trình theo lô, cache câu lệnh, thực thi mã, gọi hàm, tìm kiếm có nền tảng và đầu ra có cấu trúc
Hỗ trợ bộ điều phối đa tác nhân Antigravity theo mặc định

Flash đứng thứ 7 trên Artificial Analysis Intelligence Index và thứ 6 trên Agentic Index, gần với Opus 4.7, mức hiệu năng đáng chú ý cho mô hình tầm Flash.

Hai điểm trừ cần lưu ý: trong lần chạy Intelligence Index, Flash tạo ra 73 triệu token so với mức trung bình 35 triệu, nghĩa là xu hướng dài dòng sẽ đội chi phí đầu ra. Thời gian đến token đầu tiên là 18,88 giây, cao so với mức khoảng 2 giây của các mô hình cùng phân khúc.

So sánh thông số kỹ thuật Claude Opus 4.8 và Gemini 3.5 Flash

Hai mô hình chia sẻ cùng kích thước cửa sổ ngữ cảnh đầu vào nhưng phân hóa rõ rệt ở tốc độ, giá, định dạng đầu vào và dung lượng đầu ra.

Thông số	Claude Opus 4.8	Gemini 3.5 Flash
Ngày phát hành	28/5/2026	19/5/2026
Cửa sổ ngữ cảnh	1 triệu token	1 triệu token
Đầu ra tối đa	128.000 token	65.536 token
Chỉ số trí tuệ tổng hợp	61,4	55
GDPval-AA	1.890 Elo	1.656 Elo
Tốc độ đầu ra	66,8 token/giây	192,2 token/giây
Định dạng đầu vào	Văn bản, hình ảnh	Văn bản, hình ảnh, video, âm thanh, PDF
Giá đầu vào	5 USD/triệu token	1,50 USD/triệu token
Giá đầu ra	25 USD/triệu token	9 USD/triệu token
Chế độ tư duy	Thích ứng duy nhất	4 mức: tối thiểu/thấp/trung bình/cao

Hai mô hình so sánh thế nào về hiệu năng tác nhân tự chủ và lập trình?

Opus 4.8 là lựa chọn mạnh hơn cho kỹ thuật phần mềm chuyên sâu, nhưng Flash tạo ra kết quả bất ngờ ở chỉ số phối hợp đa công cụ.

Trên SWE-bench Pro, chỉ số kiểm thử mô hình trên phiếu kỹ thuật phần mềm thực tế, Opus 4.8 đạt 69,2%, đứng thứ hai chỉ sau Mythos Preview nội bộ của Anthropic. Flash đạt 55,0%, thấp hơn Opus 14,2 điểm nhưng vượt qua Gemini 3.1 Pro ở mức 54,2%, nghĩa là phiên bản Flash này đã bắt kịp tầm mô hình Pro thế hệ trước.

Trên Terminal-Bench Hard, kiểm thử lập trình dựa trên dòng lệnh, quản trị hệ thống và xử lý dữ liệu, Opus 4.8 đạt 58,3% so với Flash ở mức 40,9%. Khoảng cách 17,4 điểm này rõ ràng hơn bất kỳ chỉ số nào khác trong bài so sánh.

Kết quả bất ngờ xuất hiện ở MCP Atlas, chỉ số phối hợp đa công cụ trong tác vụ tác nhân tự chủ:

Chỉ số	Claude Opus 4.8	Gemini 3.5 Flash
MCP Atlas	82,2%	83,6%
SWE-bench Pro	69,2%	55,0%
Terminal-Bench Hard	58,3%	40,9%
GDPval-AA	1.890 Elo	1.656 Elo

Mô hình tầm Flash vượt qua mô hình hàng đầu của Anthropic trên chỉ số tác nhân tự chủ là kết quả không thường thấy theo ranh giới phân tầng. Đây là lập luận rõ ràng nhất cho Flash trong bài so sánh này.

Hai mô hình so sánh thế nào về suy luận và tác vụ chuyên sâu?

Opus 4.8 dẫn rõ ràng trong suy luận học thuật và tác vụ đòi hỏi kiến thức chuyên sâu.

Trên Humanity's Last Exam, bộ câu hỏi thực sự khó ở trình độ sau đại học trải rộng toán học, khoa học và nhân văn, Opus 4.8 đạt 57,9% khi có công cụ hỗ trợ và 49,8% khi không có. Flash đạt 40,25%. Khoảng cách 17,7 điểm phản ánh lợi thế suy luận có hệ thống của Opus trong các lĩnh vực đòi hỏi độ chính xác cao.

Trên GDPval-AA, chỉ số đánh giá mô hình trên tác vụ thực tế thuộc nhiều ngành nghề theo thang điểm Elo, Opus 4.8 đạt 1.890 so với Flash ở mức 1.656. Đây là chỉ số có ý nghĩa thực tiễn nhất để đánh giá mô hình trong môi trường tác nhân tự chủ thực tế, không phải điều kiện kiểm thử nhân tạo.

Hai mô hình khác nhau thế nào về định dạng đầu vào?

Đây là chiều phân hóa rõ ràng nhất và không có ngoại lệ: Flash nhận video, âm thanh và PDF, Opus 4.8 thì không.

Opus 4.8 xử lý văn bản và hình ảnh. Flash xử lý thêm video, âm thanh và PDF. Nếu quy trình xử lý của đội ngũ liên quan đến bất kỳ định dạng nào trong số đó, Flash là lựa chọn duy nhất trong bài so sánh này có thể xử lý trực tiếp mà không cần chuyển đổi định dạng trước.

Trên CharXiv Reasoning, chỉ số đánh giá hiểu biết đa phương thức, Flash đạt 84,2%, phản ánh năng lực xử lý hình ảnh và biểu đồ khoa học mạnh.

Tốc độ và chi phí của hai mô hình khác nhau thế nào?

Flash nhanh hơn gần 3 lần và rẻ hơn 2,8 lần trên mỗi triệu token đầu ra. Với quy trình xử lý khối lượng lớn, chênh lệch này tích lũy nhanh chóng.

Thông số	Claude Opus 4.8	Gemini 3.5 Flash
Tốc độ đầu ra	66,8 token/giây	192,2 token/giây
Giá đầu vào	5 USD/triệu token	1,50 USD/triệu token
Giá đầu ra	25 USD/triệu token	9 USD/triệu token
Giá cache (đầu vào)	0,50 USD/triệu token	0,15 USD/triệu token

Opus 4.8 bù đắp ở dung lượng đầu ra: 128.000 token tối đa so với 65.536 của Flash, gần gấp đôi. Với tác vụ tổng hợp mã nguồn dài, tạo tài liệu hoặc vòng lặp tác nhân tự chủ tạo ra đầu ra lớn trong một lần chạy, dung lượng này có ý nghĩa thực tế.

Một lưu ý về Flash: xu hướng dài dòng (73 triệu token trong lần chạy Intelligence Index so với mức trung bình 35 triệu) có thể đội chi phí đầu ra lên đáng kể so với ước tính ban đầu. Cần theo dõi thực tế khi triển khai.

Infinity News khuyến nghị đội ngũ vận hành quy trình xử lý khối lượng lớn nên kiểm tra mức tiêu thụ token thực tế của Flash trước khi ước tính chi phí, thay vì dùng trực tiếp giá niêm yết.

Nên chọn Claude Opus 4.8 hay Gemini 3.5 Flash?

Quyết định phụ thuộc vào việc đội ngũ đang trả tiền cho chất lượng hay cho thông lượng xử lý.

Tình huống sử dụng	Khuyến nghị	Lý do
Kỹ thuật phần mềm ở cấp kho mã nguồn	Claude Opus 4.8	Dẫn trước 14,2 điểm trên SWE-bench Pro (69,2% so với 55,0%)
Phối hợp đa công cụ trong tác nhân tự chủ	Gemini 3.5 Flash	Dẫn trước trên MCP Atlas (83,6% so với 82,2%)
Suy luận học thuật và tác vụ chuyên sâu	Claude Opus 4.8	Dẫn trước 17,7 điểm trên Humanity's Last Exam
Quy trình xử lý có đầu vào video, âm thanh, PDF	Gemini 3.5 Flash	Định dạng đa phương thức, Opus 4.8 không hỗ trợ
Quy trình xử lý khối lượng lớn, nhạy cảm về chi phí	Gemini 3.5 Flash	Rẻ hơn 2,8 lần ở đầu ra, nhanh hơn gần 3 lần
Tác vụ đòi hỏi ít sai lệch trong lĩnh vực tài chính, y tế	Claude Opus 4.8	Tỷ lệ kết quả sai lệch thấp hơn trên AA-Omniscience
Đầu ra đơn lần dài (tài liệu lớn, mã nguồn lớn)	Claude Opus 4.8	128.000 token so với 65.536 token, gần gấp đôi
Kiểm soát chi phí tư duy chi tiết	Gemini 3.5 Flash	4 mức tư duy so với 1 chế độ thích ứng của Opus 4.8
Xây dựng trong hệ sinh thái Google	Gemini 3.5 Flash	Tích hợp Antigravity và Vertex AI

Thị trường mô hình ngôn ngữ lớn sẽ diễn biến thế nào sau hai mô hình này?

Flash thế hệ này đắt hơn đáng kể so với các phiên bản Flash trước, và Google đã nhận phản hồi tiêu cực về điều đó.

Khoảng cách trí tuệ giữa tầm Flash và tầm hàng đầu vẫn đáng kể, điều này làm giảm lý lẽ cho việc trả giá gần mức hàng đầu cho mô hình Flash. Cuộc đua thú vị hơn là mô hình nhỏ thực sự giỏi về lập trình và tác vụ tác nhân tự chủ trong khi vẫn rẻ như Composer 2.5 của Cursor.

Chế độ nhanh của Anthropic là điều cần theo dõi với lập trình tác nhân tự chủ, nhưng mức giá 10 USD/50 USD mỗi triệu token sẽ cản trở việc áp dụng rộng rãi với các nhà phát triển chạy vòng lặp dài. Anthropic tập trung vào lập trình và khó có khả năng đuổi theo Google vào video và âm thanh trong tương lai gần. Điều đó trao cho Google lợi thế, nhưng chỉ khi Google có thể ra mắt mô hình Flash hoặc hàng đầu vượt qua Opus trong tác vụ tác nhân tự chủ, điều chưa xảy ra.

Kết luận

Opus 4.8 là lựa chọn đúng khi chất lượng hoàn thành tác vụ và rủi ro sai lệch có hậu quả thực tế, trong lĩnh vực tài chính hay y tế chẳng hạn. Flash là lựa chọn đúng khi tối ưu hóa thông lượng xử lý, chi phí hoặc đầu vào đa phương thức.

Infinity News nhận thấy toàn bộ dữ liệu chỉ về một kết luận: hai mô hình này thực chất không cạnh tranh cho cùng một loại công việc, và hầu hết đội ngũ sẽ biết họ thuộc về phía nào chỉ sau một câu mô tả khối lượng công việc của mình. Câu hỏi khó hơn là liệu Google có thể thu hẹp khoảng cách năng lực mà không từ bỏ lợi thế giá làm cho Flash đáng dùng. Google đang chạy Gemini 3.5 Pro nội bộ, và mô hình đó, không phải Flash, mới là thứ nhiều khả năng tạo áp lực thực sự lên Opus 4.8.

Claude gemini