+2

So sánh Claude Opus 4.7 với Gemini 3.1 Pro

Claude Opus 4.7 và Gemini 3.1 Pro là hai model AI hàng đầu năm 2026, với Opus dẫn đầu về khả năng lập trình và xử lý công việc tự động, trong khi Gemini chiếm ưu thế về giá cả và khả năng xử lý nhiều dạng nội dung. Bài viết so sánh chi tiết hai model qua các bài kiểm tra thực tế, giá cả và trường hợp sử dụng cụ thể để giúp bạn chọn đúng công cụ.


Tóm tắt các điểm chính

  • Opus 4.7 đạt 87.6% trên bài kiểm tra sửa lỗi code thực tế (SWE-bench Verified), cao hơn Gemini 10+ điểm, khẳng định vị thế model lập trình mạnh nhất thế giới
  • Gemini 3.1 Pro rẻ hơn 2.5 lần (đầu vào $2/1 triệu từ vs $5, đầu ra $12 vs $25) và có giá xử lý hàng loạt giảm thêm 50%
  • Tính năng kiểm soát chi phí của Opus 4.7 cho phép đặt giới hạn ngân sách khi AI làm việc tự động, tính năng độc quyền chưa có ở Gemini
  • Opus hỗ trợ tạo nội dung dài gấp đôi Gemini trong một lần (128 nghìn từ vs 65 nghìn), quan trọng khi tạo code hoặc tài liệu lớn
  • Gemini dẫn đầu bài kiểm tra tư duy trừu tượng (77.1% vs 75.8%) và xử lý được video/audio/PDF trực tiếp trong một lần gọi

Claude Opus 4.7 là gì?

Claude Opus 4.7 là phiên bản cao cấp nhất từ Anthropic, ra mắt ngày 16/4/2026 để thay thế Opus 4.6. Model này được thiết kế để xử lý công việc phức tạp đòi hỏi AI làm việc tự động qua nhiều bước, với cải tiến đáng kể về khả năng viết code, nhận diện hình ảnh và sử dụng công cụ.

Tính năng chính của Claude Opus 4.7

Kiểm soát ngân sách theo tác vụ là tính năng nổi bật nhất của Opus 4.7. Bạn có thể đặt giới hạn tiền cho một công việc mà AI được phép tiêu. Hệ thống này ngăn chi phí phát sinh bất ngờ khi AI làm việc tự động bằng cách buộc model phải tối ưu và giữ trong ngân sách đã đặt. Đây là giải pháp cho nỗi đau lớn nhất của lập trình viên khi chạy AI tự động trong thời gian dài.

Opus 4.7 có khả năng đọc hiểu 1 triệu từ trong một lần và tạo ra tối đa 128 nghìn từ. Con số này cho phép model xử lý công việc kéo dài trong khi vẫn giữ toàn bộ. Ví dụ điển hình là khi phân tích một dự án code lớn mà không bị quên.

Model cũng nâng cấp khả năng xử lý hình ảnh, hỗ trợ ảnh lên đến 3.75 megapixel. Kết quả là nhận diện hình ảnh tốt hơn Opus 4.6, biến nó thành lựa chọn lý tưởng khi cần trích xuất dữ liệu từ biểu đồ độ phân giải cao.

Mức suy nghĩ mở rộng (xhigh) là mức tư duy mới nằm giữa cao và tối đa, được điều chỉnh đặc biệt cho công việc lập trình và tự động hóa. Bạn cũng có thể dùng mức cao thông thường cho suy nghĩ ít hơn một chút. Anthropic còn giới thiệu tính năng rà soát code tự động trong Claude Code để kiểm tra thay đổi code và phát hiện lỗi sớm.

Điều có thể gây bất ngờ là Adaptive Thinking (tư duy thích ứng) giờ không hiển thị quá trình suy nghĩ mặc định nữa. Bạn phải bật chế độ tóm tắt để xem lại quá trình tư duy.

Kết quả kiểm tra của Claude Opus 4.7

Opus 4.7 đạt 87.6% trên bài kiểm tra sửa lỗi code thực tế từ GitHub (SWE-bench Verified). Con số này cao hơn đáng kể so với các đối thủ và khẳng định vị thế model lập trình mạnh nhất hiện tại.

Trên phiên bản khó hơn của bài kiểm tra này (SWE-bench Pro), Opus 4.7 đạt 64.3%. Đây là khoảng cách 10 điểm so với Gemini 3.1 Pro (54.2%), một khoảng cách có ý nghĩa trong môi trường thực tế nơi mỗi phần trăm giảm số lần thất bại.

Model cũng đạt 78% trên bài kiểm tra sử dụng máy tính tự động (OSWorld), và 77.3% trên bài kiểm tra điều phối nhiều công cụ cùng lúc (MCP Atlas).

Khi Opus 4.7 ra mắt, nó đứng đầu bảng xếp hạng trí tuệ AI của Artificial Analysis với điểm 57. Model cũng dẫn đầu công việc tự động thực tế với 1,753 điểm Elo. Tuy nhiên, GPT-5.5 sau đó đã vượt qua trên cả hai bảng xếp hạng này.

Ưu và nhược điểm của Claude Opus 4.7

Ưu điểm:

Các model của Anthropic từ lâu được biết đến là tốt nhất cho lập trình, và kết quả kiểm tra của Opus 4.7 chứng minh điều đó. Tính năng kiểm soát ngân sách rất hữu ích, đặc biệt cho người chạy AI tự động trong thời gian dài nơi chi phí có thể tăng vọt không kiểm soát.

Model có sẵn qua nhiều nhà cung cấp đám mây như Amazon Bedrock, Google Vertex AI và Microsoft Foundry. Điều này giúp dễ dàng tích hợp vào hệ thống hiện tại của bạn.

Opus 4.7 đi kèm bộ xử lý từ mới. Theo Artificial Analysis Intelligence, Opus 4.7 dùng ít hơn ~35% số từ đầu ra so với Opus 4.6 để chạy cùng bài kiểm tra. Hiệu quả này một phần bù đắp chi phí cao hơn.

Nhược điểm:

Dòng Opus không rẻ. Đầu vào $5 trên một triệu từ, đầu ra $25 trên một triệu từ. Bộ xử lý từ mới khiến việc so sánh chi phí với Opus 4.6 khó hơn một chút, nhưng kết luận vẫn là đây là model đắt.


Gemini 3.1 Pro là gì?

Gemini 3.1 Pro là phiên bản cao cấp hiện tại từ Google DeepMind, ra mắt 19/2/2026. Model sử dụng kiến trúc kết hợp nhiều chuyên gia dựa trên Transformer. Khi Gemini 3.1 Pro ra mắt, nó dẫn bảng xếp hạng trí tuệ AI 4 điểm so với Opus 4.6, và hiện ngang bằng Opus 4.7 với điểm 57.

Tính năng chính của Gemini 3.1 Pro

Không giống Gemini 3 Pro có hai mức, Gemini 3.1 Pro có 3 mức suy nghĩ: thấp, trung bình và cao.

Mức thấp tốt nhất cho tốc độ và tối ưu chi phí. Dùng khi bạn cần phản hồi nhanh và công việc không quá phức tạp.

Mức trung bình cung cấp cách tiếp cận cân bằng giữa chất lượng và chi phí. Đây là mức mặc định cho hầu hết trường hợp sử dụng.

Mức cao tạo ra nhiều từ suy nghĩ nhất và phản hồi chậm nhất. Chỉ dùng cho công việc đòi hỏi suy luận phức tạp như giải quyết vấn đề nhiều bước hoặc phân tích sâu.

Gemini 3.1 Pro có khả năng đọc hiểu 1 triệu từ cho đầu vào, ngang với Opus 4.7. Tuy nhiên khả năng tạo nội dung nhỏ hơn, khoảng 65 nghìn từ. Model xử lý được nhiều dạng nội dung, hỗ trợ âm thanh, PDF, văn bản và hình ảnh trong cùng một lần gọi.

Kết quả kiểm tra của Gemini 3.1 Pro

Gemini 3.1 Pro dẫn đầu trên bài kiểm tra tư duy trừu tượng (ARC-AGI-2) với điểm 77.1%. Bài kiểm tra này đo khả năng giải quyết bài toán tư duy trừu tượng mà model chưa từng gặp trước đó.

Trên bài kiểm tra điều phối nhiều công cụ (MCP Atlas), Gemini 3.1 Pro đạt 73.9%. Con số này thấp hơn Opus 4.7 (77.3%) nhưng vẫn rất cạnh tranh.

Theo Artificial Analysis Intelligence, Gemini 3.1 Pro xử lý hiệu quả, dùng khoảng 57 triệu từ để chạy bài kiểm tra của họ so với Opus 4.6.

Gemini 3.1 Pro dẫn Opus 4.7 trên bảng xếp hạng lập trình nhưng thua trên bảng xếp hạng tự động hóa. Điều này cho thấy điểm mạnh khác nhau của hai model.

Ưu và nhược điểm của Gemini 3.1 Pro

Ưu điểm:

Giá của Gemini 3.1 Pro rất hấp dẫn, đặc biệt cho công việc cần nhiều từ. Đầu vào $2 trên một triệu từ, đầu ra $12 trên một triệu từ, rẻ hơn Opus 4.7 tới 2.5 lần.

Google còn giảm 50% với mô hình xử lý hàng loạt. Điều này biến Gemini thành lựa chọn lý tưởng khi bạn không cần kết quả ngay lập tức. Ở mức 500 triệu từ mỗi tháng, chênh lệch này là $1,500 mỗi tháng.

Hỗ trợ nhiều dạng nội dung trực tiếp là điểm mạnh lớn. Bạn có thể đưa video, âm thanh hoặc PDF vào trong một lần gọi mà không cần xử lý trước riêng.

Nhược điểm:

Khả năng tạo nội dung 65 nghìn từ chỉ bằng một nửa Opus 4.7 (128 nghìn). Nếu công việc của bạn cần tạo tài liệu dài hoặc nhiều file code phức tạp trong một lần, giới hạn này có thể ảnh hưởng.

Gemini 3.1 Pro thiếu tính năng kiểm soát ngân sách theo tác vụ. Bạn phải dùng các mức suy nghĩ để kiểm soát chi phí, cơ chế không chính xác bằng đặt giới hạn ngân sách cứng.


So sánh trực tiếp: Claude Opus 4.7 vs Gemini 3.1 Pro

Bảng so sánh nhanh

Tiêu chí Claude Opus 4.7 Gemini 3.1 Pro
Ngày ra mắt 16/4/2026 19/2/2026
Khả năng đọc hiểu 1 triệu từ 1 triệu từ
Khả năng tạo nội dung 128 nghìn từ 65 nghìn từ
Sửa lỗi code thực tế 87.6% 80.6%
Sửa lỗi code khó 64.3% 54.2%
Tư duy trừu tượng 75.8% 77.1%
Khoa học chuyên sâu 94.2% 94.3%
Điều phối nhiều công cụ 77.3% 73.9%
Sử dụng máy tính tự động 78.0% Chưa công bố
Xử lý hình ảnh 2576px / 3.75MP Đa phương thức (video, audio, PDF)
Giá đầu vào $5/1 triệu từ $2/1 triệu từ
Giá đầu ra $25/1 triệu từ $12/1 triệu từ

Hiệu suất làm việc tự động và điều khiển máy tính

Opus 4.7 rất mạnh cho công việc tự động, đặc biệt nhờ tính năng kiểm soát ngân sách cho phép đặt giới hạn số từ AI được phép tiêu. Hệ thống này không có ở Gemini 3.1 Pro, nơi bạn phải dùng các mức suy nghĩ để kiểm soát chi phí.

Opus 4.7 đạt 78% trên bài kiểm tra sử dụng máy tính tự động (OSWorld). Kết quả này ngang với GPT 5.5 (78.7%), trong khi Gemini 3.1 Pro chưa công bố kết quả trên bài kiểm tra này.

Trên bài kiểm tra điều phối nhiều công cụ (MCP Atlas), Opus 4.7 dẫn đầu với 77.3% so với Gemini 73.9%. Con số này đo khả năng phối hợp công việc với nhiều công cụ, một khả năng quan trọng cho hệ thống tự động trong thực tế.

Tính năng kiểm soát ngân sách của Opus 4.7 cho phép bạn đặt ràng buộc như "AI này được phép dùng tối đa $5 để hoàn thành công việc". Khi AI đạt gần giới hạn, nó sẽ tự điều chỉnh để hoàn thành trong ngân sách. Đây là tính năng độc quyền chưa có ở các đối thủ.

Khả năng lập trình

Opus 4.7 đạt 87.6% trên bài kiểm tra sửa lỗi code thực tế (SWE-bench Verified) so với 80.6% của Gemini 3.1 Pro. Trên phiên bản khó hơn (SWE-bench Pro), Opus đạt 64.3% so với 54.2% của Gemini (và 58.6% của GPT 5.5). Con số này cho thấy Opus 4.7 hiện là model lập trình mạnh nhất thế giới.

Trên bài kiểm tra lập trình trên terminal (Terminal-Bench 2.0), Opus 4.7 đạt 69.4%, Gemini Pro đạt 68.5%, còn GPT 5.5 mới đạt 82.7%. GPT-5.5 thắng rõ ràng trên bài kiểm tra này, trong khi hai model của chúng ta ngang nhau.

Khoảng cách 10 điểm trên bài kiểm tra khó (SWE-bench Pro) là sự khác biệt có ý nghĩa nhất giữa hai model về khả năng lập trình. Trong môi trường thực tế, điều này dịch trực tiếp thành ít lần thất bại hơn khi chạy tự động.

Khả năng suy luận và khoa học

Gemini 3.1 Pro đạt 77.1% trên bài kiểm tra tư duy trừu tượng (ARC-AGI-2) so với 75.8% của Opus 4.7 và 85.0% của GPT 5.5. GPT 5.5 thắng rõ ràng, tiếp theo là Gemini 3.1 Pro.

Trên bài kiểm tra Humanity's Last Exam, đo khả năng suy luận cấp đại học qua khoa học, toán và nhân văn, Opus 4.7 dẫn đầu Gemini 3.1 Pro trong cả hai trường hợp có và không có công cụ:

Không dùng công cụ: Opus 4.7 dẫn đầu với 46.9%, tiếp theo là Gemini 3.1 Pro (44.4%) và GPT 5.5 Pro (43.1%).

Có dùng công cụ: GPT 5.5 Pro dẫn đầu với 57.2%, tiếp theo là Opus 4.7 (54.7%) và Gemini 3.1 Pro (51.4%).

Chi phí và hiệu quả xử lý

Opus 4.7 tốn $5 cho một triệu từ đầu vào và $25 cho một triệu từ đầu ra, trong khi Gemini 3.1 Pro tốn $2 cho đầu vào và $12 cho đầu ra. Gemini rẻ hơn nhiều, và với giảm giá 50% khi xử lý hàng loạt, model này có giá rất tốt cho công việc cần nhiều từ.

Quan trọng là bộ xử lý từ mới của Opus 4.7 khiến việc so sánh chi phí với phiên bản Opus trước khó hơn một chút. Tuy nhiên dữ liệu thực tế cho thấy Opus 4.7 dùng ít từ hơn khoảng 35% so với Opus 4.6 cho cùng công việc.

Khả năng đọc hiểu và tạo nội dung

Cả hai model đều chấp nhận 1 triệu từ đầu vào, cho phép chúng xử lý toàn bộ dự án code và tài liệu nghiên cứu dài trong một lần.

Về khả năng tạo nội dung, Opus 4.7 hỗ trợ 128 nghìn từ trong khi Gemini 3.1 Pro hỗ trợ 65,536 từ. Điều này khiến Opus trở thành lựa chọn tốt hơn cho công việc cần tạo nhiều code hoặc tài liệu dài.


Nên chọn Claude Opus 4.7 hay Gemini 3.1 Pro?

Câu hỏi đặt ra là: bạn nên chọn model nào trong hai?

Chọn Claude Opus 4.7 khi

  • Bạn đang xây dựng hệ thống tự động viết code, nơi khoảng cách 10 điểm trên bài kiểm tra khó dịch trực tiếp thành ít lần thất bại hơn trong thực tế
  • Bạn cần kiểm soát ngân sách để làm cho vòng lặp tự động dài có thể dự đoán được mà không cần thêm logic giám sát bên ngoài
  • Hệ thống của bạn tạo nội dung đầu ra dài, và giới hạn 128 nghìn từ quan trọng, gần gấp đôi những gì Gemini 3.1 Pro hỗ trợ
  • Bạn muốn điểm cao nhất về điều phối nhiều công cụ cho công việc tự động phức tạp
  • Bạn đã ở trong hệ sinh thái Anthropic qua Claude Code, Amazon Bedrock hoặc API của Claude, và chi phí chuyển đổi lớn hơn chênh lệch giá

Chọn Gemini 3.1 Pro khi

  • Khối lượng từ của bạn khiến chênh lệch giá đầu vào 2.5 lần trở nên đáng kể — ở mức 500 triệu từ mỗi tháng, khoảng cách đó là $1,500 mỗi tháng
  • Bạn cần xử lý video, âm thanh hoặc PDF trực tiếp trong một lần gọi mà không cần bước tiền xử lý riêng
  • Bạn đang xây dựng trên hạ tầng Google và muốn quan hệ một nhà cung cấp qua Vertex AI
  • Tư duy trừu tượng hình ảnh là trường hợp sử dụng chính của bạn — Opus đạt 75.8% so với 77.1% của Gemini
  • Giá rẻ là ưu tiên hàng đầu và bạn có thể chấp nhận khả năng tạo nội dung ít hơn

Kết luận

Claude Opus 4.7 và Gemini 3.1 Pro đều là model mạnh. Lựa chọn model nào phụ thuộc vào ngân sách và công việc bạn muốn thực hiện. Opus thắng về công việc tự động và lập trình, nhưng nếu vượt ngân sách, Gemini 3.1 Pro cũng là ứng viên mạnh, đặc biệt với giá rẻ hơn và giảm 50% khi xử lý hàng loạt.

Anthropic duy trì vị trí dẫn đầu về model lập trình tốt nhất, khiến nó phù hợp cho công việc tự động đòi hỏi suy luận phức tạp và lập trình. Google cung cấp model suy luận tiên tiến với giá thấp hơn đáng kể so với Anthropic. Cuộc cạnh tranh giữa cả hai công ty và các đối thủ lớn như OpenAI là cung cấp model tự động tốt nhất mà cũng là model đa năng tốt.

Với giá đắt của dòng Opus, việc giới thiệu kiểm soát ngân sách theo tác vụ là điều tốt. Chúng ta sẽ không bất ngờ nếu thấy các nhà cung cấp khác tích hợp tính năng này trong bản phát hành tương lai. Đây sẽ là bổ sung tốt để làm cho chi phí chạy AI tự động trong thời gian dài có thể dự đoán được hơn.


Nguồn: Infinity News — tạp chí trực tuyến đa chuyên mục tập trung vào khoa học, công nghệ, thị trường và đời sống, cung cấp tin tức cập nhật, phân tích chuyên sâu và bài viết hướng dẫn thực tiễn.


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí