1.6K 23 36

Đã đăng vào thg 4 25, 7:16 SA

trong

10 phút đọc

114

So sánh Claude Opus 4.7 và GPT-5.4: Lập trình, quy trình tự động và tác vụ ngữ cảnh dài

So sánh Claude Opus 4.7 và GPT-5.4 cho lập trình, quy trình tự động và tác vụ ngữ cảnh dài, phân tích benchmarks, cấu trúc giá và sử dụng công cụ để định hướng lựa chọn model. Opus 4.7 dẫn đầu SWE-bench Pro với 64.3% so với 57.7% của GPT-5.4, trong khi GPT-5.4 vượt trội BrowseComp ở mức 89.3% so với 79.3%.

Tóm tắt các điểm chính

Claude Opus 4.7 dẫn đầu lập trình cấp repository với 64.3% SWE-bench Pro, GPT-5.4 dẫn Terminal-Bench 2.0 với 75.1%
Opus 4.7 tính giá cố định trên toàn bộ context window 1M tokens, GPT-5.4 định giá lại toàn bộ phiên khi vượt ngưỡng 272K tokens
GPT-5.4 rẻ hơn gần một nửa cho tác vụ ngữ cảnh ngắn dưới 100K tokens (0.40 USD vs 0.75 USD)
Opus 4.7 đạt 78.0% OSWorld-Verified cho desktop computer use, GPT-5.4 đạt 89.3% BrowseComp cho nghiên cứu web
Tokenizer mới của Opus 4.7 tạo nhiều hơn tới 35% tokens so với 4.6 cho cùng input

Opus 4.7 và GPT-5.4 được định vị như thế nào?

So sánh trực tiếp giữa Opus 4.7 và GPT-5.4

OpenAI định vị GPT-5.4 ra sao?

OpenAI định vị GPT-5.4 là model đa năng thống nhất. GPT-5.4 hấp thụ khả năng lập trình trước đây tồn tại trong GPT-5.3-Codex, vì vậy developers không còn cần định tuyến requests đến các endpoints khác nhau theo loại tác vụ. Một model, một endpoint, bất kể tác vụ là gì.

Anthropic định vị Opus 4.7 hẹp hơn thế nào?

Anthropic định vị Opus 4.7 hẹp hơn: một model được tối ưu hóa cho lập trình, agents, computer use và quy trình doanh nghiệp, với tự chủ tầm xa là điểm phân biệt chính. Bạn giao công việc kỹ thuật khó và tin tưởng model để bắt lỗi của chính nó trước khi báo cáo lại.

Đáng lưu ý rằng Opus 4.7 là model có khả năng nhất của Anthropic được phát hành rộng rãi, nhưng không phải model đỉnh của họ. Claude Mythos Preview nằm phía trên nó, bị hạn chế cho các quy trình an ninh mạng phòng thủ.

Lập trình và quy trình tự động khác nhau như thế nào?

Opus 4.7 có tính năng gì nổi bật cho lập trình?

Opus 4.7 dẫn đầu trên các benchmarks lập trình cấp repository. Opus 4.7 giới thiệu self-output verification — model kiểm tra công việc của chính nó trước khi báo cáo lại — và khả năng chống lặp vòng: Opus 4.7 ít có khả năng bị mắc kẹt lặp trên một vấn đề duy nhất. Đó là loại điều bạn chỉ quan tâm một khi đã có một agent lặp trong 40 phút trên không có gì.

Các bài kiểm tra hiệu năng lập trình cho thấy Opus 4.7 vượt trội hơn hẳn

GPT-5.4 có ưu điểm gì?

GPT-5.4 dẫn đầu Terminal-Bench 2.0 khoảng sáu điểm (75.1% so với 69.4%), mặc dù Anthropic đánh dấu rằng con số của GPT-5.4 đến từ một harness tự báo cáo. GPT-5.4 cũng giới thiệu Interactive Thinking: trong quá trình suy luận phức tạp, bạn có thể can thiệp trước khi model hoàn thành tạo và chuyển hướng nó nếu đường đi trông sai. Opus 4.7 không có tính năng tương đương.

Context window và công việc ngữ cảnh dài khác nhau ra sao?

Cả hai model hỗ trợ context window thế nào?

Cả hai models đều hỗ trợ khoảng 1M tokens. Điều khác biệt là những gì xảy ra với hóa đơn của bạn khi sử dụng context đó. Opus 4.7 tính phí cố định trên toàn bộ window — một request 900K tokens có chi phí mỗi token giống như một request 9K. GPT-5.4 tính phí 2.50 USD cho mỗi triệu dưới 272K input tokens, nhưng vượt qua ngưỡng đó và toàn bộ phiên được định giá lại.

Tokenizer mới ảnh hưởng thế nào?

Có một vấn đề tokenizer quan trọng: Opus 4.7 có thể ánh xạ cùng văn bản đến nhiều hơn tới 35% tokens so với 4.6. Giá mỗi token không thay đổi, nhưng chi phí hiệu quả cho mỗi tác vụ có thể tăng. Đo trên traffic thực; ngoại suy từ baselines 4.6 sẽ cho bạn một con số quá thấp.

Sử dụng công cụ và tương tác môi trường khác nhau thế nào?

Desktop computer use so sánh như thế nào?

Trên OSWorld-Verified (desktop computer use), Opus 4.7 dẫn đầu ở 78.0% so với 75.0% của GPT-5.4, với cả hai trên baseline chuyên gia con người 72.4%. Bức tranh đảo ngược trên nghiên cứu web dựa trên trình duyệt: GPT-5.4 đạt 89.3% trên BrowseComp so với 79.3% của Opus 4.7. Một tiêu đề computer use duy nhất che khuất sự phân chia desktop-versus-browser.

Nâng cấp đa phương thức của Opus 4.7 là gì?

Nâng cấp đa phương thức headline của Opus 4.7 là độ phân giải thị giác: hình ảnh lên tới 2,576 pixels trên cạnh dài (khoảng 3.75 megapixels), hơn ba lần các Claude models trước. XBOW, một đối tác kiểm thử bảo mật, báo cáo độ nhạy thị giác nhảy từ 54.5% trên Opus 4.6 lên 98.5% trên 4.7 — mức tăng single-benchmark sắc nhất trên bất kỳ đánh giá đối tác nào trong phiên bản này.

Kiến trúc công cụ khác nhau ra sao?

Hai model cũng khác nhau về kiến trúc công cụ. Hệ thống tool search của GPT-5.4 tải definitions theo yêu cầu thay vì nhúng tất cả chúng vào prompt, cắt giảm token overhead trong các hệ sinh thái công cụ lớn. Opus 4.7 suy luận qua một vấn đề trước khi tìm công cụ, sử dụng ít tool calls hơn tổng thể.

Benchmarks kiểm thử cho kết quả gì?

Coding benchmarks

Benchmark	Claude Opus 4.7	GPT-5.4	Ghi chú
SWE-bench Pro	64.3%	57.7%	Do nhà cung cấp báo cáo; các cấu hình harness khác nhau
SWE-bench Verified	87.6%	Không công bố	OpenAI chưa phát hành điểm số chính thức trên biến thể này
CursorBench	~70%	Không công bố	Cursor là đối tác Anthropic; không độc lập
Terminal-Bench 2.0	69.4%	75.1%	Anthropic lưu ý con số GPT-5.4 đến từ harness tự báo cáo
GPQA Diamond	94.2%	94.4% (Pro)	Về cơ bản ngang nhau; gần bão hòa ở mức này

Agent và computer-use benchmarks

Benchmark	Claude Opus 4.7	GPT-5.4	Ghi chú
OSWorld-Verified	78.0%	75.0%	Desktop computer use; cả hai trên baseline chuyên gia 72.4%
BrowseComp	79.3%	89.3% (Pro)	Nghiên cứu web multi-hop; GPT-5.4 dẫn
MCP-Atlas	77.3%	68.1%	Sử dụng công cụ quy mô lớn trên nhiều dịch vụ kết nối
WebArena-Verified	Không công bố	67.3%	Tác vụ điều hướng web tự động
Toolathlon	Không công bố	54.6%	Điều phối công cụ nhiều bước
Finance Agent v1.1	64.4%	61.5% (Pro)	Agent nghiên cứu tài chính long-context
GDPval-AA	1753 Elo	1674 Elo	Opus 4.7 dẫn 79 điểm Elo
BigLaw Bench	90.9% ở high effort	Không công bố	Tác vụ tài liệu pháp lý; đánh giá đối tác Harvey

Bức tranh phân chia theo môi trường: Opus 4.7 thắng trên desktop, tool use và knowledge work. GPT-5.4 thắng trên nghiên cứu trình duyệt.

Giá Opus 4.7 vs GPT-5.4 khác nhau thế nào?

Cấu trúc giá API

Sự khác biệt về giá dễ hiểu nhất thông qua các scenarios cụ thể:

Request 100K input + 10K output (dưới ngưỡng 272K): GPT-5.4 ~ 0.40 USD vs Opus 4.7 ~ 0.75 USD — gần một nửa giá
Request 500K input + 20K output (vượt ngưỡng GPT-5.4): hai models có giá xấp xỉ bằng nhau — 2.95 USD vs 3.00 USD
Request 900K input + 10K output: gần như giống hệt nhau

Ngưỡng định giá lại 272K hoạt động như thế nào?

Ngưỡng định giá lại 272K là phần khiến mọi người bất ngờ nhất: nó áp dụng cho toàn bộ phiên, không chỉ các tokens trên cutoff. Một pipeline thường xuyên gửi prompts 280K tokens trả mức long-context đầy đủ trên mọi request duy nhất. Đây là định giá lại cấp phiên, không phải phụ phí cận biên.

Giảm giá nào có sẵn?

Cả hai platforms đều cung cấp khoảng 90% giảm giá trên cached input tokens: 0.50 USD cho mỗi triệu cho Opus 4.7, 0.25 USD cho mỗi triệu cho GPT-5.4 dưới 272K. Batch APIs thêm khoảng 50% giảm giá khác cho công việc không khẩn cấp.

Cũng có chi phí per-tool thường bị bỏ lỡ: Anthropic tính phí 10 USD cho mỗi 1,000 web searches, cộng chi phí tokens tiêu chuẩn cho nội dung được truy xuất. OpenAI tính phí cho file search storage và queries riêng biệt.

Nên chọn model nào?

Claude Opus 4.7 có tốt hơn GPT-5.4 không?

Khi nào nên chọn Claude Opus 4.7?

Công việc chính là kỹ thuật phần mềm chạy dài nơi self-verification quan trọng
Agent vận hành desktop applications
Prompts thường xuyên vượt quá 272K tokens
Quy trình công việc đọc screenshots dày đặc hoặc sơ đồ kỹ thuật
Đã ở trên Claude Code, Cursor, Replit hoặc Devin

Khi nào nên chọn GPT-5.4?

Agent thực hiện nghiên cứu web dựa trên trình duyệt nặng
Workloads ở dưới 272K tokens và chi phí quan trọng
Muốn deferred tool loading trên một hệ sinh thái công cụ lớn
Team đã ở trên OpenAI Responses API

Khi nào nên kiểm thử cả hai?

Xem xét kiểm thử cả hai nếu công việc phân chia giữa nghiên cứu web tự động và lập trình dài. Điểm mạnh trình duyệt và terminal của GPT-5.4 phù hợp với quy trình web tự động. Khả năng chống lặp vòng và giá cố định của Opus 4.7 hoạt động tốt hơn cho các phiên kỹ thuật sâu và pipelines tài liệu nặng.

Kết luận

Khoảng cách giữa Claude Opus 4.7 và GPT-5.4 ít về model nào thông minh hơn và nhiều về hình dạng công việc bạn đang làm.

Anthropic đặt cược vào tự chủ: một model được xây dựng để giữ coherence qua các lần chạy kỹ thuật dài và kiểm tra output của chính nó. OpenAI đặt cược vào độ rộng: một bề mặt công cụ rộng hơn và mức giá rẻ hơn cho phần lớn prompts ở dưới 272K tokens.

Giá là nơi hầu hết teams bị bắt bất ngờ — thay đổi giá ở phiên 272K là cái bẫy cụ thể. Điều thực sự di chuyển chi tiêu hàng tháng nhiều hơn lựa chọn mức giá cơ bản thường là caching và giảm giá Batch API trên cả hai platforms. Khoảng cách benchmarks là các chữ số đơn, và cả hai nhà cung cấp đang shipping các models mới mỗi vài tuần — chọn cái phù hợp với stack thực tế của bạn và xem xét lại trong một tháng.

Nguồn: Infinity News — trang cung cấp các bài phân tích chuyên sâu và tin tức cập nhật về Khoa học, Công nghệ, Đổi mới và Sáng tạo, giúp người đọc nắm bắt xu hướng và ứng dụng vào thực tế.

Claude ChatGPT