0

Claude Opus 4.7 đã ra mắt: Sam Altman có lẽ sẽ phải mất ngủ

Anthropic đang cập nhật với tốc độ chóng mặt trong thời gian gần đây. Với việc phát hành Claude Opus 4.7, không có gì ngạc nhiên khi một làn sóng phấn khích lớn đã bùng nổ. Tuy nhiên, những người theo dõi Anthropic đều biết rằng đây vẫn chưa phải là mô hình mạnh nhất của họ—như họ đã đề cập trên X, "Claude Mythos Preview" (mô hình mạnh nhất của họ) vẫn chưa được phát hành công khai.

Dù vậy, Claude Opus 4.7 cũng đã đủ để khiến Sam Altman có vài đêm không yên giấc. Bởi vì nó thực sự rất "xịn".

Mô tả hình ảnh

Sự tiến hóa của năng lực cốt lõi: Từ "Kẻ thực thi" thành "Đồng nghiệp cấp cao"

Cải tiến lớn nhất của Opus 4.7 nằm ở khả năng phục hồi và tính nhất quán khi xử lý các tác vụ kỹ thuật phức tạp, chu kỳ dài.

Đột phá về định lượng trong Kỹ thuật phần mềm

Trong bài kiểm tra SWE-bench Pro—thước đo khả năng giải quyết các vấn đề mã nguồn thực tế—điểm số của Opus 4.7 đã tăng từ 53,4% ở thế hệ trước lên 64,3%. Thành tích này không chỉ phá kỷ lục mà còn nới rộng khoảng cách giữa Claude với GPT-5.4 hay Gemini 3.1 Pro. Hơn nữa, trong quá trình phát triển thực tế, nó có ý thức tự xác thực rất mạnh, liên tục kiểm tra logic trước khi gửi (submit) nhiệm vụ.

Mô tả hình ảnh

Nhận thức thị giác ở cấp độ pixel (Hỗ trợ độ phân giải cao)

Đây là mô hình đầu tiên trong dòng Claude thực sự hỗ trợ hình ảnh độ phân giải cao. Giới hạn pixel cho cạnh dài nhất đã được tăng từ 1568px lên 2576px (khoảng 3.75MP), mang lại độ sắc nét gấp ba lần so với thế hệ trước.

  • Ánh xạ tọa độ 1:1: Tọa độ của mô hình hiện khớp hoàn toàn với pixel thực tế. Các nhà phát triển không còn cần phải viết các thuật toán thu phóng phức tạp để tự động hóa màn hình hoặc định vị hình ảnh.
  • Bước nhảy vọt về suy luận thị giác: Trong bài kiểm tra suy luận thị giác CharXiv, điểm số đã tăng vọt từ 69,1% lên 82,1%. Giờ đây, nó có thể xác định chính xác các ảnh chụp màn hình trang web mật độ cao, sơ đồ kiến trúc hệ thống phức tạp và các báo cáo tài chính chính xác.

Từ chối tuân thủ mù quáng và phản biện logic

Opus 4.7 không còn là kẻ "luôn chiều lòng người khác" (people-pleaser) nữa. Các thử nghiệm trên các nền tảng như Hex cho thấy khi người dùng cung cấp dữ liệu thiếu hoặc hướng dẫn logic sai, mô hình sẽ chỉ ra lỗi và báo cáo vấn đề thay vì tự bịa đặt ra câu trả lời. Nó hoàn toàn khác biệt so với các mô hình "ba phải" khác—bạn không còn phải lo lắng về logic code không ổn định do AI chỉ cố gắng tỏ ra hữu ích.

Mô tả hình ảnh

Các thay đổi về API

Để theo đuổi hiệu quả suy luận và tính xác định cao hơn, Anthropic đã tinh giản đáng kể logic API trong Opus 4.7, yêu cầu các nhà phát triển phải điều chỉnh code ngay lập tức.

  • Loại bỏ các tham số lấy mẫu (Bắt buộc): Mô hình mới đã loại bỏ temperature, top_ptop_k. Nếu yêu cầu (request) chứa các tham số này, API sẽ trả về lỗi 400. Khuyến nghị chính thức là dẫn dắt sự sáng tạo của mô hình thông qua kỹ thuật nhắc lệnh (prompt engineering).
  • Quy trình tư duy bị ẩn theo mặc định: Để giảm độ trễ, nội dung của các "Khối tư duy" (Thinking Blocks) hiện bị bỏ qua theo mặc định. Nếu bạn cần hiển thị quá trình suy luận, bạn phải đặt tham số display thành summarized một cách thủ công.
  • Tư duy thích ứng (Adaptive Thinking): Đây là chế độ tư duy duy nhất được hỗ trợ cho 4.7; các "Ngân sách tư duy mở rộng" (Extended Thinking Budgets) cố định trước đây đã bị loại bỏ.
  • Nâng cấp Tokenizer & Thay đổi chi phí: Mặc dù đơn giá API không đổi ($5/M input, $25/M output), bộ tách từ (tokenizer) mới tạo ra nhiều token hơn khoảng 10% đến 35% cho cùng một đoạn văn bản.

Các tính năng mới cho luồng công việc kỹ thuật

  • Ngân sách tác vụ (Task Budgets): Đối với các tác vụ dạng agent (agentic) tốn nhiều thời gian, nhà phát triển có thể đặt giới hạn tiêu thụ token gợi ý. Mô hình sẽ theo dõi tiến độ trong thời gian thực và tự chủ điều chỉnh ưu tiên công việc để đảm bảo hoàn thành các nhiệm vụ cốt lõi trong ngân sách.
  • Mức độ nỗ lực xhigh: Một mức độ nỗ lực mới nằm giữa highmax đã được thêm vào, được thiết kế đặc biệt cho các tác vụ tái cấu trúc mã phức tạp hoặc thiết kế kiến trúc đòi hỏi mật độ suy luận cực cao.
  • Tăng cường bộ nhớ hệ thống tệp: Mô hình hoạt động tốt hơn trong việc ghi lại các ghi chú quan trọng qua các phiên làm việc, tận dụng tốt hơn ngữ cảnh lịch sử và giảm thiểu việc nhập liệu dư thừa.

Cấu hình môi trường & Hướng dẫn cài đặt

Đối với các nhà phát triển và kỹ sư chuẩn bị sử dụng Claude Code, đây là các bước truy cập:

1. Thiết lập môi trường phát triển API

Trước khi chuyển đổi mô hình trong mã dự án, hãy đảm bảo SDK của bạn là phiên bản mới nhất.

Môi trường: Khuyến nghị Python 3.7+ hoặc Node.js 18+.

Bạn có thể sử dụng ServBay để cài đặt môi trường Python hoặc Node.js chỉ với một cú nhấp chuột và chuyển đổi giữa các phiên bản dễ dàng.

Mô tả hình ảnh

Mô tả hình ảnh

Chỉ định ID mô hình là claude-opus-4-7.

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=128000,
    # Kích hoạt tư duy thích ứng và hiển thị tóm tắt
    thinking={
        "type": "adaptive",
        "display": "summarized"
    },
    # Thiết lập mức độ nỗ lực và ngân sách tác vụ
    output_config={
        "effort": "xhigh",
        "task_budget": {"type": "tokens", "total": 100000}
    },
    messages=[
        {"role": "user", "content": "Vui lòng phân tích kiến trúc của kho lưu trữ mã nguồn này và đề xuất các cải tiến tái cấu trúc."}
    ]
)

2. Cấu hình công cụ dòng lệnh Claude Code

Claude Code là một trợ lý thông minh chạy trong terminal, hoàn hảo để tích hợp sâu vào luồng phát triển hàng ngày.

Các bước cài đặt: Đảm bảo bạn đã cài đặt Node.js qua ServBay, sau đó chạy lệnh trong terminal:

npm install -g @anthropic-ai/claude-code

Các lệnh cốt lõi:

  • Đánh giá chuyên sâu: Nhập /ultrareview. Mô hình sẽ đọc qua các thay đổi như một kiến trúc sư trưởng, đánh dấu các khiếm khuyết thiết kế tiềm ẩn.
  • Chế độ tự động (Auto Mode): Người dùng gói Max có thể ủy quyền cho mô hình đưa ra các quyết định tự chủ trong phạm vi kiểm soát, giảm đáng kể các thao tác xác nhận thủ công.

3. Đăng ký xác minh an ninh mạng

Do khả năng tự động hóa mạnh mẽ của Opus 4.7, các hạn chế chính thức đã được áp dụng đối với các hành vi tấn công và phòng thủ mạng rủi ro cao. Các nhà nghiên cứu bảo mật muốn sử dụng nó để nghiên cứu lỗ hổng hoặc kiểm thử xâm nhập (penetration testing) cần đăng ký riêng thông qua "Chương trình Xác minh Không gian mạng" (Cyber Verification Program) của hãng để dỡ bỏ một số hạn chế tích hợp.

Tổng kết

Sự ra đời của Claude Opus 4.7 đánh dấu bước chuyển mình của Anthropic từ việc theo đuổi điểm số benchmark sang theo đuổi sự nghiêm ngặt trong kỹ thuật. Khả năng hỗ trợ hình ảnh độ phân giải cao và tính tự chủ trong các tác vụ phức tạp khiến nó trở nên xuất sắc trong phân tích tài chính, kiểm toán tài liệu pháp lý và xây dựng mã nguồn cấp hệ thống. Mặc dù lượng tiêu thụ token tăng nhẹ, nhưng chất lượng bàn giao được cải thiện là quá đủ để bù đắp cho chi phí tương ứng.


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí