1.1K 25 43

Đã đăng vào thg 6 30, 5:45 SA

trong

11 phút đọc

2.1K

GPT-5.6 ra mắt - Sol, Terra, Luna và Ultra Mode

OpenAI ra mắt GPT-5.6 ngày 26/6/2026 dưới dạng thử nghiệm giới hạn phối hợp với chính phủ Mỹ, gồm ba phiên bản: Sol (mạnh nhất), Terra (cân bằng), và Luna (nhanh và rẻ nhất), với GPT-5.6 Sol Ultra đạt 91,9% trên bài kiểm tra Terminal-Bench 2.1, cao nhất trong tất cả model được so sánh.

Hiện tại chưa có ai bên ngoài nhóm đối tác được chọn có thể dùng thử, và toàn bộ số liệu benchmark do OpenAI tự công bố.

Tóm tắt các điểm chính

Infinity tổng hợp thông tin từ release chính thức: ba phiên bản mới khác nhau thế nào, tính năng mới là gì, kết quả benchmark ra sao, tại sao lần này OpenAI chọn ra mắt thận trọng hơn bình thường, và khi nào người dùng phổ thông có thể tiếp cận.

GPT-5.6 đổi cách đặt tên: con số (5.6) là thế hệ, tên riêng (Sol/Terra/Luna) là phiên bản, mỗi phiên bản có thể được cập nhật độc lập trong tương lai.
Ultra mode dùng nhiều agent con làm việc song song thay vì một agent duy nhất, đây là lý do GPT-5.6 Sol Ultra đạt điểm cao nhất benchmark.
Đây là lần thứ hai trong một tháng chính phủ Mỹ can thiệp vào một sự kiện ra mắt AI lớn, lần trước là lệnh buộc Anthropic rút Claude Fable 5 xuống.
OpenAI dùng hơn 700.000 giờ tính toán GPU để tự kiểm tra lỗ hổng bảo mật trước khi ra mắt.
GPT-5.6 Sol dự kiến chạy trên hạ tầng Cerebras ở tốc độ lên đến 750 token/giây từ tháng 7/2026.

GPT-5.6 là gì và ba phiên bản khác nhau thế nào?

GPT-5.6 là thế hệ model mới nhất của OpenAI, ra mắt không phải dưới dạng một model đơn lẻ mà là bộ ba phiên bản: Sol (flagship mạnh nhất), Terra (cân bằng cho công việc hàng ngày), và Luna (nhanh và rẻ nhất).

1. Sol là phiên bản mạnh nhất. OpenAI dùng Sol để dẫn đầu mọi bài kiểm tra trong đợt ra mắt này, và chỉ Sol mới có hai chế độ nâng cao là max và ultra. Sol phù hợp với bài toán khó, nhiều bước, và chấp nhận chi phí cao nhất.

2. Terra là phiên bản cân bằng, dùng được cho công việc hàng ngày. OpenAI định vị Terra có chất lượng tương đương GPT-5.5 nhưng rẻ hơn khoảng một nửa. Đây có thể là xu hướng sẽ lặp lại: chất lượng flagship thế hệ trước ở mức giá tầm trung.

3. Luna là phiên bản nhanh và rẻ nhất, phù hợp với khối lượng lớn hoặc ứng dụng cần phản hồi nhanh. Điều đáng chú ý là "rẻ nhất" không có nghĩa là "yếu nhất" trên mọi loại bài kiểm tra, bảng benchmark bên dưới sẽ minh chứng cho điều này.

Về cách đặt tên: Đây là lần đầu OpenAI dùng hệ thống mới: con số thể hiện thế hệ, tên riêng thể hiện cấp độ phiên bản. Lợi thế là mỗi phiên bản có thể được nâng cấp độc lập mà không gây nhầm lẫn, khác với tên cũ như "Instant" vốn không nói lên được nhiều thứ.

Max và ultra mode hoạt động thế nào?

GPT-5.6 bổ sung hai cách ép model làm việc sâu hơn, và hai cách này khác nhau về bản chất.

Max reasoning là cài đặt cho phép Sol dành nhiều thời gian hơn để "suy nghĩ" về một vấn đề trước khi trả lời. Cùng một agent, nhưng được cho thêm thời gian.

Ultra mode hoạt động khác hơn: thay vì một agent xử lý toàn bộ, ultra chia nhỏ công việc cho nhiều agent con chạy song song. Trong bảng benchmark, "GPT-5.6 Sol Ultra" là dòng riêng biệt và đạt điểm cao nhất, đây là bằng chứng rõ nhất rằng cách tiếp cận nhiều agent mang lại lợi thế thực sự, ít nhất trên Terminal-Bench 2.1.

GPT-5.6 đạt kết quả benchmark như thế nào?

GPT-5.6 Sol Ultra dẫn đầu bảng Terminal-Bench 2.1 với 91,9%, nhưng thứ tự giữa các phiên bản không hoàn toàn tuyến tính theo cấp độ.

Terminal-Bench 2.1 đánh giá khả năng làm việc với dòng lệnh, tự động hóa nhiều bước, và phối hợp nhiều công cụ khác nhau. Đây là một trong số ít benchmark gần với công việc lập trình thực tế.

Model	Terminal-Bench 2.1
GPT-5.6 Sol Ultra	91,9%
GPT-5.6 Sol	88,8%
GPT-5.5	88,0%
GPT-5.6 Luna	84,3%
Claude Mythos 5	84,3%
Claude Fable 5	83,4%
GPT-5.6 Terra	82,5%
Claude Opus 4.8	78,9%
Gemini 3.1 Pro Preview	70,7%

Toàn bộ số liệu do OpenAI tự công bố, chưa có bên thứ ba kiểm chứng độc lập.

Hai điểm bất ngờ trong bảng này đáng lưu ý:

Luna (84,3%) đạt điểm cao hơn Terra (82,5%), dù Terra được định vị là cấp cao hơn.
Terra thậm chí còn thấp hơn GPT-5.5 (88,0%) trên bài kiểm tra này, dù OpenAI mô tả Terra là "tương đương GPT-5.5" nhìn chung.

Cách hiểu đúng là: cấp độ phiên bản phản ánh sự cân bằng tổng thể giữa chất lượng, tốc độ và chi phí trên nhiều loại tác vụ, không phải đảm bảo thứ hạng trên từng bài kiểm tra cụ thể.

Ngoài Terminal-Bench, OpenAI báo cáo Sol cải thiện rõ trên hai lĩnh vực khác:

Sinh học: Sol đạt kết quả tốt hơn GPT-5.5 trên GeneBench v1 (đánh giá phân tích gene và sinh học định lượng) trong khi tiêu tốn ít token hơn.
An ninh mạng: Sol cạnh tranh với Claude Mythos Preview (chưa phát hành công khai) trên ExploitBench nhưng chỉ dùng khoảng một phần ba lượng token đầu ra.

ExploitBench

ExploitGym

Tại sao GPT-5.6 ra mắt theo kiểu giới hạn?

Đây là lần thứ hai trong một tháng chính phủ Mỹ can thiệp vào một sự kiện ra mắt AI lớn, và OpenAI đã chủ động phối hợp thay vì bị động như Anthropic.

Cách đây hai tuần, một lệnh kiểm soát xuất khẩu của chính phủ Mỹ buộc Anthropic phải rút Claude Fable 5 và Mythos 5 xuống trên toàn thế giới chỉ ba ngày sau khi ra mắt. Lần này OpenAI chủ động chia sẻ thông tin về GPT-5.6 với chính phủ Mỹ trước khi ra mắt, và theo yêu cầu của chính phủ, chỉ mở cho nhóm đối tác được xác định trước.

Lý do nằm ở bản chất của model. GPT-5.6 Sol là model mạnh nhất OpenAI từng tung ra trong lĩnh vực an ninh mạng và sinh học, hai lĩnh vực có nguy cơ lạm dụng cao nhất.

Các lớp bảo vệ OpenAI xây dựng:

Model được huấn luyện để từ chối yêu cầu nguy hiểm
Hệ thống phân tích thời gian thực theo dõi output trong lúc tạo và có thể tạm dừng để xem xét thêm
Hệ thống theo dõi hành vi người dùng xuyên suốt nhiều cuộc trò chuyện

OpenAI cũng đầu tư hơn 700.000 giờ tính toán GPU để tự kiểm tra lỗ hổng, tìm cách tấn công có thể áp dụng rộng qua nhiều tình huống khác nhau, kết hợp với đội chuyên gia bên ngoài tiếp tục tìm lỗ hổng trong suốt giai đoạn thử nghiệm.

OpenAI nói rõ họ không muốn cách tiếp cận này trở thành tiêu chuẩn dài hạn, và coi đây là bước tạm thời trong khi làm việc với chính quyền Mỹ về khung pháp lý liên quan đến an ninh mạng và AI.

GPT-5.6 khác GPT-5.5 ở những điểm nào?

GPT-5.6 là thế hệ mới với cấu trúc ba phiên bản và hai chế độ reasoning bổ sung, khác với GPT-5.5 vốn là bản cập nhật tập trung vào cải thiện chất lượng hội thoại và giảm ảo giác thông tin.

Điểm so sánh	GPT-5.5	GPT-5.6
Cấu trúc	Một model duy nhất	Ba phiên bản (Sol/Terra/Luna)
Reasoning mode	Cơ bản	Max và Ultra
Trọng tâm	Chất lượng hội thoại, giảm ảo giác	Coding, sinh học, an ninh mạng
Cách ra mắt	Rộng rãi	Giới hạn, phối hợp với chính phủ
Bảo vệ	Tiêu chuẩn	Nhiều lớp, kiểm tra 700.000+ GPU giờ

Giá GPT-5.6 và khi nào người dùng thông thường có thể dùng?

Hiện tại GPT-5.6 chỉ khả dụng qua API và Codex cho nhóm đối tác được chọn. OpenAI cho biết sẽ mở rộng sang ChatGPT và API công khai trong thời gian tới nhưng chưa có ngày cụ thể.

Bảng giá theo 1 triệu token:

Phiên bản	Giá đầu vào	Giá đầu ra
GPT-5.6 Sol	$5,00	$30,00
GPT-5.6 Terra	$2,50	$15,00
GPT-5.6 Luna	$1,00	$6,00

Hai điểm về giá đáng lưu ý thêm:

Cache (tái sử dụng nội dung đã xử lý để tiết kiệm chi phí) được cải thiện với thời gian lưu tối thiểu 30 phút và điểm đánh dấu cache rõ ràng hơn.
Ghi cache tính phí 1,25 lần giá đầu vào thông thường, nhưng đọc lại từ cache vẫn được giảm 90%.

GPT-5.6 Sol dự kiến chạy trên hạ tầng Cerebras ở tốc độ tối đa 750 token/giây từ tháng 7/2026, ban đầu giới hạn cho một số khách hàng được chọn trước khi mở rộng dần.

Kết luận

GPT-5.6 có ba điểm thực chất: quy ước đặt tên rõ ràng hơn, ultra mode với nhiều agent con đã cho thấy hiệu quả trên benchmark, và cải thiện đo được trong lập trình, sinh học và an ninh mạng.

Tuy nhiên hai caveat lớn cần giữ trong đầu:

Toàn bộ benchmark do OpenAI tự công bố và chưa có ai bên ngoài kiểm chứng
Model cũng chưa khả dụng để bất kỳ ai dùng thử độc lập

Đánh giá thực sự sẽ đến khi GPT-5.6 mở rộng truy cập công khai trong những tuần tới.

Nguồn: Infinity - đơn vị cung cấp giải pháp Digital Marketing tích hợp cho doanh nghiệp — từ thiết kế website chuẩn SEO & UX/UI, dịch vụ AI SEO (GEO/AEO), PR Digital, sáng tạo nội dung số, quảng cáo trực tuyến (SEM/Ads) đến phân tích dữ liệu Marketing. Với nền tảng nghiên cứu và dữ liệu thực chiến, chúng tôi giúp doanh nghiệp xây dựng chiến lược thương hiệu bền vững và tăng trưởng có hệ thống trong kỷ nguyên AI.

gpt