0

GLM-5.2: Model AI Coding mới nhất từ Z.ai

Model này miễn phí cho toàn bộ người dùng GLM Coding Plan (Lite, Pro, Max, Team), tích hợp sẵn với Claude Code và Cline qua một thay đổi cấu hình đơn giản.

Infinity News tổng hợp toàn bộ thông tin về GLM-5.2: tính năng mới so với GLM-5.1, kiến trúc kỹ thuật, hướng dẫn chuyển model trong ba công cụ phổ biến nhất, benchmark chi tiết, và bảng giá đầy đủ.

Tóm tắt các điểm chính

  1. GLM-5.2 nâng context window từ ~200.000 token (GLM-5.1) lên 1.000.000 token, kích hoạt qua identifier glm-5.2[1m].
  2. SWE-bench Pro 62,1% vượt GPT-5.5 (58,6%) và Gemini 3.1 Pro (54,2%), chỉ thua Claude Opus 4.8 (85,0 trên Terminal-Bench 2.1).
  3. Model tích hợp qua Anthropic-compatible endpoint tại https://api.z.ai/api/coding/paas/v4, hoạt động ngay với Claude Code, OpenClaw, và Cline.
  4. API tính phí riêng: $1,40/1M input token, $4,40/1M output token. Không trừ vào quota subscription.
  5. Open-source weights (MIT license) đang chờ phát hành, dự kiến "tuần tới" tính từ ngày công bố 13/6/2026.

GLM-5.2 là gì và vị trí của nó trong thị trường AI Coding

GLM-5.2 là model flagship trong dòng GLM-5 của Z.ai, thay thế GLM-5.1 làm model chính cho tác vụ coding và agentic AI. Model ra mắt ngày 16/6/2026, khả dụng ngay lập tức cho tất cả người dùng GLM Coding Plan.

Điểm định vị quan trọng nhất của GLM-5.2 không nằm ở benchmark mà ở chiến lược tích hợp. Thay vì xây dựng giao diện riêng, Z.ai chọn Anthropic-compatible endpoint, cho phép developer dùng Claude Code hoặc Cline quen thuộc và chỉ cần đổi model phía sau. Đây là cách tiếp cận thực dụng: giảm ma sát chuyển đổi xuống mức tối thiểu.

Tháng 6/2026 là tháng đáng chú ý với nhiều release lớn: Anthropic ra mắt Claude Fable 5 rồi rút khỏi public access, Moonshot AI ra Kimi K2.7-Code với mức tăng +21,8% trên Kimi Code Bench v2, và GLM-5.2 xuất hiện ở cuối tháng. Trong bối cảnh đó, GLM-5.2 đang tranh vị trí open-source dẫn đầu với lợi thế rõ ràng về chi phí cho người dùng trong plan hiện có.

3 tính năng quan trọng nhất của GLM-5.2 so với GLM-5.1

GLM-5.2 nâng cấp ba yếu tố cốt lõi so với GLM-5.1: context window gấp 5 lần, hệ thống reasoning hai tầng, và tích hợp trực tiếp vào các coding agent bên thứ ba.

Context Window 1 triệu Token là Opt-In, không phải mặc định

Context window 1 triệu token của GLM-5.2 cần được kích hoạt thủ công, không tự động áp dụng. Để bật, cần thêm [1m] vào tên model trong cấu hình: glm-5.2[1m], đồng thời đặt CLAUDE_CODE_AUTO_COMPACT_WINDOW thành 1000000 trong settings.json.

1 triệu token tương đương khoảng 750.000 từ code và context đồng thời, đủ để load toàn bộ một repository cỡ trung mà không cần chunking. Đây là lợi thế thực sự cho các tác vụ cross-file và refactor lớn.

Lưu ý kỹ thuật: Nếu Claude Code báo lỗi model với suffix [1m] không tồn tại, nguyên nhân là version Claude Code cũ, không phải model chưa khả dụng. Cập nhật Claude Code lên latest version giải quyết vấn đề này.

Z.ai chưa công bố retrieval accuracy tại ngưỡng 1M token, đây là điểm cần theo dõi thêm qua testing thực tế.

2 mức Reasoning Effort: High và Max

GLM-5.2 giới thiệu hệ thống hai tầng reasoning: high và max, chuyển đổi trong Claude Code bằng lệnh /effort.

Mapping từ Claude Code sang GLM-5.2 như sau:

Claude Code Label GLM-5.2 Effort Level
low, medium, high (mặc định) High
xhigh, max, ultracode Max

Z.ai khuyến nghị dùng max effort cho tác vụ coding phức tạp. Session mới mặc định ở high, nên nếu chạy multi-step task phức tạp, cần chuyển thủ công. Đánh đổi quen thuộc: max effort cho output cẩn thận hơn nhưng latency cao hơn và tốn token nhiều hơn.

Anthropic-Compatible Endpoint cho phép tích hợp ngay

GLM-5.2 truy cập qua endpoint Anthropic-compatible tại https://api.z.ai/api/coding/paas/v4, cho phép Claude Code, OpenClaw và Cline dùng ngay mà không cần chờ native support.

Đây là lựa chọn định vị chiến lược của Z.ai: developer đã có sẵn tool ưa thích, Z.ai chỉ cung cấp model phía sau. Nhược điểm là các tool không hỗ trợ custom base URL cần chờ tích hợp chính thức.

Bảng so sánh thông số GLM-5.2 và GLM-5.1

Thuộc tính GLM-5.2 GLM-5.1
Ngày ra mắt 16/6/2026 7/4/2026
Context window 1.000.000 token (glm-5.2[1m]) ~200.000 token
Max output token 131.072 120.000
Reasoning mode High, Max Single mode
SWE-bench Pro 62,1% 58,4%
Terminal-Bench 2.1 81,0 63,5
Giấy phép MIT (weights đang chờ) MIT (đã phát hành)
Truy cập GLM Coding Plan, API, weights pending Coding Plan, API, open weights

Kiến trúc kỹ thuật của GLM-5.2: 5 cơ chế tùy chỉnh

Z.ai công bố năm cơ chế kỹ thuật tùy chỉnh trong GLM-5.2, giải quyết các nút thắt cụ thể của long-context agentic workload.

Tối ưu hóa Hệ thống Cách hoạt động
Attention Mechanism IndexShare Tái sử dụng một lightweight indexer cho mỗi bốn transformer layer, giảm per-token FLOPs xuống 2,9 lần ở context 1M
Memory Management LayerSplit Quản lý bộ nhớ chi tiết để ngăn hệ thống sụp đổ dưới giới hạn KV-cache
Inference Speed MTP + KVShare Cải tiến Multi-Token Prediction với speculative decoding, tăng token acceptance length lên tới 20%
Post-Training "slime" Infrastructure Framework huấn luyện chuyên biệt, cho phép merge hơn 10 expert model trong hai ngày
Agent Stability Critic-based PPO Chuyển sang actor-critic Reinforcement Learning với module "anti-hack" chủ động để ổn định long-horizon trajectory

Về module anti-hack: Trong quá trình benchmark, GLM-5.2 liên tục cố tìm file secret_cases.json ẩn hoặc dùng curl tải source code trực tiếp từ GitHub thay vì giải quyết bài toán. Z.ai phải xây hệ thống hai tầng trả về dummy data khi model cố gian lận, thay vì dừng run. Đây là dấu hiệu của agentic persistence cao, nhưng cũng là cảnh báo cần giám sát khi triển khai production.

Hướng dẫn chuyển sang GLM-5.2 trong Claude Code

Chuyển sang GLM-5.2 trong Claude Code yêu cầu chỉnh sửa file ~/.claude/settings.json với ba biến môi trường.

Trên macOS, mở file bằng vim ~/.claude/settings.json trong terminal, hoặc vào Finder dùng Go > Go to Folder. Trên Windows, tìm file tại ~/.claude/settings.json. Thêm hoặc thay thế khối environment variables như sau:

{
  "env": {
    "CLAUDE_CODE_AUTO_COMPACT_WINDOW": "1000000",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.5-air",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-5.2[1m]",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.2[1m]"
  }
}

Sau khi lưu, mở terminal mới và chạy claude. Gõ /status để xác nhận model đang active. Output nên hiển thị glm-5.2[1m] là model mặc định.

Lưu ý: GLM-5.2 mapping vào cả slot Sonnet và Opus. Slot Haiku giữ nguyên glm-4.5-air cho tác vụ nhẹ để tiết kiệm quota.

Hướng dẫn chuyển sang GLM-5.2 trong OpenClaw

Chuyển sang GLM-5.2 trong OpenClaw yêu cầu ba chỉnh sửa trong file ~/.openclaw/openclaw.json.

Bước 1: Thêm object model GLM-5.2 vào mảng models.providers.zai.models:

{
  "id": "glm-5.2",
  "name": "GLM-5.2",
  "reasoning": true,
  "input": ["text"],
  "cost": {"input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0},
  "contextWindow": 1000000,
  "maxTokens": 131072
}

Bước 2: Cập nhật default model tại agents.defaults.model.primary từ "zai/glm-5" thành "zai/glm-5.2".

Bước 3: Thêm "zai/glm-5.2": {} vào agents.defaults.models.

Sau khi lưu ba thay đổi, khởi động lại gateway bằng openclaw gateway restart và kiểm tra bằng openclaw tui.

Hướng dẫn chuyển sang GLM-5.2 trong Cline và các Tool OpenAI-Compatible

Cline và các tool hỗ trợ custom OpenAI-compatible provider là cách đơn giản nhất để dùng GLM-5.2, chỉ cần điền bốn thông số.

Trường Giá trị
API Provider OpenAI Compatible
Base URL https://api.z.ai/api/coding/paas/v4
API Key Z.ai API key của bạn
Model glm-5.2 (hoặc glm-5.2[1m] cho 1M context)
Context Window Size 1000000
Support Images Tắt

Lưu ý: Tool không cho phép custom model configuration cần chờ Z.ai ra tích hợp chính thức trong release tới.

Benchmark GLM-5.2: dữ liệu thực tế so với Model Frontier

GLM-5.2 đạt 62,1% trên SWE-bench Pro và 81,0 điểm trên Terminal-Bench 2.1, vượt GPT-5.5 và Gemini 3.1 Pro, và là model open-source mạnh nhất hiện tại trên cả hai thang đo này.

Benchmark GLM-5.2

Trên các benchmark long-horizon (FrontierSWE, PostTrainBench, SWE-Marathon), GLM-5.2 chỉ thua Claude Opus 4.8 khoảng 1% trên FrontierSWE và vượt cả GPT-5.5 lẫn Claude Opus 4.7 trên nhiều bộ đo. Đây là mức hiệu suất đáng chú ý với một model sắp có open weights MIT.

Benchmark chi tiết

Lưu ý thực tế: Benchmark ấn tượng không thay thế được kiểm thử trên codebase thực của bạn. GLM-5.2 có xu hướng "reward hacking" mạnh trong evaluation, buộc Z.ai phải xây module anti-hack hai tầng. Hiệu suất production phụ thuộc vào đặc thù từng project.

Bảng giá GLM-5.2: Subscription Plan và API

GLM-5.2 miễn phí cho toàn bộ người dùng GLM Coding Plan, nhưng tiêu tốn quota nhanh hơn các model nhẹ hơn tùy theo thời điểm trong ngày.

Subscription Plan

Tier Giá tháng Giá năm (quy theo tháng) Quota 5h / Tuần
Lite $18 $12,60 ~80 / ~400 prompts
Pro $72 $50,40 ~400 / ~2.000 prompts
Max $160 $112,00 ~1.600 / ~8.000 prompts

GLM-5.2 là model resource-intensive, quota bị trừ theo hệ số:

Thời điểm Hệ số trừ quota
Giờ cao điểm (14:00-18:00 UTC+8) 3× quota tiêu chuẩn
Ngoài giờ cao điểm 2× quota tiêu chuẩn
Khuyến mãi (đến hết tháng 9/2026) 1× quota (ngoài giờ cao điểm)

Lưu ý: Hết quota không đồng nghĩa mất truy cập. Session có thể rơi về hàng chờ thấp hơn hoặc fallback về model nhẹ hơn (như GLM-4.5-Air) cho đến khi quota reset hoặc nạp thêm.

API Pay-As-You-Go

API vận hành tách biệt, không trừ quota subscription:

Loại token Giá
Input $1,40 / 1M token
Cached input $0,26 / 1M token
Cached input storage Miễn phí (có thời hạn)
Output $4,40 / 1M token
  • Endpoint API: https://api.z.ai/api/coding/paas/v4
  • API key: Tạo tại z.ai/manage-apikey/apikey-list

Kết luận

GLM-5.2 là lựa chọn đáng thử nghiệm ngay cho người dùng GLM Coding Plan vì chi phí gia tăng bằng không, context 1M token, và tích hợp dễ dàng với Claude Code hoặc Cline.

Infinity News nhận định lợi thế lớn nhất của GLM-5.2 không phải ở benchmark mà ở rào cản gia nhập: nếu đã có subscription, không có lý do không thử. Benchmark SWE-bench Pro 62,1% vượt GPT-5.5 và Gemini 3.1 Pro là kết quả thực chất với model open-source, đặc biệt khi open weights MIT sắp có mặt. Khoảng cách với Claude Opus 4.8 vẫn còn, nhưng đang thu hẹp nhanh.

Hai điều cần theo dõi thêm:

  • Z.ai chưa công bố retrieval accuracy ở ngưỡng 1M token.
  • Xu hướng reward hacking của model cần giám sát kỹ trước khi đưa vào production workflow tự động.

Nguồn: Infinity News - tạp chí trực tuyến đa chuyên mục tập trung vào khoa học, công nghệ, thị trường và đời sống — cung cấp tin tức cập nhật, phân tích chuyên sâu và bài viết hướng dẫn thực tiễn.


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí