Giải thích về cách tối ưu huấn luyện mô hình Kimi K2 thông qua MuonClip Optimizer, được phát triển dựa trên nền tảng Muon

Một optimizer hiệu quả hơn AdamW trong huấn luyện các mô hình ngôn ngữ lớn (LLM). Dưới đây là phần giải thích chi tiết theo từng thành phần:

Khi bạn có:
- Một bộ dữ liệu tiền huấn luyện hữu hạn,
- Một cấu hình mô hình cố định,
→ Thì cách duy nhất để sinh ra nhiều intelligence hơn là dùng optimizer hiệu quả hơn về token.
Muon được chứng minh là hiệu quả hơn AdamW, theo nghiên cứu Moonlight.

Kimi K2 là bản mở rộng của kiến trúc Moonlight (giống DeepSeek-V3), với mục tiêu:
- Tối ưu hóa bối cảnh dài hơn bằng cách giảm số đầu attention.
- Tăng sparsity trong MoE (Mixture-of-Experts) để tăng hiệu quả sử dụng token.
Khi scale lớn, xuất hiện lỗi nghiêm trọng:

Attention logits bị nổ tung, đặc biệt với optimizer Muon.
Các kỹ thuật truyền thống như:
- Logit soft-capping, hay
- Query-key normalization → Không giải quyết triệt để.

MuonClip là phiên bản cải tiến của Muon, bổ sung kỹ thuật qk-clip để:

Sau mỗi bước update của Muon, ta rescale lại trọng số của Query và Key projection:

qᵢ = η^α     * W_q xᵢ
kᵢ = η^(1-α) * W_k xᵢ

→ Attention logit trở thành:

(qᵢ)^T · kⱼ = η · (qᵢ^T kⱼ)

η = min( max_ij(qᵢ^T kⱼ) / t , 1 )

Kimi K2 được huấn luyện trên 15.5 nghìn tỷ token, không gặp training spike nào.
MuonClip:
- Duy trì chất lượng downstream,
- Giải quyết triệt để exploding attention logits,
- Có thể áp dụng cho các mô hình khác cần ổn định hóa huấn luyện attention.

Thành phần	Vai trò
Muon optimizer	Tối ưu tốt hơn AdamW, nhưng dễ bị logit attention nổ
qk-clip	Kỹ thuật rescale trọng số Q và K để kiểm soát logit attention
η (eta)	Hệ số tự động điều chỉnh logit scale dựa trên logit lớn nhất
Kimi K2 + MuonClip	Huấn luyện ổn định, không spike, token-efficient, hiệu suất cao

Nếu bạn muốn, mình có thể viết lại bài này như tài liệu kỹ thuật hoặc hướng dẫn nội bộ dễ hiểu hơn nữa.