The Curse of Instructions — Khi LLM “ngộp thở” vì quá nhiều yêu cầu cùng lúc

(Tóm tắt nghiên cứu ICLR 2025 — Harada et al., “Curse of Instructions: Large Language Models Cannot Follow Multiple Instructions at Once”, https://openreview.net/forum?id=R6q67CDBCH)

1. Vấn đề đặt ra

LLM ngày càng giỏi trong việc làm theo hướng dẫn, nhưng thực tế cho thấy khi prompt chứa nhiều chỉ dẫn cùng lúc, hiệu suất của mô hình sụt giảm nghiêm trọng. Hiện tượng này được tác giả gọi là “Lời nguyền của chỉ dẫn” (Curse of Instructions).

2. Nghiên cứu & dữ liệu ManyIFEval

Nhóm tác giả tạo bộ benchmark ManyIFEval, mở rộng từ IFEval cũ.

Mỗi prompt có từ 1 → 10 chỉ dẫn rõ ràng, có thể kiểm định tự động (vd: “viết ít nhất 9 câu, tránh dùng từ deposit”).
Các mô hình được kiểm thử: GPT-4o, Claude-3.5 Sonnet, Gemini-1.5, Llama 3.1, Gemma 2.

3. Phát hiện chính

Khi số chỉ dẫn tăng, xác suất tuân thủ tất cả giảm gần theo hàm mũ: [ P_{\text{all}} \approx p^n ] Nếu mô hình làm đúng một chỉ dẫn với 90% (p = 0.9), thì 10 chỉ dẫn chỉ còn ≈ 0.35 (35%).

👉 Ví dụ thực nghiệm:

GPT-4o: ~15% đúng hết 10 chỉ dẫn.
Claude-3.5: ~44%. Sau bước self-refinement, tăng lên ~31% và ~58%.

4. Cách khắc phục: Self-Refinement

Thay vì huấn luyện lại, nhóm thử kỹ thuật tại thời điểm inference:

Mô hình sinh kết quả ban đầu.
Kiểm tra xem chỉ dẫn nào chưa được tuân thủ.
Mô hình tự sửa lại đầu ra (refine).
Có thể lặp lại vài lần.

Điều thú vị: chỉ cần phản hồi ngắn “Bạn chưa tuân thủ hết các chỉ dẫn” cũng giúp cải thiện đáng kể — độ chính xác của phản hồi quan trọng hơn độ bao phủ.

5. Ý nghĩa thực tiễn cho người làm AI

Prompt ngắn gọn > Prompt dài dòng: Càng nhiều chỉ dẫn, khả năng sai càng cao.
Tách bước hợp lý: Chia task lớn thành chuỗi lệnh nhỏ dễ kiểm soát.
Tự đánh giá output: Dùng vòng lặp kiểm tra – chỉnh sửa để tăng độ chính xác.
Đo hiệu suất đúng tất cả (All-Accuracy): Không chỉ đo từng chỉ dẫn riêng lẻ.

6. Tác động dài hạn

Hiện tượng Curse of Instructions mở ra hướng nghiên cứu mới:

Thiết kế kiến trúc có “bộ nhớ chỉ dẫn” tốt hơn.
Fine-tune trên dữ liệu đa chỉ dẫn.
Tối ưu inference để mô hình tự phân tách nhiệm vụ.

🧭 Tóm lại: LLM không phải “ngốc” – chúng chỉ bị quá tải khi phải nhớ và làm nhiều điều cùng lúc. Giống như con người, chúng cần “nghỉ thở” giữa các bước — và đó là chìa khóa để thiết kế prompt, workflow, và agent thông minh hơn.

LLM