Giám sát mô hình ngôn ngữ lớn: 6 bài học từ CTO của Datadog
Observability (khả năng quan sát hệ thống) đang trở thành lớp kiểm soát trung tâm cho phần mềm do trí tuệ nhân tạo viết, kiểm thử và triển khai, theo Alexis Lê-Quôc, đồng sáng lập kiêm CTO của Datadog, phát biểu tại hội nghị DASH 2026 diễn ra tháng 6/2026 tại New York.
Tóm tắt các điểm chính
Lê-Quôc trình bày phiên làm việc tên "The New Shape of Engineering" với lập luận cốt lõi: cách vận hành phần mềm không thay đổi (triển khai thay đổi, đẩy ra và theo dõi), nhưng tốc độ và khối lượng đã thay đổi hoàn toàn, và điều đó thay đổi những gì giữ cho hệ thống an toàn. Infinity News tổng hợp 6 bài học từ phiên làm việc này cho đội ngũ kỹ thuật và vận hành.
- Xem xét mã nguồn (code review) truyền thống theo từng dòng không còn khả thi khi trí tuệ nhân tạo tạo ra khối lượng mã lớn hơn bất kỳ người xem xét nào có thể theo kịp.
- Môi trường sản xuất thực tế (production) là bài kiểm thử duy nhất thực sự có ý nghĩa, không phải kết quả kiểm thử tự động trước khi triển khai.
- Các tác nhân tự động nên tiếp quản những công việc lặp lại gây kiệt sức, để con người tập trung vào quyết định đòi hỏi phán đoán cao.
- Chi phí vận hành mô hình ngôn ngữ lớn cần được kiểm soát bằng cách phân tầng mô hình theo loại tác vụ, không theo cấp bậc tổ chức.
- Kỹ năng quan trọng nhất trong kỷ nguyên này là biết cách học, không phải biết cách viết mã nhanh hơn.
Infinity News phân tích từng bài học dưới đây theo bối cảnh ứng dụng thực tế cho đội ngũ kỹ thuật.
Trí tuệ nhân tạo đã phá vỡ cách xem xét mã nguồn
Mô hình xem xét mã nguồn truyền thống, một người đọc từng dòng trong yêu cầu hợp nhất, không còn tồn tại được khi phần mềm được tạo ra với tốc độ và khối lượng của trợ lý trí tuệ nhân tạo.
Lê-Quôc nói thẳng: lo lắng ông nghe thấy khắp ngành là việc xem xét đang trở nên bất khả thi vì có quá nhiều thứ diễn ra để có thể theo dõi bằng cách đọc yêu cầu hợp nhất. Câu trả lời của ông không phải là yêu cầu người ta đọc nhanh hơn mà là chuyển điểm xem xét sang chỗ khác.
"The review isn't the line of code anymore; there's too much, you can't keep up. It's about what tests we design upfront, and telling the agent not to cheat them."
"Việc xem xét không còn là từng dòng mã nữa. Có quá nhiều, bạn không thể theo kịp. Vấn đề là chúng ta thiết kế những bài kiểm thử gì ngay từ đầu, và nói với tác nhân đừng gian lận chúng."
Điểm sau cùng trong câu đó dễ bỏ qua. Khi một tác nhân lập kế hoạch, một tác nhân viết mã và một tác nhân kiểm thử, cần phải ngăn tác nhân viết mã gian lận bài kiểm thử tự động thay vì giải quyết vấn đề thực sự.
Datadog còn đi xa hơn bài kiểm thử thông thường: bổ sung các bằng chứng hình thức và bán hình thức rằng một đặc tả thực sự làm được điều nó phải làm. Trước đây quá tốn công để áp dụng rộng rãi, nhưng nay các tác nhân đảm nhận phần nặng nhọc. Cách tiếp cận này hiệu quả nhất với các hệ thống backend và điều phối, nơi hành vi đủ mang tính toán học để lập luận chính xác.
Môi trường sản xuất thực tế là bài kiểm thử duy nhất thực sự có ý nghĩa
Vượt qua mọi bài kiểm thử trong quy trình tích hợp liên tục là điều kiện cần nhưng chưa đủ. Những thất bại quan trọng xảy ra sau đó.
"The place where it really matters is production."
"Nơi thực sự quan trọng là môi trường sản xuất."
Mọi lần triển khai đều dựa trên những giả định không thể kiểm tra hoàn toàn trước, về hình dạng dữ liệu thực tế và cách người dùng thực sự hành xử. Đưa những giả định đó vào đủ lưu lượng truy cập thực, và các trường hợp hiếm gặp không còn hiếm nữa. Chúng trở thành sự cố chậm trễ và lỗi thường ngày của trôi dạt dữ liệu và mô hình.
Mô hình ngôn ngữ lớn làm phức tạp thêm điều này: với mã thông thường, ít nhất có thể lý luận qua mọi nhánh logic. Nhưng không ai có thể giải thích theo cơ chế tại sao một mô hình trả về kết quả như vậy. Cùng một đầu vào không đảm bảo cùng một đầu ra. Kết quả lạ không thể được loại bỏ hoàn toàn bằng kỹ thuật.
Cách tiếp cận thực tế vì vậy là:
| Bước | Hành động |
|---|---|
| Trước triển khai | Viết đánh giá cho hành vi mong muốn |
| Trong sản xuất | Giám sát liên tục hành vi thực tế |
| Khi sự cố xảy ra | Giữ sẵn nút dừng để thu hồi triển khai |
Câu hỏi không còn là liệu hệ thống có vượt qua bài kiểm thử hay không mà là liệu một vấn đề là trường hợp đơn lẻ hay khởi đầu của một xu hướng. Tín hiệu trực tiếp từ sản xuất, khi được kết nối vào hệ thống triển khai, cho phép tác nhân triển khai thay đổi theo cách một kỹ sư cẩn thận sẽ làm: 1% người dùng trước, rồi 5%, đánh giá từ dữ liệu thực tế.
Tác nhân tự động nên tiếp quản những công việc
Lập luận của Lê-Quôc về tác nhân không phải là chúng thay thế kỹ sư mà là chúng tiếp quản những phần công việc gây kiệt sức con người.
Xử lý sự cố nghĩa là liên tục đưa ra giả thuyết về nguyên nhân, và trong các sự cố kéo dài, thường chính giả thuyết xa vời mới chứng minh là đúng. Tác nhân Bits AI của Datadog kiểm tra tất cả song song, trước khi kỹ sư bắt đầu, trong khi người đó hướng dẫn tác nhân theo linh cảm mà bảng điều khiển không bao giờ gợi ra.
"You're on high alert mode, and then you're watching paint dry."
"Bạn ở trạng thái cảnh giác cao độ, rồi lại ngồi nhìn sơn khô."
Đây là điểm cốt lõi về sự kiệt sức. Trực hệ thống là những phút căng thẳng đột ngột xen kẽ với nhiều giờ không có gì xảy ra, lặp đi lặp lại cho đến khi khả năng phán đoán bị mài mòn. Đó là lý do tại sao các nhóm luân phiên người trực ngay từ đầu.
Giao việc theo dõi không mệt mỏi cho máy, và con người trở lại nghỉ ngơi đầy đủ cho những quyết định thực sự cần họ. Logic tương tự áp dụng cho phân loại bảo mật, nơi các nhà phân tích kiệt sức vì phải lọc cảnh báo giả từ mối đe dọa thực.
Hai vòng làm việc trong phát triển phần mềm hỗ trợ trí tuệ nhân tạo
Lê-Quôc tổ chức công việc tác nhân của Datadog xung quanh hai vòng lặp song song: vòng phát triển và vòng vận hành bảo mật.
Sơ đồ hai vòng lặp: vòng phát triển (viết, triển khai, xác minh, sửa) và vòng vận hành bảo mật (phát hiện, điều tra, khắc phục)
Vòng phát triển vận hành theo chu kỳ: viết mã, triển khai, xem có hoạt động không, sửa và lặp lại. Datadog cố gắng cung cấp bản sửa lỗi được thông báo bởi những gì nền tảng biết về ứng dụng: quyền sở hữu, thay đổi gần đây và lỗi đã xảy ra. Tối ưu hóa truy vấn cơ sở dữ liệu là ví dụ: bất kỳ mô hình nào cũng có thể viết lại truy vấn chậm, nhưng phần khó là chứng minh bản viết lại nhanh hơn và an toàn.
Vòng vận hành bảo mật chạy song song: phát hiện, điều tra, khắc phục và lặp lại. AI Guard của Datadog phân loại sự kiện bảo mật và chặn tấn công nhanh hơn nhà phân tích xử lý thủ công. Tác nhân cũng xử lý các công việc vận hành thường ngày mà kỹ sư làm hàng ngày không mấy hứng thú, như thay đổi kích thước một pod Kubernetes.
Lê-Quôc nhấn mạnh thứ tự ưu tiên: Datadog không bắt đầu từ "đây là trí tuệ nhân tạo, nó có thể giải quyết vấn đề gì?" Họ bắt đầu từ vấn đề khách hàng đã phàn nàn, thường là "Tôi không muốn làm công việc lặp lại này nữa", rồi mới xác định liệu tác nhân có thể được tin tưởng với nó không.
Làm thế nào để kiểm soát chi phí vận hành mô hình ngôn ngữ lớn?
Chi phí vận hành mô hình ngôn ngữ lớn trở thành một kỷ luật riêng, và Lê-Quôc cho rằng giải pháp không phải là giới hạn chi tiêu mà là đặt dữ liệu trước mặt những người đưa ra quyết định.
Hỏi một nhà phát triển cần mô hình nào, họ thường gọi tên mạnh nhất và đắt nhất. Đôi khi đó là lựa chọn đúng, nhưng nhiều công việc là mã boilerplate (mã lặp lại tiêu chuẩn) mà một mô hình rẻ hơn và nhanh hơn xử lý tốt như nhau. Phân biệt hai trường hợp nghĩa là đọc quỹ đạo của các tác nhân trong tổ chức: công cụ nào chúng gọi và chúng thành công bao nhiêu lần, cho đến khi xuất hiện các mẫu.
Infinity News nhận thấy nguyên tắc phân tầng mô hình theo tác vụ là cách tiếp cận thực tế nhất hiện nay:
| Loại tác vụ | Tầng mô hình | Lý do |
|---|---|---|
| Lập kế hoạch và suy luận phức tạp | Hàng đầu (Claude Opus, GPT-5.5) | Sức mạnh suy luận xứng đáng với chi phí |
| Mã thông thường, lặp lại | Tầng giữa (Claude Sonnet, GPT-mini) | Đủ năng lực, rẻ hơn nhiều khi chạy thường xuyên |
| Tạo bài kiểm thử, biến đổi đơn giản | Nhanh và rẻ (Claude Haiku, GPT-nano) | Tốc độ và giá thắng khi chất lượng vẫn đạt yêu cầu |
Tổng hợp chi phí thành một con số duy nhất tạo ra điều Lê-Quôc gọi là "khả năng hành động rất thấp": hoặc mọi người ngừng chi tiêu (giết chết công việc hữu ích) hoặc mọi người tiếp tục chi tiêu (doanh nghiệp không thể duy trì). Ông muốn đặt dữ liệu trước mặt các nhà phát triển và kỹ sư vận hành hệ thống, những người thực sự chọn mô hình.
Kỹ năng quan trọng nhất cần học trong kỷ nguyên trí tuệ nhân tạo là gì?
Lê-Quôc không trả lời câu hỏi về kỹ năng kỹ thuật cụ thể nào cần học. Ông trả lời về năng lực học.
"You've got to learn how to learn."
"Bạn phải học cách học."
Mô hình ngôn ngữ lớn là gia sư kiên nhẫn nhất từng được tạo ra, có thể giải thích bất kỳ thứ gì ở bất kỳ tốc độ nào. Nhưng gia sư chỉ hữu ích nếu người học biết cách chất vấn. Kỹ năng là biết hỏi gì và cách kiểm tra câu trả lời.
Lê-Quôc khuyến nghị hiểu máy tính theo từng lớp thay vì coi chúng như hộp đen. Lấy một bộ lịch trình, một bộ cân bằng tải, một hộp cát, rồi hỏi mô hình cách nó hoạt động và tiếp tục đẩy sâu hơn:
- Thuật ngữ này có nghĩa là gì?
- Đo lường nó như thế nào?
- Toán học đằng sau nó là gì?
- Làm sao biết nó đang hoạt động tốt?
Ông so sánh với việc học nhạc cụ: bạn có thể nghe nhạc cả ngày, nhưng để chơi đàn piano, bạn phải đặt tay lên phím.
Điều tương tự áp dụng cho mã do trí tuệ nhân tạo viết. Viết mã theo cảm tính (vibe coding) không sao, miễn là sau đó bạn quay lại hỏi tại sao nó hoạt động: tại sao được xây dựng theo cách này, có cách tiếp cận tốt hơn không, nó được mô hình hóa từ đâu. Mục tiêu không phải là viết ít mã hơn với trí tuệ nhân tạo mà là hiểu mã bạn đang tạo ra nhiều hơn rất nhiều.
Kết luận
Alexis Lê-Quôc tóm gọn thông điệp trung tâm: vòng lặp không thay đổi, nhưng tốc độ thì có. Không ai có thể theo dõi đủ chặt ở tốc độ trí tuệ nhân tạo đang di chuyển.
Infinity News nhận thấy toàn bộ 6 bài học đều chỉ về một kết luận: observability không còn là tập hợp bảng điều khiển mà là lớp kiểm soát thực sự. Nếu tác nhân sẽ viết, kiểm thử, triển khai và vận hành phần mềm, chúng cần cơ sở trong dữ liệu sản xuất thực tế mà kỹ sư giỏi dựa vào, cộng với một con người nắm giữ các quyết định phán đoán và nút dừng khẩn cấp. Datadog định vị observability là lớp làm cho sự đánh đổi đó an toàn.
All rights reserved