Đã đăng vào khoảng 23 giờ trước

trong

16 phút đọc

Agent Harness là gì? Tại sao AI agent cần harness để hoạt động hiệu quả?

MayFest2026

Agent harness là toàn bộ phần mềm bao quanh một language model: công cụ, bộ nhớ, trạng thái, môi trường thực thi, guardrail và observability. Công thức ngắn gọn mà LangChain đúc kết: Agent = Model + Harness. Model suy luận, harness cho suy luận đó một nơi để hành động, ghi nhớ, kiểm tra kết quả và tuân theo quy tắc.

Tóm tắt các điểm chính

Khái niệm "agent harness" được phổ biến từ tháng 2/2026 qua bài blog của Mitchell Hashimoto (đồng sáng lập HashiCorp), sau đó được OpenAI và LangChain áp dụng trong cùng tuần
Model không tự giữ trạng thái bền vững, tự thực thi tool, tự quản lý context window hay tự phục hồi sau lỗi, harness giải quyết toàn bộ những thiếu sót đó
Harness ở tầng cao hơn framework và runtime: framework cho components, runtime cho durable execution, harness đến với nhiều quyết định đã được đưa ra sẵn
MCP (Model Context Protocol) đã trở thành interface chuẩn để kết nối tool server vào harness trong 2026
Nguyên tắc của Anthropic vẫn đúng: bắt đầu với cách tiếp cận đơn giản nhất có thể, chỉ thêm thành phần khi task thực sự cần

Agent Harness là gì?

Agent harness là phần mềm bao quanh language model, bao gồm: tool, bộ nhớ, trạng thái, môi trường thực thi, guardrail và observability. Định nghĩa từ LangChain rất thực tế: "Nếu bạn không phải model, bạn là harness."

Sơ đồ language model nằm trong agent harness với các thành phần tool, memory, execution environment, guardrails và observability

** Công thức Agent = Model + Harness hữu ích nhưng là mô hình tư duy, không phải chuẩn công nghiệp. Một số vendor vẫn dùng "harness," "framework" và "scaffold" để chỉ gần như cùng một thứ.

Tại sao AI agent cần harness?

Model ngôn ngữ thuần túy có giới hạn khi được yêu cầu làm việc qua nhiều bước. Nó không tự giữ trạng thái bền vững, không tự thực thi tool, không tự quản lý context window đang phình to, và không tự phục hồi sau lỗi tool call mà không có hỗ trợ.

Hãy hình dung agent được yêu cầu sửa failing test trong Python project. Không có harness, model có thể viết thứ trông như một bản sửa lỗi, nhưng nó không thể đọc file test thực tế, chạy pytest, xem lỗi thực sự, chỉnh sửa function lỗi, hay xác nhận bản sửa đã pass. Với harness, toàn bộ vòng lặp đó trở thành vài phút công việc agent tự làm, với mỗi bước được ghi lại ở nơi người dùng có thể kiểm tra.

Agent Harness được tạo thành từ những gì?

Các thành phần thay đổi tùy trường hợp, nhưng hầu hết chia sẻ một số building block chính. Hãy coi đây là checklist, không phải spec sản phẩm cứng nhắc. Agent nhỏ có thể chỉ cần vài thành phần, agent production sẽ cần nhiều hơn.

System prompt và quy tắc hành vi là nơi harness thường kiểm soát baseline instruction của model, bao gồm system prompt nhưng cũng có thể bao gồm project rule, coding standard, role constraint và safety policy. Một số harness năm 2026 cũng dùng progressive disclosure cho instruction: thay vì tải toàn bộ mô tả tool vào context lúc khởi động, harness chỉ thêm tóm tắt những gì có sẵn. Hướng dẫn đầy đủ cho tool chỉ được tải khi model cần tool đó.

Tool là cách agent tương tác với thế giới bên ngoài. Ví dụ phổ biến gồm web search, đọc và viết file, database query, API call, browser action, code execution và terminal command. Harness kiểm soát tool nào có sẵn, khi nào model được phép gọi chúng, và cách kết quả được định dạng và trả về context của agent. MCP (Model Context Protocol) đã trở thành interface chuẩn cho việc này trong 2026. Nhiều harness bao gồm Anthropic Agent SDK, LangChain Deep Agents và OpenAI Agents SDK dùng MCP để kết nối tool server bên ngoài mà không cần viết integration code tùy chỉnh cho từng cái.

Bộ nhớ và trạng thái cho phép agent biết những gì đã xảy ra trước đó trong task. Harness có thể giữ trạng thái ngắn hạn trong cuộc hội thoại đang hoạt động và trạng thái dài hạn trong file, log, summary hoặc preference đã lưu. Một số harness cũng nén lịch sử dài thành summary ngắn hơn để model không phải mang mọi chi tiết trong context.

Môi trường thực thi là nơi agent thực sự làm việc. Có thể là filesystem, container, sandboxed terminal, browser instance hoặc cloud runtime. Không có môi trường thực thi được harness quản lý, tool call không có nơi để thực hiện. Nhiều harness giờ dùng isolated sandbox container: môi trường tồn tại ngắn cho một session, được dọn dẹp khi task kết thúc, để file write, package cài đặt và network call từ một agent task không ảnh hưởng sang task khác.

Orchestration và lập kế hoạch hỗ trợ các task không theo một đường thẳng. Harness có thể cung cấp planning tool phân tách mục tiêu thành subtask và theo dõi trạng thái của chúng. Nó cũng có thể spawn subagent xử lý một phần công việc và chỉ trả về summary cho agent chính. LangChain Deep Agents, ví dụ, theo dõi các bước kế hoạch trong file trên filesystem, cập nhật mỗi bước từ pending sang completed khi task chạy.

Guardrail và phân quyền là nơi bạn đặt các quy tắc: phê duyệt của người dùng, chặn tool call, role-based permission và kiểm tra output. OpenAI Agents SDK, LangChain Deep Agents và Microsoft Agent Framework đều hỗ trợ loại kiểm soát này. Pattern an toàn hơn là kiểm tra input, output và tool permission riêng biệt.

Observability và tracing giải quyết câu hỏi: khi agent task năm mươi bước thất bại ở bước ba mươi bảy, trace cho thấy chuyện gì đã xảy ra. Tracing ghi lại model call, tool call, handoff, lỗi, latency và chi phí qua toàn bộ lần chạy. OpenAI Agents SDK bật tracing theo mặc định. LangSmith bổ sung debugging và evaluation dashboard. OpenTelemetry đã trở thành chuẩn để export trace ở định dạng vendor-neutral, để bạn không bị khóa vào một observability tool.

Agent Harness, Framework và Runtime: Sự khác biệt là gì?

Câu hỏi này xuất hiện thường xuyên, và câu trả lời lộn xộn hơn hầu hết bài giải thích gợi ý. Taxonomy hữu ích nhưng không cố định.

Sơ đồ stack ba tầng với agent runtime ở đáy, agent framework ở giữa và agent harness ở trên cùng, kèm sản phẩm ví dụ tại mỗi tầng

Agent framework cung cấp cho developer building block để tạo agent. Nó bao gồm model call, tool definition, memory pattern và cấu trúc agent loop. Ví dụ gồm LangChain ban đầu, CrewAI và Google ADK. Framework cho bạn biết cách cấu trúc agent, nhưng không phải lúc nào cũng cho biết cách chạy nó đáng tin cậy trong production.

Agent runtime là tầng giúp agent chạy đáng tin cậy theo thời gian. Nó xử lý durable execution, state persistence, retry, human-in-the-loop step và streaming. LangGraph, Temporal và Inngest là ví dụ. Harrison Chase đưa ra analogy thú vị: nếu Node.js là runtime và Express là framework, harness giống như Next.js.

Harness ở tầng cao hơn framework. Trong khi framework cho bạn components, harness thường đến với nhiều quyết định đã được đưa ra sẵn: tool, planning, filesystem access và context management. Ranh giới giữa ba khái niệm này vẫn đang thay đổi trong 2026.

Agent Harness được dùng cho những use case nào?

Các building block giống nhau xuất hiện trong công việc rất khác nhau, nhưng cách kết hợp mới là điều thay đổi.

Coding agent harness là ví dụ tốt hiện tại vì harness hiện rõ. Để làm công việc coding hữu ích, agent cần file access, git context, terminal execution, test running, dependency installation và project rule. Claude Code và Codex là ví dụ về pattern này: cả hai chạy trên rất nhiều harness code, không phải bare model API. Sự khác biệt giữa coding harness tốt và trung bình thường xuất hiện trong chi tiết nhỏ: cách nó phục hồi sau failing test, liệu nó có thể roll back chỉnh sửa tệ hay không, và cách nó expose git history cho model.

Research agent harness cần tool set khác: web search, source tracking, ghi chú, quản lý citation và summarization. Harness quản lý cách kết quả tìm kiếm được lưu trữ, cách nguồn được ghi nhận, và cách tài liệu dài được chunked và offload để tránh tiêu thụ toàn bộ context window trong một lần.

Data analysis agent harness cần quyền truy cập dataset, SQL database, Python execution environment và schema context để agent biết table và column nào có sẵn trước khi bắt đầu viết query. Harness cũng thực thi permission boundary, điều quan trọng khi agent có thể chạm vào production data.

Enterprise workflow harness bổ sung thêm yêu cầu: authentication, audit log, approval workflow, role-based access control và kết nối với hệ thống nội bộ. AWS AgentCore là một ví dụ managed trong danh mục này, với identity, VPC networking và observability được tích hợp. Microsoft Agent Framework bao gồm phạm vi tương tự cho team trong môi trường Azure hoặc .NET.

Các công cụ xây dựng Agent Harness năm 2026

Một số sản phẩm xuất hiện thường xuyên nhất vào giữa 2026. Chúng nằm ở các vị trí khác nhau trên spectrum framework-runtime-harness, và ranh giới vẫn đang thay đổi.

LangChain Deep Agents là open-source harness của LangChain, xây trên LangGraph làm runtime. Nó được trang bị planning tool, virtual filesystem, subagent spawning, automatic context compaction và middleware cho human-in-the-loop approval cùng PII detection. Agnostic với model, hỗ trợ OpenAI-compatible endpoint, và kết nối với sandbox provider bao gồm Modal, Runloop và Daytona cho code execution.

Anthropic Agent SDK (tên package: claude-agent-sdk) được trích xuất từ Claude Code và phát hành như option độc lập. Nó bao gồm built-in agent loop, tool cho bash execution, đọc/ghi file, web search, MCP integration và context compaction. Chỉ hoạt động với Claude model trên Anthropic API, Amazon Bedrock, Vertex AI và Azure.

OpenAI Agents SDK đã vượt qua từ framework sang harness khi feature set phát triển. Bản phát hành tháng 4/2026 bổ sung native sandbox execution, memory compaction và filesystem tool. Có trong Python và TypeScript, SDK hỗ trợ tool use, agent handoff và guardrail.

Google Agent Development Kit (ADK) hỗ trợ multi-agent orchestration với built-in class cho cấu trúc agent sequential, parallel và loop-based. Nó bao gồm evaluation tool, hoạt động với Vertex AI cho managed deployment, và hỗ trợ MCP cho kết nối tool. Có trong Python, Java, TypeScript và Go.

Microsoft Agent Framework là migration path hiện tại của Microsoft cho AutoGen project. Hỗ trợ Python và .NET, hoạt động với Azure AI service, và bao gồm MCP support.

CrewAI theo cách tiếp cận role-based cho multi-agent system. Bạn định nghĩa agent với vai trò cụ thể, gán task, setup crew, và cấu hình memory và guardrail theo cách khai báo. Phù hợp với bài toán ánh xạ tự nhiên sang một đội chuyên gia.

Temporal và Inngest không phải agent harness đơn thuần. Đây là durable execution platform xử lý những gì xảy ra khi agent task cần chạy hàng giờ hoặc hàng ngày mà không mất trạng thái. Khi thất bại, engine replay từ checkpoint thành công cuối cùng thay vì bắt đầu lại từ đầu.

Những thách thức và đánh đổi của agent harness

Thêm harness cho phép hệ thống làm được nhiều hơn, nhưng mỗi tool, permission và agent thêm vào là thêm một cách để mọi thứ hỏng. Khi task dài hơn, guardrail, tracing và durable state ngừng là tùy chọn và trở thành phần lớn nhất giúp long run có thể phục hồi.

Cũng có rủi ro coupling bắt không ít team bất ngờ. LangChain báo cáo tăng 10 đến 20 điểm trên tau2-bench subset sau khi thêm model-specific harness profile. Artificial Analysis đưa ra điểm tương tự trong Coding Agent Index: kết quả coding-agent phụ thuộc vào cả model lẫn harness cùng nhau, với chi phí, token use và thời gian mỗi task thay đổi nhiều giữa các kết hợp. Model không thay đổi. Prompt, tool và middleware xung quanh thay đổi. Profile đó chính là harness work.

Bạn có thực sự cần agent harness không?

Đây là cách thực tế để suy nghĩ về việc có cần harness hay không.

Bạn rất có thể cần harness nếu hệ thống của bạn đáp ứng một hoặc nhiều điều kiện sau: cần sử dụng tool bên ngoài, cần nhớ tiến trình qua nhiều phiên, cần chạy code trong môi trường thực, điều phối nhiều hơn một agent, cần phục hồi sau partial failure mà không mất công việc, hoặc cần phê duyệt của người dùng.

Bạn có thể không cần harness nếu task là workflow có thể đoán trước nơi mọi bước đã được xác định trước. Một test hữu ích: nếu task có thể được xử lý bởi một model call, hoặc một script nhỏ deterministic với vài câu lệnh điều kiện, harness có thể là overkill. Ngay khi task đòi hỏi agent phải đưa ra quyết định, dùng tool và phản ứng với kết quả theo thời gian, harness bắt đầu làm việc thực sự.

Pattern thường thấy là team tiếp cận harness quá sớm, xây tracing và sandboxing cho những gì thực sự là tác vụ text generation một lần. Lỗi ngược lại mới đau: ship model trực tiếp rồi nhận ra ở failing test thứ hai, tool call thứ ba hoặc restart thứ năm rằng không có hạ tầng để dựa vào.

Kết luận

Vendor không phải ai cũng dùng cùng từ cho cùng thứ, và ranh giới giữa framework, runtime và agent harness vẫn đang thay đổi. Với tác vụ one-shot generation, harness là overkill. Với agent phải hành động, ghi nhớ và phục hồi qua session dài, agent harness trở thành phần lớn của hệ thống. Chọn đúng harness ngày càng là quyết định tách biệt với chọn đúng model.

Công thức vẫn đứng vững: agent là model cộng agent harness. Phần thú vị phía trước là xem bao nhiêu trong lớp harness này mà model thế hệ tiếp theo sẽ tự hấp thụ vào bản thân nó.

Agent Agent Harness