AI Agents: Làn sóng Tự động hóa Tiếp theo (P2)
Giới thiệu
Chào mừng các bạn trở lại với phần tiếp theo của hành trình tìm hiểu về AI Agents!
Ở Phần 1, chúng ta đã cùng nhau làm quen với những khái niệm cốt lõi: từ việc định nghĩa AI Agent là gì, phân biệt chúng rõ ràng với các AI assistants quen thuộc, cho đến việc nhìn lại chặng đường "tiến hóa" đầy ấn tượng của chúng qua các thập kỷ. Chúng ta cũng đã tìm hiểu về các loại AI Agent phổ biến, qua đó hiểu được sự đa dạng trong cách chúng nhận thức, ra quyết định và hành động.
Với nền tảng kiến thức đó, Phần 2 của bài viết sẽ đưa chúng ta đi sâu hơn vào "bên trong" của AI Agents hiện đại. Chúng ta sẽ "mổ xẻ" kiến trúc kỹ thuật chi tiết, khám phá cách các Large Language Models (LLMs) đóng vai trò trung tâm, cùng với các thành phần quan trọng như memory , planning, và đặc biệt là tool use (khả năng sử dụng công cụ) – những yếu tố then chốt giúp agent tương tác và thực thi nhiệm vụ trong thế giới thực.
Tiếp đó, chúng ta sẽ thẳng thắn nhìn nhận những thách thức không nhỏ, cả về mặt kỹ thuật lẫn các cân nhắc đạo đức, trong việc phát triển và triển khai AI Agents. Cuối cùng, một bức tranh về triển vọng tương lai sẽ được phác họa, nơi chúng ta cùng dự đoán tương lai của AI Agents hay những tác động mạnh mẽ mà công nghệ này hứa hẹn mang lại, đặc biệt là với web developers chúng ta.
Bài này sẽ gồm 3 mục cuối:
IV. Kiến trúc Kỹ thuật: Cách
agentshoạt động bên trong, bao gồm các công nghệ chính,memory,planning, vàtool use...
V. Thách thức: Những trở ngại và cân nhắc đạo đức trong việc phát triển vàdeploymentagents.
VI. Triển vọng Tương lai: Công nghệ này đang hướng tới đâu và tác động tiềm năng của nó.
IV. Kiến trúc Kỹ thuật
Hiểu cách AI agents hoạt động đòi hỏi phải xem xét kiến trúc kỹ thuật của chúng – các công nghệ cơ bản và cách các thành phần tương tác trong chu trình hoạt động.
1. Vòng lặp Agent: Sense -> Think -> Act -> Learn
Ở cấp độ cao, agents hoạt động trong một vòng lặp liên tục:
Sense(Perception- Nhận thức):Agentthu thập dữ liệu về môi trường của nó bằng nhiều đầu vào khác nhau –APIs, lệnh văn bản/giọng nói của người dùng, phân tích nội dung trang web (DOM,visuals), dữ liệusensor(đối vớiphysical agents), v.v. Đây là dữ liệu thô này cần được xử lý.Think(Reasoning&Planning- Suy luận & Lập kế hoạch): Đây là giai đoạn ra quyết định cốt lõi.Agentxử lý thông tin nhận thức được, truy cập cơ sở tri thức vàmemorycủa nó, suy luận về tình huống liên quan đến mục tiêu của nó, và lập kế hoạch (các) hành động tiếp theo. Điều này thường liên quan đến việc chia nhỏ các tác vụ phức tạp thành các bước nhỏ hơn, dễ quản lý hơn.Act(Execution- Thực thi):Agentthực thi hành động đã chọn, tương tác với môi trường của nó. Điều này có thể có nghĩa là gọi mộtAPIbên ngoài, thực thicode, thao tácbrowser, tạo văn bản, hoặc điều khiển phần cứng.Learn(Adaptation- Thích ứng):Agentquan sát kết quả hành động của mình và sử dụng phản hồi (tường minh hoặc ngầm định) để cập nhật các model nội bộ, kiến thức, hoặc chiến lược của mình, cải thiện hiệu suất trong tương lai.![]()
2. Các Công nghệ Chính Cho phép
Một số công nghệ chính hội tụ để làm cho AI agents hiện đại trở nên khả thi:
Large Language Models(LLMs): Thường tạo thành "bộ não" củaagent, cung cấp các khả năng mạnh mẽ trong việc hiểu ngôn ngữ tự nhiên, suy luận, và thậm chí lập kế hoạch (ví dụ: thông qua các kỹ thuật nhưChain of ThoughthoặcReAct).Machine Learning&Deep Learning: Được sử dụng rộng rãi để nhận dạng mẫu, dự đoán, phân loại, và cho phép thành phần học hỏi (đặc biệt là học tăng cường (Reinforcement Learning).Natural Language Processing(NLP): Quan trọng cho lớp nhận thức (perception) (hiểu yêu cầu người dùng, phân tích văn bản) và lớpaction(tạo phản hồi mà con người có thể đọc được).AI Planning Techniques: Các thuật toán nhưMarkov Decision Processeshoặc các thuật toán tìm kiếm giúpagentsđưa ra quyết định trong điều kiện không chắc chắn và lập kế hoạch chuỗi hành động.APIsvàTool Integration: Các cách tiêu chuẩn hóa đểagentstương tác với phần mềm bên ngoài,databases,web services, và phần cứng là điều cần thiết để mở rộng khả năng của chúng vượt ra ngoàimodelcốt lõi.
3. Các Thành phần Kiến trúc Cốt lõi
Hãy xem xét một số thành phần chức năng quan trọng trong kiến trúc agent:
Prompt Engineering&Context Management: Mặc dù người dùng cung cấp mục tiêu ban đầu,agentthường tạo ra cácpromptsnội bộ để hướng dẫn suy luận của chính nó hoặc tương tác vớiLLMcốt lõi hoặc cáctoolscủa nó. Việc quản lý hiệu quảcontext(thông tin có sẵn choagentở mỗi bước – mục tiêu, kế hoạch, lịch sử, đầu ratool, nội dungmemory) là rất quan trọng để hoạt động mạch lạc và hiệu quả.PlanningvàReasoning: Điều này liên quan đến chia một mục tiêu lớn thành các bước nhỏ hơn.Agentcần suy luận về chuỗi hành động tốt nhất, có khả năng sử dụng khả năng suy luận củaLLMhoặc các thuật toánplanningchuyên dụng. Nó cũng phải có khả năng suy nghĩ (reflect) về tiến độ và lập kế hoạch lại nếu cần thiết.Memory Systems&Knowledge Retrieval: Đây là yếu tố khác biệt chính choagents. Không giống nhưcontext windowhạn chế, tạm thời của mộtLLMtiêu chuẩn,memorycủaagentgiúp nó có thể "nhớ lâu dài".Short-Term/Working Memory: Giữcontexttức thời cho tác vụ hiện tại. (mở tab mới sẽ mất)Long-Term Memory: Lưu trữ thông tin qua cácsessions– sở thích người dùng, thành công/thất bại trong quá khứ, sự kiện đã học. Điều này cho phép sự thích ứng và cá nhân hóa thực sự.Vector databasesthường được sử dụng để truy xuất cácmemoriesliên quan.Memoryvs.RAG:Retrieval-Augmented Generation(RAG) tìm nạp kiến thức bên ngoài (như tài liệu) để cung cấp thông tin cho phản hồi.Memorycung cấp tính liên tục dựa trên kinh nghiệm của chínhagent. Chúng bổ sung cho nhau:RAGcung cấp sự kiện,Memorycung cấpcontextvà học hỏi.
ToolvàMCP:Agentscó được sức mạnh bằng cách sử dụng cáctoolsbên ngoài. Đây có thể là bất cứ thứ gì từ một máy tính đơn giản hoặcAPIđến các hành động phức tạp như thực thicode, tìm kiếm trên web, tương tác vớidatabases, hoặc điều khiểnweb browser.Agentcần quyết định khi nào sử dụngtool,toolnào để sử dụng, và cách diễn giải đầu ra của nó.![image.png]()
4. Ví dụ ứng dụng thực tế: Browser Automation cho Testing
Đối với các web developers, một trong những ứng dụng hữu hình nhất của AI agents là trong UI test automation. Theo truyền thống, điều này liên quan đến việc viết các scripts chi tiết bằng cách sử dụng các frameworks như Selenium hoặc Playwright, chỉ định các locators phần tử và tương tác chính xác.
AI agents cung cấp một cách tiếp cận khác:
- Chuyển từ
ScriptingsangPrompting: Thay vì viếtdriver.findElement(By.id("login-button")).click();, bạn có thể hướng dẫnagent: "Click vào nút đăng nhập," hoặc thậm chí mô tả toàn bộ luồng người dùng: "Đăng nhập bằng tên người dùng 'testuser' và mật khẩu 'password123', sau đó điều hướng đến trang hồ sơ và xác minh địa chỉ email là 'testuser@example.com'." AIDịch Ý định:Agentsử dụng nhận thức (perception) của nó (phân tích trang web hiện tạiDOMvà có thể cả bố cục trực quan) vàreasoning(hiểuprompt) để xác định cácelementschính xác và thực hiện các hành động cần thiết (click, nhập liệu, điều hướng,...).- Tác động đến Vai trò:
- Khả năng Tiếp cận: Giảm rào cản cho việc tạo
tests, có khả năng cho phépmanual QAhoặc các thành viên khác trong nhóm tham gia. - Sự Thay đổi Vai trò của Developer: Đối với các
developerstham gia vàotesting, trọng tâm chuyển từscriptingphức tạp sang:- Hướng dẫn
AI: Tạo cácpromptsrõ ràng và hiệu quả. - Đặt Ranh giới: Xác định phạm vi hành động của
agent. - Diễn giải Kết quả:
Debuggingcác thất bại, có thể xuất phát từ sự diễn giải củaAI, bản thân ứng dụng, hoặc cácelementskhông ổn định. - Tư duy Chiến lược: Tập trung hơn vào chiến lược
test, độ bao phủ (coverage), và biết khi nàoscriptingtruyền thống vẫn có thể tốt hơn.
- Hướng dẫn
- Khả năng Tiếp cận: Giảm rào cản cho việc tạo
- Lợi ích Tiềm năng: Có thể tăng tốc độ tạo
testcho cácworkflowsphổ biến, tạo điều kiện hợp tác (cáctestsđược mô tả bằng ngôn ngữ tự nhiên), và cho phépdeveloperstập trung vào các thách thứctestingphức tạp hơn hoặc các nhiệm vụdevelopment. Ngoài ra, nếu bạn phát triển AI Agent liên quan đến code generation thì sau khi AI generation xong tính năng bạn có thể báo nó chạy test luôn để đảm bảo tính năng generation chạy đúng.
V. Thách thức và Cân nhắc
Mặc dù AI agents mang lại những khả năng thú vị, việc phát triển và deployment của chúng đi kèm với những thách thức đáng kể cần được xem xét cẩn thận:
- Thiên vị Dữ liệu:
Agentshọc từ dữ liệu, và nếu dữ liệu đó phản ánh các thành kiến xã hội,agentcó thể vô tình duy trì hoặc thậm chí khuếch đại sự bất công trong các lĩnh vực như tuyển dụng, kiểm duyệt nội dung, hoặc đề xuất. - Đạo đức: Khi
agentstrở nên tự chủ hơn, các câu hỏi đạo đức phức tạp nảy sinh liên quan đến việc ra quyết định của chúng, tác động xã hội tiềm ẩn (ví dụ: mất việc làm doautomation, lạm dụng trong giám sát hoặc chiến tranh) - Rủi ro Bảo mật:
Agentscó thể là mục tiêu. Điều này bao gồm đánh cắp dữ liệutraininghoặc dữ liệu tương tác người dùng, đánh lừaagentbằng các input bị thao túng. - Độ Tin cậy và Tính Nhất quán: Hành vi của các
agentsphức tạp, đặc biệt là nhữngagentsliên quan đếnLLMs, đôi khi có thể không xác định hoặc không thể đoán trước, dẫn đến kết quả không nhất quán hoặc thất bại bất ngờ. - Chi phí và Tài nguyên: Việc phát triển,
training, và chạy cácAI agentstinh vi có thể tốn kém về mặt tính toán và đòi hỏi tài nguyên và chuyên môn đáng kể. - Độ phức tạp Tích hợp: Việc tích hợp
agentsmột cách trơn tru vào các hệ thống vàworkflowsphức tạp hiện có có thể là một thách thức kỹ thuật.
Giải quyết những thách thức này đòi hỏi một cách tiếp cận đa diện bao gồm thiết kế cẩn thận, testing nghiêm ngặt, giám sát đạo đức, bảo mật mạnh mẽ, và nghiên cứu liên tục.
VI. Triển vọng Tương lai
Lĩnh vực AI agents đang phát triển nhanh chóng, hướng tới các hệ thống với khả năng ngày càng tinh vi và tích hợp sâu hơn vào cuộc sống số của chúng ta:
- Nâng cao Năng lực: Mong đợi các
agentsvới khả năng suy luận mạnh mẽ hơn (lập kế hoạch đa bước tốt hơn), khả năng suy nghĩ (reflection) được cải thiện (học hỏi từ các hành động trong quá khứ hiệu quả hơn), và các hệ thốngmemorytiên tiến hơn cung cấp tính liên tục thực sự. Sự phối hợp giữa hiểu ngôn ngữ và thực thi hành động (Large Action Models-LAMs) sẽ trở nên chặt chẽ hơn, cho phépagentsxử lý các tác vụ thế giới thực phức tạp một cách liền mạch hơn. - Tăng cường Tự chủ: Xu hướng là hướng tới các
agentstự định hướng hơn có thể ước tính, lập kế hoạch, và thực thi các tác vụ với ít sự hướng dẫn của con người hơn, hoạt động giống như những người cộng tác chủ động hơn. Multi-Agent Systems: Chúng ta có thể sẽ thấy nhiều hệ thống phức tạp hơn nơi nhiềuagentshợp tác hoặc cạnh tranh để giải quyết các vấn đề, giải quyết các nhiệm vụ vượt quá phạm vi của bất kỳagentđơn lẻ nào.- Tích hợp
WorkflowSâu hơn:Agentssẵn sàng trở thành các thành phần cơ bản của chuyển đổi số, tự động hóa các quy trình kinh doanh phức tạp và có khả năng hoạt động như những đồng nghiệp ảo cùng với con người.
Lời khuyên cho Web Developers:
- Làm thế nào để chuẩn bị cho sự thay đổi này? (Học về LLMs, prompt engineering, các frameworks agent).
- Tập trung vào các kỹ năng mà AI khó thay thế (sáng tạo, tư duy phản biện, giải quyết vấn đề phức tạp ở mức độ cao,...).
- Xem AI agents như một công cụ mạnh mẽ để nâng cao năng suất và khả năng, chứ không chỉ là một mối đe dọa.
Kết luận
Chúng ta đã đi qua bức tranh toàn cảnh của AI agents, vượt ra ngoài các scripts và assistants đơn giản để hiểu các hệ thống tự chủ, hướng tới mục tiêu này. Chúng ta đã thấy cách chúng nhận thức, suy luận, hành động, và học hỏi, được hỗ trợ bởi các công nghệ như LLMs và machine learning. Chúng ta đã khám phá kiến trúc của chúng, vai trò quan trọng của memory và tool use.
Những điểm chính cần nhớ sau 2 phần bao gồm:
AI agentsđại diện cho một bước tiến tớiAItự chủ hơn, có khả năng lập kế hoạch và thực thi độc lập.- Cốt lõi của chúng nằm ở chu trình
Sense-Think-Act-Learn, được kích hoạt bởi các thành phần nhưperception,reasoning,action execution, và các cơ chếlearning. MemoryvàTool Uselà những yếu tố khác biệt quan trọng, cho phépagentsduy trìcontextvà tương tác với thế giới bên ngoài.- Chúng mang lại lợi ích tiềm năng trong các lĩnh vực như
automation(ví dụ:testing) nhưng cũng đặt ra những thách thức đáng kể liên quan đếnbias, đạo đức và bảo mật. - Tương lai hướng tới các
agentscó năng lực hơn, tích hợp hơn, và tự chủ hơn hoạt động như những người cộng tác trong các lĩnh vực khác nhau.
Với vai trò là web developers, việc hiểu các khái niệm này ngày càng trở nên quan trọng. Mặc dù agents sẽ không thay thế các kỹ năng development cốt lõi ngay lập tức, chúng đại diện cho các tools mạnh mẽ và một bối cảnh đang thay đổi trong automation và thậm chí có thể là cách chúng ta tương tác với các hệ thống phức tạp trong tương lai.
Cảm ơn bạn đã đọc !
Tài liệu tham khảo
(Nguồn: Medium - Abby - https://sen-abby.medium.com/ai-agents-technical-overview-architecture-and-implementation-8811df690565)
(Nguồn: aqua cloud - https://aqua-cloud.io/browser-based-ai-operators/)
(Nguồn: SmythOS - https://smythos.com/ai-agents/ai-agent-development/challenges-in-ai-agent-development/)
(Nguồn: Forbes Technology Council - https://www.forbes.com/councils/forbestechcouncil/2025/01/02/ai-agents-the-next-frontier-in-intelligent-automation/)
All rights reserved


