0

[Open Source] #184 - Notte: Framework điều phối AI Agent trình duyệt với kiến trúc Patchright Stealth, cơ chế Agent Fallback và bảo mật Zero-Knowledge Vault

Trong kỷ nguyên của AI Agents, khả năng tương tác trực tiếp với thế giới Web thông qua trình duyệt là một kỹ năng thiết yếu. Tuy nhiên, các rào cản từ hệ thống chống Bot, chi phí token cao khi gửi toàn bộ DOM và vấn đề lộ lọt thông tin đăng nhập luôn là những bài toán hóc búa. Notte ra đời như một hệ điều hành chuyên dụng cho AI, cho phép biến trình duyệt thành một môi trường có thể lập trình, suy luận và thực thi tác vụ với độ tin cậy cực cao và chi phí tối ưu.

Dưới góc độ kỹ thuật, Notte là một minh chứng xuất sắc về việc ứng dụng kiến trúc Modular Monorepo, kỹ thuật Patchright Stealth và tư duy Hybrid Automation (kết hợp Scripting và AI).

Github: https://github.com/notte-ai/notte


🛠️ 1. Nền tảng công nghệ: Hệ sinh thái điều phối AI tối tân

Notte tận dụng sức mạnh của các thư viện Python hiện đại để xây dựng một hạ tầng bền bỉ:

  • Logic Core (Python 3.11+): Sử dụng Python làm ngôn ngữ chủ đạo để tận dụng hệ sinh thái LLM phong phú. Dự án được quản lý bởi uv, mang lại tốc độ cài đặt và đồng bộ hóa môi trường nhanh kỷ lục.
  • Stealth Automation (Patchright): Notte không dùng Playwright tiêu chuẩn mà sử dụng Patchright – một phiên bản đã được vá lỗi ở tầng nhị phân để loại bỏ hoàn toàn các dấu vết của bot, giúp vượt qua các hệ thống Cloudflare hay Akamai một cách tàng hình.
  • LLM Agnostic (LiteLLM): Tích hợp LiteLLM để điều phối đồng thời nhiều mô hình (OpenAI, Anthropic, Gemini, Groq). Điều này cho phép hệ thống tự động chuyển đổi giữa mô hình thông minh (cho suy luận phức tạp) và mô hình giá rẻ (cho các tác vụ đơn giản).
  • Structured Intelligence (Pydantic): Toàn bộ dữ liệu trích xuất từ Web được kiểm soát bởi Pydantic, đảm bảo AI luôn trả về dữ liệu có cấu trúc và đúng Schema cho các hệ thống Backend tiêu thụ.

🏗️ 2. Trụ cột kiến trúc: Modular Agents và Perception Layer

Kiến trúc của Notte được chia thành các lớp chức năng rõ rệt trong cấu trúc Monorepo:

  • Perception Layer (notte-browser): Thay vì gửi hàng nghìn dòng mã HTML thô cho LLM (gây tốn token), Notte thực hiện tinh lọc cây DOM thành định dạng Markdown hoặc JSON rút gọn. Kỹ thuật này giúp AI tập trung vào các thành phần có thể tương tác (Interactive elements) mà vẫn giữ được bối cảnh trang web.
  • Reasoning Engine (notte-agent): Đây là "bộ não" quản lý vòng đời suy luận. Agent thực hiện chu trình: Quan sát (Observe) -> Lập kế hoạch (Plan) -> Thực thi (Act). Hệ thống hỗ trợ lưu trữ hội thoại và quản lý trạng thái đa bước (Stateful workflows).
  • Zero-Knowledge Secret Vaults: Một thiết kế bảo mật đỉnh cao dành cho doanh nghiệp. Thông tin đăng nhập nhạy cảm được lưu trữ trong Vault. LLM chỉ ra lệnh "Đăng nhập", và Notte sẽ tự động điền thông tin ở tầng trình duyệt vật lý mà không bao giờ để lộ mật khẩu thực tế cho mô hình AI.

🔄 3. Workflow: Chu trình suy luận và Thực thi tự động (Sequence Diagram)

Sơ đồ mô tả quy trình Agent của Notte xử lý một yêu cầu "Mua vé máy bay trên trang web X":

image.png


⚡ 4. Các kỹ thuật "Pro-level" trong mã nguồn

  1. Agent Fallback Architecture: Đây là kỹ thuật tiết kiệm chi phí thông minh nhất. Notte ưu tiên chạy các đoạn script tự động hóa truyền thống (cố định và rẻ). Chỉ khi script bị lỗi (ví dụ: nút bấm đổi vị trí), hệ thống mới kích hoạt AI Agent để "suy luận lại" đường đi, đảm bảo chương trình không bao giờ bị ngắt quãng.
  2. Digital Personas & Identity Orchestration: Hệ thống tích hợp khả năng tự động tạo danh tính số hoàn chỉnh: từ tạo email, số điện thoại ảo đến việc tự động giải mã 2FA từ tin nhắn SMS, giúp Agent có khả năng tự vận hành như một người dùng thật.
  3. Cross-Infrastructure CDP: Hỗ trợ giao thức Chrome DevTools Protocol (CDP), cho phép Agent của Notte có thể kết nối và điều khiển các cụm máy chủ trình duyệt đám mây (Browserbase, Steel) quy mô lớn.
  4. MCP Server Integration: Notte cung cấp một máy chủ theo giao thức Model Context Protocol. Điều này cho phép tích hợp trực tiếp Notte vào các IDE như Cursor hoặc chatbot như Claude Desktop để thực hiện tác vụ web ngay trong môi trường làm việc của lập trình viên.

⚖️ 5. So sánh chiến lược

Tiêu chí Notte Playwright / Selenium MultiOn / Skyvern
Tính tàng hình Patchright (Rất cao) Thấp (Dễ bị nhận diện) Cao
Chi phí Token Thấp (DOM Minification) N/A Cao
Độ bền bỉ Cực cao (Fallback Agent) Thấp (Dễ hỏng script) Cao
Bảo mật Zero-Knowledge Vault Lưu file thô Cloud-managed
Tính tùy biến Rất cao (Hybrid Mode) Cao Thấp (Blackbox AI)

✅ Kết luận: Tại sao Notte là hạ tầng tương lai của Web AI?

Notte chứng minh rằng AI Agent không chỉ là một trào lưu, mà là một công cụ kỹ thuật có thể tin cậy được nếu có một kiến trúc hỗ trợ đúng đắn. Bằng cách giải quyết triệt để các bài toán về tàng hình, bảo mật thông tintối ưu hóa DOM, dự án đã mở ra cánh cửa cho việc xây dựng các ứng dụng RPA (Robotic Process Automation) thế hệ mới thông minh và bền bỉ.

Đối với các kỹ sư AI và Backend, nghiên cứu Notte giúp bạn hiểu sâu về:

  • Kỹ thuật xây dựng Browser Orchestration quy mô lớn.
  • Tư duy thiết kế Hybrid AI Systems (Scripting + Reasoning).
  • Cách triển khai Bảo mật danh tính cho các hệ thống tự động hóa.


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí