0

[Open Source] #255 - waoowaoo: Hệ thống Studio AI sản xuất video chuyên nghiệp với kiến trúc Next.js 15, BullMQ và cơ chế điều phối Agentic Film-making Workflows

Trong kỷ nguyên của Generative AI, việc tạo ra một video ngắn chất lượng cao không còn dừng lại ở việc gõ một câu lệnh (Prompt). waoowaoo ra đời như một "Nhà máy sản xuất phim" kỹ thuật số hoàn chỉnh, cung cấp một hạ tầng điều phối (Orchestration) cực kỳ tinh vi để biến các bản thảo tiểu thuyết thô sơ thành những thước phim Cinematic. Điểm vượt trội của waoowaoo là việc áp dụng mô hình Agentic Workflows — nơi các AI Agent đóng vai trò chuyên gia (Biên kịch, Đạo diễn hình ảnh, Họa sĩ bối cảnh) cùng làm việc trong một dây chuyền sản xuất tự động, đảm bảo tính nhất quán tuyệt đối về nhân vật và ngôn ngữ điện ảnh.

Dưới góc độ kỹ thuật, waoowaoo là một minh chứng xuất sắc về sự kết hợp giữa Next.js 15/React 19, hệ thống hàng đợi BullMQ và kỹ thuật quản trị tri thức qua LangGraph.

Github: https://github.com/v8u7/waoowaoo


🛠️ 1. Nền tảng công nghệ: Bleeding Edge AI Stack

Dự án chọn lọc những công nghệ tiên phong nhất để xử lý khối lượng công việc tính toán và đồ họa khổng lồ:

  • Logic Core (Next.js 15 & React 19): Sử dụng các tính năng mới nhất như Server ActionsStreaming Metadata, giúp tối ưu hóa việc truyền tải dữ liệu trạng thái từ AI về phía người dùng theo thời gian thực.
  • Infrastructure Bridge (Model Gateway): Một lớp trừu tượng hóa tinh vi nằm tại src/lib/model-gateway. Thay vì phụ thuộc vào một nhà cung cấp đơn lẻ, waoowaoo cho phép người dùng linh hoạt hoán đổi giữa OpenAI, Google Gemini, Fal.ai hoặc các mô hình nội bộ (Ark) thông qua một giao thức đồng nhất.
  • Background Processing (Redis & BullMQ): Đây là "trái tim" vận hành. BullMQ quản lý hàng nghìn tác vụ sinh ảnh (T2I) và sinh video (I2V) bất đồng bộ, đảm bảo tính bền bỉ và khả năng tự phục hồi (Retry) khi gặp sự cố API.
  • Media Orchestration (Sharp & Remotion): Sử dụng Sharp để xử lý ảnh nhị phân ở tốc độ cao và Remotion để biên tập video hoàn toàn bằng mã nguồn React, cho phép tự động hóa 100% khâu hậu kỳ.

🏗️ 2. Trụ cột kiến trúc: Agentic Workflows và Character Consistency

Kiến trúc của waoowaoo được xây dựng để giải quyết bài toán "kiểm soát được AI" (Controllable AI):

  • Agentic Pipeline (LangGraph): Dự án sử dụng LangGraph để thiết kế các luồng suy luận có trạng thái. Hệ thống không chạy theo đường thẳng mà thực hiện các vòng lặp (Loops) và kiểm định (Self-correction). Ví dụ: Agent Đạo diễn sẽ kiểm tra xem ảnh do Agent Họa sĩ tạo ra có khớp với kịch bản không, nếu không sẽ yêu cầu vẽ lại.
  • Character Reference Architecture: Một kỹ thuật kỹ thuật đỉnh cao để giải quyết vấn đề lớn nhất của AI Video: sự thay đổi khuôn mặt nhân vật giữa các cảnh. waoowaoo thực hiện phân tích đặc trưng nhân vật thành các bộ Metadata văn bản chi tiết và "tiêm" (Inject) chúng vào mọi Prompt sinh ảnh để duy trì tính nhất quán (Consistency) xuyên suốt bộ phim.
  • Strict Data Contract (Guards): Hệ thống tích hợp các script kiểm tra cấu hình dữ liệu (scripts/guards). Mọi đầu ra của AI từ bước phân tích Novel đến Storyboard đều phải đi qua bộ lọc Schema để đảm bảo tính toàn vẹn của tệp JSON trước khi chuyển sang công đoạn render.

🔄 3. Workflow: Vòng đời sản xuất từ Tiểu thuyết đến Phim (Sequence Diagram)

Sơ đồ mô tả quy trình hệ thống điều phối các Agent để tạo ra một tập phim ngắn:

image.png


⚡ 4. Các kỹ thuật "Pro-level" trong mã nguồn

  1. Cinematography Prompt Engineering: Dự án sở hữu một kho tri thức về góc máy và ánh sáng trong lib/prompts. Agent chuyên biệt sẽ tự động thêm các thuật ngữ điện ảnh (vd: "Extreme Close-up", "Low-angle shot", "Rembrandt lighting") vào prompt dựa trên tâm trạng (mood) của cảnh quay.
  2. Stateless Model Routing: Lớp Gateway cho phép định tuyến yêu cầu dựa trên độ phức tạp. Các tác vụ dịch thuật có thể dùng mô hình giá rẻ, trong khi tác vụ viết kịch bản sáng tạo sẽ được đẩy sang các mô hình thông minh hơn (GPT-4o/Claude 3.5).
  3. Real-time Task Synchronization (SSE): Sử dụng Server-Sent Events để duy trì kênh truyền tin một chiều từ Worker tới UI. Người dùng có thể nhìn thấy từng khung hình storyboard xuất hiện ngay khi nó vừa được AI "vẽ" xong, tạo trải nghiệm tương tác cực tốt.
  4. Optimistic Rendering Hooks: Frontend sử dụng các kỹ thuật mutation nâng cao để dự đoán và hiển thị trạng thái tiếp theo của UI, triệt tiêu cảm giác chờ đợi khi hệ thống đang xử lý hàng đợi database.

⚖️ 5. So sánh chiến lược

Tiêu chí waoowaoo OpenAI Sora / Kling (SaaS) Quy trình thủ công
Kiểm soát quy trình Tuyệt đối (Workflow-driven) Thấp (Blackbox) Tuyệt đối
Nhất quán nhân vật Rất cao (Ref-based) Trung bình Tuyệt đối
Tự động hóa 90% (Từ Text thô) 20% (Chỉ Video) 0%
Chi phí Tối ưu (Dùng API lẻ) Đắt (Thuê bao) Tốn công
Tùy biến UI Vô hạn (Mã nguồn mở) Không thể N/A

✅ Kết luận: Tại sao waoowaoo định nghĩa lại ngành sáng tạo nội dung?

waoowaoo chứng minh rằng sức mạnh của AI không chỉ nằm ở khả năng sinh dữ liệu, mà ở khả năng tự động hóa quy trình nghiệp vụ phức tạp. Bằng cách làm chủ kỹ thuật điều phối Agentic Workflows và làm chủ hạ tầng Media Rendering, dự án đã mang lại công cụ sản xuất chuyên nghiệp vào tay mọi nhà sáng tạo, xóa bỏ rào cản giữa ý tưởng và hình ảnh.

Đối với các kỹ sư AI và Fullstack, nghiên cứu waoowaoo giúp bạn hiểu sâu về:

  • Cách xây dựng Hệ thống điều phối Agent với LangGraph.
  • Kỹ thuật quản lý Task Queue quy mô lớn cho Media Processing.
  • Tư duy thiết kế AI-Agnostic Interface (không phụ thuộc một nhà cung cấp AI).


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí