0

Dùng OpenClaw để điều khiển GarageBand

Lời nói đầu

Xin chào các bạn, mình là Quân. Cũng phải 1 thời gian rồi mình mới quay lại viết bài Viblo lại. Mình vẫn đang là 1 system engineer ở Nhật, vẫn là supporter của Ruby, và chơi trống có giỏi hơn xưa chút =))

Dạo gần đây thì sự phát triển của các AI agent và các công cụ sử dụng chúng tăng lên và mình cũng không ngoại lệ. Với tư cách là 1 engineer trong ngành IT còn trụ được đến hiện tại, mình không đứng ngoài xu thế.

Và khi OpenClaw bắt đầu gây chú ý, mình cũng quyết định lao vào thử nghiệm xem nó thực sự “ngon ăn” đến đâu. Bắt đầu nào

Vấn đề gặp phải

Mình có giới thiệu mình chơi trống và là nhạc công tự do(Làm youtube với tiktok. Chơi lỗi nên còn flop). Và các vấn đề mình muốn OpenClaw giải quyết thì đều trong các hoạt động chơi nhạc và dựng clip của mình.

Quy trình làm 1 video cover nhạc cụ

Đây là quy trình mình đang thực hiện để ra 1 video drum cover:

  1. Chuẩn bị beat — Tìm và tải beat (bản nhạc gốc) của bài hát muốn cover.
  2. Xác định tempo trên GarageBand — Đưa beat vào GarageBand, tìm BPM (tempo) của bài, kéo thả trên GarageBand sao cho đúng nhịp trống, sau đó bật metronome để có nhịp chuẩn làm tham chiếu.
  3. Vào phòng tập — Mang beat ra phòng tập có dàn trống, cắm tai nghe để nghe beat trong khi chơi, đảm bảo chơi đúng nhịp với bản gốc.
  4. Quay video — Chơi trống và quay lại. Video thu được lúc này chỉ có âm thanh trống thô (chưa có nhạc nền).
  5. Dựng video trên iMovie — Ghép bản nhạc gốc vào video, căn chỉnh sao cho âm trống và nhạc nền khớp nhau. Điều chỉnh âm lượng của từng track (tiếng trống / beat gốc) để hài hoà.
  6. Upload — Xuất video và đăng lên YouTube / TikTok.

Đó là quy trình mà mình làm hoàn toàn thủ công. Và cái mà mình thấy khá phiền là lúc chuẩn bị beat bước 2 và dựng ở iMovie bước 5. Vì vậy, mình đã thắc mắc liệu có thể dùng AI để tiết kiệm thời gian cho mình mấy bước này được hay không. Và thế là mình bắt đầu cài OpenClaw và thử nghiệm

Trong phạm vi lần này, mình chỉ định dùng OpenClaw để truy cập GarageBand, thao tác trong đó để thử nghiệm.

Quá trình

Cài đặt và thiết lập

Trước khi bắt đầu thử nghiệm, mình cần cài đặt một số thứ:

Yêu cầu chung: Cài sẵn Node.js phiên bản 22 LTS (22.16+) trở lên — cần thiết cho cả Claude Code và OpenClaw.

1. Đăng ký tài khoản và mua gói Subscription

  • Truy cập claude.ai
  • Chọn Sign Up, đăng ký bằng email hoặc Google account
  • Xác nhận email và hoàn tất tạo tài khoản
  • Sau khi đăng nhập, vào Settings → Plans, chọn gói Claude Pro (hiện tại ~$17/tháng)
  • Nhập thông tin thanh toán và xác nhận

image.png

2. Cài Claude Code

Claude Code là CLI tool chính thức của Anthropic để chạy Claude trực tiếp từ terminal.

Yêu cầu hệ thống

Thành phần Yêu cầu
Hệ điều hành macOS 13.0+, Windows 10 1809+ / Server 2019+, Ubuntu 20.04+, Debian 10+, Alpine Linux 3.19+
RAM 4 GB trở lên
Mạng Kết nối internet (xem thêm: network configuration)
Shell Bash, Zsh, PowerShell, hoặc CMD (Windows cần Git for Windows)
Khu vực Các quốc gia được Anthropic hỗ trợ

Cài đặt

npm install -g @anthropic-ai/claude-code

Sau khi cài xong, chạy claude lần đầu để đăng nhập và liên kết với tài khoản Anthropic. Kiểm tra cài đặt thành công bằng lệnh claude --version.

3. Cài OpenClaw và thiết lập bot Telegram

OpenClaw là tool mở rộng cho phép Claude điều khiển máy tính (computer use) — tức là Claude có thể "nhìn màn hình" và thao tác chuột/bàn phím như người dùng thật.

Cài OpenClaw:

Lưu ý: Trên Windows nên chạy OpenClaw dưới WSL2.

Cách đơn giản nhất là dùng installer script — tự động cài Node (nếu chưa có), cài CLI, và chạy onboarding:

curl -fsSL https://openclaw.ai/install.sh | bash

Sau khi cài, kiểm tra bằng:

openclaw doctor      # kiểm tra cấu hình
openclaw status      # trạng thái gateway
openclaw dashboard   # mở giao diện trên trình duyệt

Thiết lập bot Telegram: OpenClaw support nhiều kênh chat khác nhau, thậm chí có cả Zalo của Việt Nam. Trong thí nghiệm lần này, mình chọn kênh chat là Telegram.

  1. Mở Telegram, chat với @BotFather → chạy /newbot, làm theo hướng dẫn và lưu lại bot token
  2. Thêm token vào config của OpenClaw:
    {
      channels: {
        telegram: {
          enabled: true,
          botToken: "<TOKEN_CỦA_BẠN>",
          dmPolicy: "pairing",
          groups: { "*": { requireMention: true } }
        }
      }
    }
    
    (Hoặc dùng biến môi trường: TELEGRAM_BOT_TOKEN=...)
  3. Khởi động gateway và approve DM đầu tiên:
    openclaw gateway
    openclaw pairing list telegram
    openclaw pairing approve telegram <CODE>
    
    Pairing code hết hạn sau 1 giờ. Sau khi approve, mình có thể nhắn tin lệnh cho Claude qua Telegram từ điện thoại, Claude sẽ thực thi trên máy tính.

Dùng OpenClaw để edit audio trên GarageBand

Bài hát tiếp theo mình up video Youtube là bài Con Số Không của Bức Tường, và trước khi cover thì mình cần phải chuẩn bị beat bằng cách mở garage band lên, drop audio vào, tìm metronome chính xác, sau đó đặt metronome lại. Mọi thao tác làm thủ công của mình mất có khoảng 5-10 phút. Lần này mình sẽ nhờ vả OpenClaw với model Claude Opus 4.6.

Trước hết, mình yêu cầu OpenClaw mở GarageBand:

image.png

Sau khi mở garageband, có thao tác thủ công kéo track audio vào, sau đó cần classic electric piano instrumental. Vì vậy, câu gõ tiếp theo là:

image.png

Tuy nhiên, việc tương tác với giao diện cần nhiều quyền hơn cần thiết, vì vậy, có tiếp đoạn hội thoại sau:

image.png image.png image.png

Như các bạn có thể thấy, mình sau đó đi mở thêm 1 số quyền cho terminal chạy OpenClaw để có thể truy cập vào thêm file/phần mềm. Và xảy ra 1 số lỗi như kéo sai tempo cho metronome, xoá nhầm file, response chậm làm mình tưởng đơ nên đã thao tác thủ công,... Xin lỗi các bạn là mình lưu lại evidence mà chỉ có thể kể lại những khó khăn mình gặp phải.

Sau 1 thời gian vật lộn thì cuối cùng cũng được kết quả như sau:

Thời gian từ lúc prompt đến lúc được kết quả này là từ 14:13 đến 14:37. Tức là đã 24 phút trôi qua và OpenClaw mới được thao tác xoá 1 instrumental track tại project hiện tại.

Tiếp theo đó, mình yêu cầu Claw bot chạy máy tính mình tiếp thao tác điều khiển.

Theo như hình ảnh và những gì mình quan sát được trên màn hình thì Claw bot đã thực hiện đúng những gì đã được bảo. Về lý thuyết và phân tích rất đúng, nhưng câu chat cuối cùng lại là

Không khả quay lắm. Thời điểm nhận được câu này là 15:02. Tức từ 14:13 đến 15:02, tức khoảng 1 tiếng, thao tác cuối cùng mình vẫn phải chỉnh tay. Trong quá trình ấy thì không được động tay vào máy tính.

Và tổng token mình đã đốt cho 45 phút này là 25% limit trong ngày của tài khoản pro.

Kết luận

Vậy là sau 1 thử nghiệm thì mình rút ra 1 số kinh nghiệm đau thương của bản thân:

  • OpenClaw có vẻ vẫn đang hoạt động tốt cho các văn bản hoặc tệp tin text, nếu với 1 số công cụ kiểu kéo thả vẫn chưa tối ưu. Đây là mình đang chỉ dùng thử cho 1 step mình cần làm chứ chưa yêu cầu nó động vào edit video và khớp nhạc.
  • Muốn dùng OpenClaw thì vẫn cần kiến thức IT. Còn nếu với case mình mà ví thử mình là 1 nhạc sĩ/soundman/producer âm nhạc không biết gì IT thì chắc là ko cài được và prompt cũng ko thể như thế này
  • Cần cấp quyền truy cập hệ thống cho OpenClaw. Vẫn cần review hoặc an toàn nhất là bạn mua 1 phần cứng biệt lập để thử(giờ thì hiểu sao mấy cục MacMini tăng giá)
  • OpenClaw khi tương tác vẫn là base code, thao tác theo dạng screenshot lại màn hình, đọc screenshot, phân tích, tạo ra script tương ứng để tương tác theo đúng prompt/tin nhắn do người dùng gửi
  • Trong quá trình Clawbot chạy, tốt nhất nên để yên máy tính vì bot sẽ điều khiển con trỏ chuột và current window của bạn. Việc di chuyển hoặc chọn khác có thể làm đứt mạch phân tích. Mình đã chuyển từ ra lệnh cho Telegram ở máy tính sang ra lệnh từ điện thoại qua Telegram vì lý do nhảy cửa sổ giữa GarageBand và Telegram trên máy tính liên tục.
  • Phản hồi của Claw với model Opus 4.6 vẫn khá chậm. Thậm chí lúc mình yêu cầu ngắt công việc mà prompt vẫn tiếp tục chạy cho hết ý.
  • Mua gói Pro rồi đốt token trong 1 tiếng hết 25%, nếu chạy 2 tiến trình thì chắc chỉ trong 1-2 tiếng là mình mất luôn toàn bộ token. Với việc làm video cover thì còn đơn giản nhưng nếu mà liên quan đến sáng tác hoặc phối khí, yêu cầu chỉ đạo là nhịp 4/4 hay 6/8, hay chỗ này nốt Đồ hay Mi,.... thì lượng prompt sẽ nhiều lên và khi đó thì chắc là mất nhiều thời gian và chi phí so với tự làm thủ công(hoặc ném lên Suno cho tiện. Suno thì có cái tiện thật nhưng nếu là dân chuyên nhạc thì sẽ không đánh giá cao lắm các final output của Suno để nguyên mà tung lên)
  • Tuy vậy thì hiện có 1 bác sound engineer trên mạng cũng đã setup thử 1 studio bằng OpenClaw. Bác ấy dùng REAPER cơ, chứ không phải GarageBand như mình. Các bạn có thể xem ở đây:

Cảm ơn các bạn đã đọc bài viết này của mình


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí