0

Tôi Để AI Điều Khiển Máy Tính Cả Ngày Và Đây Là Kết Quả...

Thử nghiệm thực tế 10 tiếng với Computer Use Agent – Tiết kiệm bao nhiêu thời gian? Những task nào AI làm tốt, task nào còn yếu? Hướng dẫn chi tiết để bạn cũng làm được ngay.


Sáng tôi đi tập gym, tối về thấy 23 task đã hoàn thành

Hôm đó là thứ Ba. 7h sáng, tôi mở laptop, gõ một đoạn prompt vào Claude Computer Use, rồi... đóng nắp máy lại và đi tập gym.

Không phải vì tôi lười. Mà vì tôi đang thử một thứ mà cách đây 2 năm tôi còn nghĩ là viễn tưởng: để AI tự điều khiển máy tính, tự mở trình duyệt, tự tìm kiếm, tự copy-paste, tự viết báo cáo, tự lưu file – y hệt như một nhân viên thật ngồi trước màn hình.

6 tiếng sau khi quay về, màn hình hiện log của agent đang chạy task thứ 23. Bảng Excel đã điền xong. File research đã xuất ra PDF. Draft bài content đã nằm trong Google Docs.

Tôi đứng đó khá lâu, không ngồi xuống ngay. Cái cảm giác lúc đó hơi kỳ – vừa hứng khởi vừa có gì đó hơi... bất an? Kiểu như lần đầu thấy máy rửa bát làm được việc mà mình cứ nghĩ phải tự tay làm mới yên tâm.

Rồi tôi mở từng file ra kiểm tra. Và nhận ra: phần lớn là ổn thật.


Tại sao thời điểm này lại quan trọng?

Benchmark mới nhất năm 2026 trên OSWorld – bộ test chuẩn đánh giá khả năng AI điều khiển máy tính trong môi trường thực – đang cho thấy bức tranh rất thú vị:

Agent OSWorld Score So với người thật (~72%)
Holo3 ~80–82% Vượt
Claude Sonnet 4.6 ~72% Ngang ngửa
GPT-5 Operator ~68–70% Gần bằng
Agent thế hệ 2024 ~38–45% Kém xa

Nói thẳng ra: AI đang gần chạm ngưỡng làm việc tốt ngang người thật trong môi trường máy tính. Và với một số loại task lặp lại, data-heavy – AI đã vượt người thật về tốc độ từ lâu rồi.

Câu hỏi không còn là "AI có thể làm việc thay tôi không?" mà là "Tôi nên giao task nào cho AI, và giao như thế nào?"

Bạn có muốn AI thay bạn làm 6–8 tiếng công việc lặp lại mỗi ngày không? Nếu có, đọc tiếp.


Tôi đã setup và thử nghiệm như thế nào

Công cụ sử dụng

Tôi không dùng một tool duy nhất. Tôi test song song 3 agent:

  • Claude Sonnet 4.6 Computer Use (qua API + Claude.ai Cowork beta) – agent chính
  • GPT-5 Operator (OpenAI) – để so sánh
  • Holo3 – thế hệ agent mới nhất, benchmark cao nhất thị trường hiện tại

Môi trường thử nghiệm

⚠️ Lưu ý quan trọng: Tôi KHÔNG chạy agent trực tiếp trên máy chính có dữ liệu nhạy cảm. Tôi dùng:

  • Một laptop phụ cài sạch Windows 11
  • Tài khoản Google Drive riêng chỉ chứa file test
  • Không có thông tin thẻ tín dụng, mật khẩu thật, hay file công việc thực sự trên máy đó

Đây là nguyên tắc sandbox – để agent làm việc trong môi trường kiểm soát trước khi tin tưởng vào môi trường thật.

Danh sách task tôi giao trong 10 tiếng

Tôi chia làm 4 nhóm:

Nhóm 1 – Research & thu thập data (4 task)

  • Tổng hợp top 20 SaaS tools quản lý dự án năm 2026, so sánh giá và tính năng
  • Thu thập danh sách 50 email từ trang web (giả định, không vi phạm ToS)
  • Nghiên cứu thị trường EdTech Việt Nam Q1 2026

Nhóm 2 – Excel & báo cáo (5 task)

  • Tạo báo cáo tổng hợp doanh thu từ 3 file CSV thô
  • Điền 200 dòng data vào template Excel chuẩn
  • Tạo dashboard với biểu đồ từ data thô

Nhóm 3 – Content & viết lách (6 task)

  • Viết 5 caption Instagram từ briefing ngắn
  • Draft 3 email marketing theo template
  • Tóm tắt 10 bài báo tiếng Anh thành bullet points tiếng Việt

Nhóm 4 – Task kỹ thuật (8 task)

  • Tổ chức và đổi tên hàng loạt file theo quy tắc
  • Chuyển đổi định dạng file (PDF → text, CSV → Excel)
  • Debug một đoạn Python script lỗi nhỏ

Kết quả thực tế – Thành công & Thất bại

Nhóm 1: Research & Thu thập data ✅ Xuất sắc

Đây là nhóm AI làm tốt nhất, không có gì bất ngờ.

Task tổng hợp SaaS tools: Claude mở trình duyệt, tự Google, tự vào từng trang, tự copy thông tin, tự điền vào bảng. Mất 47 phút. Nếu tôi tự làm: 3–4 tiếng. Tiết kiệm ~83% thời gian, chất lượng 8/10 (cần review lại giá vì một số trang đã update).

Task nghiên cứu thị trường: Tổng hợp được 2.400 từ, có trích dẫn nguồn, có số liệu cụ thể. Nếu tôi thuê freelancer: 500.000–800.000đ và 2 ngày. AI làm trong 1h20 phút. Tiết kiệm gần như hoàn toàn về tiền, ~85% về thời gian.

Nhóm 2: Excel & Báo cáo ✅ Tốt (có lưu ý)

Task điền 200 dòng data: Hoàn thành 198/200 dòng đúng. 2 dòng bị lỗi format ngày tháng (MM/DD vs DD/MM). Độ chính xác 99%, cần review nhanh 5 phút.

Task tạo dashboard: AI tạo được biểu đồ cơ bản nhưng không đẹp bằng người thiết kế. Chức năng đủ, thẩm mỹ 6/10. Phù hợp cho báo cáo nội bộ, không phải cho khách hàng.

Task fail: Báo cáo tổng hợp từ 3 file CSV có cột không khớp tên. AI bị looping 20 phút – tôi ngồi nhìn nó cứ thử đi thử lại mà không hiểu tại sao nó không tự dừng – cuối cùng dừng và báo lỗi. Tôi phải vào fix tay 15 phút. Lúc đó tôi bắt đầu nghi ngờ cả buổi thử nghiệm này. Nhưng đây thực ra là bài học quan trọng nhất: AI giỏi xử lý data sạch, gần như bó tay với data "bẩn" và không nhất quán.

Nhóm 3: Content & Viết lách ⚠️ Trung bình

5 caption Instagram: Nội dung ổn, tone đúng brief. Nhưng không có "spark" sáng tạo. Tôi phải chỉnh lại 3/5 caption. Dùng được làm draft, không thể publish thẳng.

10 bài tóm tắt tiếng Việt: Đây là task AI làm tốt bất ngờ. Tóm tắt chính xác, giữ được ý quan trọng, tiếng Việt tự nhiên. Tiết kiệm ~70% thời gian so với tự đọc và tóm tắt.

Nhóm 4: Task Kỹ thuật ✅ Rất tốt

Đổi tên hàng loạt 340 file: Hoàn thành trong 8 phút, chính xác 100%. Nếu tôi làm tay: 2 tiếng. Đây là loại task AI nên được giao thường xuyên nhất.

Debug Python script: Claude đọc error log, tự sửa 3 bug nhỏ, chạy thử, xác nhận. 12 phút. Tôi ước tính tự làm mất 45 phút vì phải Google từng lỗi.


Bảng tổng hợp: Trước AI vs Sau AI

Loại task Thời gian tự làm Thời gian với AI Tiết kiệm Chất lượng
Research & tổng hợp 4–6h 1–2h 70–83% 8/10
Xử lý data sạch 2–3h 20–40 phút 75–80% 9/10
Xử lý data "bẩn" 3h 2h (cần hỗ trợ) 30–40% 6/10
Viết content sáng tạo 2h 1h (cần review) 40–50% 6–7/10
File management 2h 10–15 phút 90%+ 10/10
Tóm tắt & dịch 3h 45 phút 75% 8/10

Tổng kết: Trong 10 tiếng thử nghiệm, AI hoàn thành 21/23 task (91%). Tổng thời gian nếu tôi tự làm: ước tính 34–40 tiếng. AI làm trong 10 tiếng chạy song song nhiều task. Hiệu quả thực tế: gấp 3–4 lần.


Vài thứ tôi nhận ra sau ngày đó

Sự khác biệt thực sự giữa ChatGPT 2023 và Computer Use Agent 2026 không phải là AI thông minh hơn bao nhiêu – mà là AI giờ làm thay vì nói. Trước đây bạn hỏi, AI trả lời, bạn vẫn phải tự làm. Bây giờ bạn giao task, AI thực hiện, bạn chỉ cần review. Nghe đơn giản nhưng đây là sự thay đổi lớn trong workflow thực tế.

Ai hưởng lợi nhiều nhất? Thành thật mà nói, tôi nghĩ là freelancer và người làm solo. Không phải doanh nghiệp lớn – họ có team rồi. Mà là người đang một mình chạy 5-7 công việc khác nhau, không có ngân sách thuê người phụ. AI lúc này giống junior staff của bạn: giao việc được, không cần dạy lại từ đầu mỗi lần, không xin tăng lương.

Nhân viên văn phòng cũng được, nhưng ít劇剧 hơn vì môi trường công ty có nhiều ràng buộc hơn về data security và quyền truy cập.

Còn rủi ro thì có 3 thứ tôi thấy thực sự đáng lo, không phải kiểu lo chung chung: an toàn dữ liệu (agent đọc mọi thứ trên màn hình, kể cả thứ bạn không muốn nó đọc), hallucination trong action (tôi đã thấy agent xóa file thay vì di chuyển – lúc đó tim tôi nhảy một nhịp dù may mắn có backup), và over-reliance – tức là tin AI quá mức rồi không review, rồi publish thông tin sai.

Cách xử lý không phức tạp: sandbox, checkpoint, review. Nhưng cần kỷ luật thật sự.

Kỹ năng quan trọng nhất để dùng AI agent hiệu quả không phải coding hay data science. Mà là biết chia task thành các bước nhỏ mà AI có thể xử lý tuần tự, biết viết prompt đủ cụ thể để agent không tự suy diễn, và biết nhìn output nhanh để phát hiện lỗi. Ba thứ này tôi học được chủ yếu qua thử sai, không phải qua đọc tài liệu.


Hướng dẫn thực tế – Bạn có thể làm theo ngay hôm nay

Bước 1: Setup Claude Computer Use (Dễ nhất để bắt đầu)

Cách 1 – Dùng Claude.ai (Không cần code):

  1. Đăng ký Claude Pro ($20/tháng) hoặc dùng plan miễn phí giới hạn
  2. Vào claude.ai → chọn "Computer Use" trong menu beta features (nếu có)
  3. Làm theo hướng dẫn cấp quyền cho Claude điều khiển trình duyệt

Cách 2 – Dùng API (Nhiều quyền kiểm soát hơn):

  1. Đăng ký tài khoản Anthropic API tại console.anthropic.com
  2. Cài thư viện anthropic cho Python: pip install anthropic
  3. Dùng model claude-sonnet-4-20250514 với parameter computer_use

Cách 3 – Dùng Holo3 hoặc tool bên thứ ba:

  • Holo3 (holo3.ai) – benchmark cao nhất hiện tại, có UI đẹp
  • Browserbase – nền tảng sandbox chuyên cho agent

7 Prompt mẫu mạnh nhất theo từng loại task

🔍 Research & Tổng hợp:

Mở trình duyệt và tìm kiếm "[chủ đề]". 
Truy cập 5-10 nguồn uy tín (tránh Wikipedia).
Tổng hợp thông tin theo format:
- Điểm chính (3-5 bullet)
- Số liệu quan trọng (có nguồn)
- Xu hướng nổi bật
Lưu kết quả vào file "research_[ngày].docx" trên Desktop.
Báo cáo khi hoàn thành.

📊 Xử lý Excel:

Mở file "[tên file].xlsx" trên Desktop.
Thực hiện theo thứ tự:
1. Xóa các dòng trống
2. Chuẩn hóa cột "Ngày" về format DD/MM/YYYY
3. Tính tổng cột D và điền vào ô D[số dòng cuối + 1]
4. Lưu file với tên mới "[tên file]_cleaned.xlsx"
Nếu gặp lỗi ở bước nào, dừng lại và báo cáo ngay.

✍️ Content & Viết lách:

Viết [số lượng] [loại content] về chủ đề "[chủ đề]".
Tone: [chuyên nghiệp/thân thiện/hài hước].
Độ dài: [số từ/ký tự].
Đối tượng đọc: [mô tả ngắn].
Yêu cầu đặc biệt: [CTA, hashtag, link...]
Lưu vào Google Docs "[tên doc]" và chia sẻ link khi xong.

📁 File Management:

Vào thư mục "[đường dẫn]".
Đổi tên tất cả file .jpg theo format: YYYYMMDD_[tên gốc].jpg
Ngày lấy từ metadata "Date Modified" của file.
Nếu file không có metadata ngày, thêm tiền tố "UNKNOWN_".
Tạo file log "rename_log.txt" liệt kê tên cũ → tên mới.

🔎 Tóm tắt tài liệu:

Mở [URL hoặc tên file].
Đọc toàn bộ nội dung.
Viết tóm tắt theo format:
- 1 câu tóm tắt tổng quan
- 5 điểm quan trọng nhất
- 3 con số/dữ liệu nổi bật
- Đánh giá độ tin cậy của nguồn (1-10)
Tiếng Việt. Dưới 300 từ.

📧 Email & Outreach:

Mở Gmail. Tìm email từ "[tên người/domain]" trong 7 ngày qua.
Đối với mỗi email chưa trả lời:
1. Tóm tắt nội dung (1-2 câu)
2. Gợi ý phản hồi ngắn
3. Đánh dấu label "Cần trả lời"
Tạo file "email_queue.txt" liệt kê tất cả, không gửi email nào.

🐛 Debug & Kỹ thuật:

Mở file "[tên file].py" trong VS Code.
Chạy file và đọc error message.
Tìm nguyên nhân lỗi.
Sửa và chạy lại.
Lặp lại tối đa 3 lần.
Nếu sau 3 lần vẫn lỗi, tạo file "debug_report.txt" mô tả vấn đề.

Best Practices để AI làm việc hiệu quả

Chia task nhỏ: Đừng giao "Làm báo cáo tháng". Hãy giao "Mở file X, lấy cột Y, Z, tính tổng, copy sang file W."

Đặt checkpoint rõ ràng: Thêm "Báo cáo sau mỗi bước hoàn thành" vào prompt. AI sẽ gửi update thay vì âm thầm làm sai.

Luôn có error handling: "Nếu gặp lỗi, dừng lại và báo cáo. Đừng tự đoán và tiếp tục."

Test với dữ liệu nhỏ trước: Trước khi cho agent xử lý 1.000 dòng, test với 10 dòng trước.

Review output 100%: Không bao giờ publish/gửi thẳng output của AI mà không đọc qua.


Tool khuyến nghị năm 2026

Tool Chi phí Tốt nhất cho Ghi chú
Claude.ai (Pro) $20/tháng Người mới bắt đầu Dễ nhất để dùng
Holo3 ~$30/tháng Benchmark cao nhất Phù hợp doanh nghiệp
GPT-5 Operator $20/tháng (ChatGPT Plus) Tích hợp OpenAI ecosystem Khá tốt cho web tasks
Claude API Pay-per-use Developer, tự build Linh hoạt nhất
Browserbase $49+/tháng Sandbox chuyên dụng An toàn nhất cho môi trường thật

Bắt đầu với ngân sách thấp: Dùng Claude.ai Pro ($20/tháng) hoặc thậm chí free tier giới hạn để test. Chỉ nâng cấp khi bạn đã hiểu mình cần gì.


Tương lai & Kết luận

Dự đoán 2026–2027: Đây mới chỉ là khởi đầu

OSWorld benchmark đang tăng trung bình 8–12% mỗi quý. Nếu trend này tiếp tục:

  • Cuối 2026: AI Computer Use đạt 85–90% OSWorld. Hầu hết task văn phòng đơn giản đều có thể tự động hóa hoàn toàn.
  • 2027: Multi-agent workflows – nhiều AI cùng phối hợp, agent A research, agent B viết, agent C review và publish. Không cần người can thiệp.
  • 2027–2028: AI agent tích hợp vào hệ thống doanh nghiệp, tự động hóa cả quy trình phức tạp (không chỉ task đơn lẻ).

Điều này không có nghĩa là mọi người mất việc. Có nghĩa là người biết dùng AI sẽ làm được gấp 5–10 lần người không biết dùng.


Bắt đầu từ đâu?

Tôi không có lời khuyên multigenerational ở đây. Chỉ là: chọn một task bạn ghét làm nhất, thử giao cho AI một lần, xem nó làm được không. Nếu fail thì điều chỉnh prompt. Nếu ổn thì bắt đầu nghĩ xem còn task nào nữa.

Learning curve thật sự không dài – nhưng cần bắt đầu. Người bắt đầu thử hôm nay sẽ có 6–12 tháng kinh nghiệm thực tế mà người bắt đầu năm sau không có.

Tôi fail 3–4 task trong ngày thử nghiệm đó. Nhưng 19 task thành công đã tiết kiệm hơn 20 tiếng. Với tôi, tỷ lệ đó là đủ để tiếp tục.


Nếu bạn đã đọc đến đây, khả năng cao là bạn đang nghĩ đến một task cụ thể nào đó muốn thử. Comment xuống bên dưới đi – tôi sẽ viết prompt mẫu cho task của bạn, miễn phí, không có gì để bán cả.

Và nếu bạn đã thử rồi thì kể cho tôi nghe. Task nào AI làm tốt bất ngờ? Task nào fail theo cách buồn cười? Tôi đang thu thập thêm case thật để viết bài tiếp.


Bài viết dựa trên thử nghiệm cá nhân, không được tài trợ bởi bất kỳ công ty nào. Số liệu benchmark từ OSWorld Leaderboard tháng 4/2026.


All Rights Reserved

Viblo
Let's register a Viblo Account to get more interesting posts.