Đã đăng vào thg 12 15, 2025 7:03 SA 4 phút đọc

500

[Agentic AI #2] Tạm Biệt Hóa Đơn OpenAI: Hướng Dẫn Chạy AI 'Miễn Phí' Trên Laptop Với Ollama

Chào các anh em developer! 👋

Chào mừng quay trở lại với series "Kỷ Nguyên Agentic AI".

Ở Tạm Biệt Chatbot: Hướng Dẫn Build Đội Ngũ "Nhân Viên Ảo" Đầu Tiên Với Python, chúng ta đã cùng nhau xây dựng một đội ngũ "nhân viên ảo" cực ngầu bằng Python và CrewAI. Mọi thứ đều tuyệt vời cho đến khi... bạn nhìn vào bảng điều khiển thanh toán của OpenAI cuối tháng. 💸

"Chạy demo cho vui mà tốn 5$ tiền API thì xót quá!" "Sếp cấm gửi dữ liệu dự án lên server ChatGPT vì sợ lộ bí mật!"

Nếu bạn đang gặp những vấn đề này, thì bài viết hôm nay là dành cho bạn. Chúng ta sẽ chuyển nhà từ "Cloud" về "Local".

Hôm nay, mình sẽ hướng dẫn anh em cài đặt Ollama để chạy các model AI mạnh mẽ (như Llama 3.2) ngay trên laptop cá nhân. Miễn phí 100%, Offline 100%, Bảo mật 100%.

1. Local LLM là gì và tại sao bạn cần nó?

Hiểu đơn giản: Thay vì thuê bộ não của OpenAI qua internet, bạn tải một bộ não nhỏ hơn (nhưng vẫn đủ khôn) về máy mình để dùng.

Tiêu chí	OpenAI (GPT-4)	Local LLM (Llama 3.2)
Chi phí	Tính tiền theo từng từ (token)	0 đồng (chỉ tốn tiền điện)
Bảo mật	Dữ liệu gửi đi ra ngoài	Dữ liệu nằm yên trong máy
Mạng	Cần Internet	Chạy Offline mọi lúc
Độ thông minh	10/10	7.5/10 (Đủ dùng cho code/tóm tắt)

Trong bối cảnh Agentic AI, việc chạy Local cực kỳ lợi hại khi bạn để các Agent tự suy nghĩ và hành động liên tục cả ngày mà không lo "đau ví".

2. Ollama: "Docker" của thế giới AI

Trước đây, cài AI lên máy cực khổ (nào là PyTorch, CUDA, VRAM...). Nhưng giờ đã có Ollama.

Ollama là một công cụ giúp bạn tải và chạy các LLM (Large Language Model) chỉ với một dòng lệnh, hỗ trợ mượt mà trên MacOS, Linux và Windows.

3. Thực hành: Cài đặt và Chạy Llama 3.2

Lưu ý: Năm 2025, phiên bản Llama 3.2 (của Meta) đang là "ông vua" của các model hạng nhẹ, tối ưu cực tốt cho Laptop.

Bước 1: Tải Ollama

Anh em truy cập ollama.com và tải bản cài đặt về máy. Cài như phần mềm bình thường.

Bước 2: Kéo Model về máy

Mở Terminal (hoặc CMD/PowerShell) và gõ lệnh:

ollama run llama3.2

Ollama sẽ tự động tải model (khoảng vài GB) về máy. Anh em pha cốc cafe ngồi đợi chút nhé.

Bước 3: Chat test thử

Sau khi tải xong, bạn có thể chat ngay trên terminal:

>>> Hello, who are you?
I am Llama 3.2, an AI assistant built by Meta...

>>> Viết cho tôi hàm Python tính số nguyên tố?
Here is a Python function to check for prime numbers...

Vậy là xong! Bạn đã sở hữu một con AI riêng.

4. Code Python gọi Local AI

Bây giờ hãy biến nó thành code. Đầu tiên cài thư viện:

pip install ollama

Code mẫu local_ai.py:

import ollama

print("🤖 AI Local đang suy nghĩ...")

response = ollama.chat(model='llama3.2', messages=[
  {
    'role': 'user',
    'content': 'Giải thích khái niệm Microservices trong 1 câu ngắn gọn.',
  },
])

print("\nTrả lời:")
print(response['message']['content'])

Chạy thử và tận hưởng tốc độ phản hồi cực nhanh (phụ thuộc vào GPU máy bạn).

5. Bonus: Kết hợp Local AI vào CrewAI (Bài 1)

Đây là phần hay nhất. Làm sao để dùng con Llama 3.2 này cho "Tòa soạn báo AI" mà chúng ta đã build ở Bài 1?

Rất đơn giản, bạn chỉ cần cấu hình lại phần LLM trong CrewAI để trỏ về Ollama thay vì OpenAI.

Cập nhật code main.py của bài trước:

from crewai import Agent, Task, Crew
from langchain_community.llms import Ollama # Import thêm cái này

# 1. Khởi tạo LLM Local
# Thay vì dùng GPT-4, ta dùng Llama 3.2 chạy trên máy
local_llm = Ollama(model="llama3.2")

# 2. Cập nhật Agent
researcher = Agent(
    role='Chuyên gia nghiên cứu',
    goal='Tìm kiếm xu hướng...',
    backstory='...',
    llm=local_llm, # <--- Gán bộ não Local vào đây
    # ... (giữ nguyên các phần khác)
)

writer = Agent(
    role='Blogger',
    goal='Viết bài...',
    backstory='...',
    llm=local_llm, # <--- Gán bộ não Local vào đây
    # ...
)

# ... Các phần Task và Crew giữ nguyên

Bùm! Giờ đây đội ngũ nhân viên ảo của bạn sẽ hoạt động hoàn toàn miễn phí. Bạn có thể treo máy cho nó chạy cả ngàn task mỗi ngày cũng không mất một xu.

6. Kết luận

Chạy AI Local không chỉ là vấn đề tiết kiệm tiền, mà nó còn trao cho Developer quyền kiểm soát hoàn toàn hệ thống của mình (Sovereignty).

Tuy nhiên, Local LLM có một nhược điểm: Nó không biết gì về dữ liệu riêng tư của bạn (file PDF hợp đồng, database khách hàng...). Nó chỉ có kiến thức chung chung.

Vậy làm sao để "dạy" cho AI Local hiểu được tài liệu nội bộ của công ty? Hẹn gặp lại anh em ở [Agentic AI #3], chúng ta sẽ khám phá kỹ thuật RAG (Retrieval-Augmented Generation) để giải quyết vấn đề này!

Anh em cài đặt có gặp lỗi gì không? Comment cấu hình máy của anh em xuống dưới để cùng thảo luận nhé! 👇

ollama Python