Đã đăng vào Feb 11th, 11:08 p.m. 7 phút đọc

186

DeepSeek R1 trên Localhost: Xây dựng trợ lý lập trình riêng tư với giá 0 đồng

Sự ra mắt của DeepSeek R1 đã tạo ra một cơn địa chấn trong cộng đồng AI. Không chỉ vì điểm benchmark của nó cạnh tranh sòng phẳng với o1 của OpenAI, mà quan trọng hơn: nó là open-weights (trọng số mở) và hiệu quả đến kinh ngạc.

Đối với anh em developer, đây là một bước ngoặt. Chúng ta không còn cần phải trả "thuế API" hay lo lắng về việc gửi code độc quyền của công ty lên đám mây để đổi lấy sự hỗ trợ thông minh nữa.

Trong bài viết này, mình sẽ hướng dẫn các bạn cách xây dựng một trợ lý lập trình hoàn toàn riêng tư, chi phí 0 đồng bằng cách sử dụng DeepSeek R1, Ollama và VS Code, chạy hoàn toàn trên máy local của bạn.

Tại sao phải chạy Local? Chiến lược "Riêng tư là trên hết"

Trước khi cài đặt bất cứ thứ gì, hãy giải quyết câu hỏi lớn nhất: Tại sao phải tốn công "đốt" CPU/GPU của chính mình làm gì?

Không rò rỉ dữ liệu (Zero Data Leakage): Code của bạn không bao giờ rời khỏi máy tính. Đây là điều kiện tiên quyết cho các dự án doanh nghiệp hoặc các công việc có NDA nghiêm ngặt.
Độ trễ bằng 0 (Zero Latency): Không cần chờ mạng. Tốc độ suy nghĩ chỉ bị giới hạn bởi phần cứng của bạn, chứ không phải tốc độ WiFi.
Chi phí bằng 0 (Zero Cost): Quên khoản phí 20$/tháng cho ChatGPT Plus hay Copilot đi.
Code offline: Code trên máy bay, tàu hỏa, hay trong rừng sâu núi thẳm đều được.

Tech Stack cần chuẩn bị

Để xây dựng hệ thống này, chúng ta cần 4 thành phần:

Bộ não: DeepSeek R1 (Các phiên bản distilled như 7B, 8B hoặc 32B).
Động cơ: Ollama (để chạy model inference).
Giao diện: Continue.dev (Extension cho VS Code).
Quản lý: ServBay (để cách ly môi trường).

Bước 1: Chuẩn bị hạ tầng

Chạy LLM local thường kéo theo một mớ hỗn độn các dependency của Python, phiên bản CUDA và biến môi trường. Để giữ cho hệ thống sạch sẽ, bạn cần một môi trường phát triển AI cục bộ mạnh mẽ.

Mình sử dụng ServBay cho việc này. Mặc dù nó nổi tiếng với các stack Web Dev, nhưng khả năng quản lý môi trường cách ly của nó cực kỳ hợp cho AI. Nó đảm bảo các phiên bản Python cần cho tool AI không đánh nhau với thư viện mặc định của hệ thống.

Quan trọng hơn, ServBay hiện cho phép bạn Cài đặt Ollama trực tiếp. Tính năng này giúp bỏ qua các vấn đề cài đặt dòng lệnh thường gặp trên macOS và tự động thiết lập service chạy ngầm một cách mượt mà.

Bước 2: Triển khai DeepSeek R1

Sau khi Ollama đã chạy (qua ServBay hoặc cài thủ công), việc kéo model về chỉ tốn một dòng lệnh.

DeepSeek R1 có nhiều kích cỡ. Đối với hầu hết MacBook M1/M2/M3 hoặc GPU phổ thông (RTX 3060/4060), phiên bản 7B hoặc 8B là điểm cân bằng lý tưởng giữa tốc độ và trí thông minh.

Mở terminal và chạy:

# Cho hầu hết laptop (Nhanh nhất)
ollama run deepseek-r1:7b

# Cho máy 16GB+ RAM (Suy luận tốt hơn)
ollama run deepseek-r1:14b

# Cho máy 32GB+ RAM (Gần đạt trình độ GPT-4)
ollama run deepseek-r1:32b

Lưu ý: Lần chạy đầu tiên sẽ tốn thời gian tải trọng số model (khoảng 4GB cho bản 7B).

Khi dấu nhắc >>> xuất hiện, hãy test thử: >>> Viết một hàm Python tính dãy Fibonacci sử dụng quy hoạch động.

Nếu nó nhả ra code, backend của bạn đã sẵn sàng.

Bước 3: Tích hợp vào VS Code

Gõ code trong terminal thì chưa gọi là "Trợ lý lập trình" được. Chúng ta cần nó nằm ngay trong IDE.

Mở VS Code.
Tìm và cài đặt extension Continue (Miễn phí, Mã nguồn mở).
Click vào icon Continue ở thanh bên (sidebar) và mở file config.json.
Thêm DeepSeek R1 vào danh sách model của bạn:

{
  "models": [
    {
      "title": "DeepSeek R1 Local",
      "provider": "ollama",
      "model": "deepseek-r1:7b",
      "apiBase": "http://localhost:11434" 
    }
  ],
  "tabAutocompleteModel": {
    "title": "DeepSeek Coder",
    "provider": "ollama",
    "model": "deepseek-r1:7b"
  }
}

Giờ đây, bạn đã có giao diện Chat ở sidebar (Ctrl/Cmd + L) và tính năng sinh code nội dòng (Ctrl/Cmd + I) được hỗ trợ bởi model DeepSeek chạy ngay trên máy.

Bước 4: Mẹo "RAG" (Làm cho AI thông minh hơn)

Một model chung chung sẽ không biết gì về codebase của bạn. Để biến nó thành "Copilot" thực thụ, nó cần ngữ cảnh.

Continue.dev hỗ trợ tham chiếu @codebase. Nó sử dụng một chỉ mục vector cục bộ để truy xuất các file liên quan. Để việc này hoạt động hiệu quả, bạn thường cần một cơ sở dữ liệu vector nhẹ hoặc model embedding.

Nếu bạn đang xây dựng một agent phức tạp hơn cần lưu trữ bộ nhớ hoặc thực hiện các tác vụ RAG hạng nặng, bạn có thể cần chạy một vector database như Qdrant hoặc PgVector.

ServBay lại tỏa sáng ở đây, cho phép bạn bật một instance PostgreSQL (có hỗ trợ PgVector) hoặc Redis stack song song với LLM mà không cần làm phình hệ thống với Docker.

Hiệu năng vs Chi phí: Có đáng không?

Liệu nó có tốt bằng Claude 3.5 Sonnet hay GPT-4o không? Thành thật mà nói? Không. Các model 700B tham số trên đám mây vẫn thông minh hơn về kiến thức tổng quát.

Tuy nhiên, DeepSeek R1 (đặc biệt là các bản distilled lớn hơn) cực kỳ xuất sắc trong khả năng Suy luận (Reasoning). Nó tạo ra đầu ra dạng "Chuỗi suy nghĩ" (Chain of Thought), nghĩa là nó tự kiểm tra lại bài làm của mình trước khi đưa ra code cho bạn. Đối với các logic chặt chẽ, thuật toán và refactoring, nó thường vượt trội hơn các model đám mây thế hệ cũ.

Bài toán kinh tế:

Cloud API: 20$/tháng + Phí sử dụng (0.5$ - 5$ mỗi ngày nếu code nhiều).
Local Setup: 0 đồng.

Lời kết

Kỷ nguyên "Mặc định lên Mây" (Cloud Default) cho AI đang kết thúc. Với các model như DeepSeek R1, khoảng cách giữa hiệu năng local và cloud đang thu hẹp rất nhanh.

Bằng cách kết hợp hiệu suất của Ollama, khả năng tích hợp IDE của Continue, và sự quản lý môi trường ổn định của ServBay, bạn có thể xây dựng một quy trình code riêng tư, miễn phí và cực kỳ mạnh mẽ.

Đừng đi thuê trí thông minh nữa. Tải trọng số về và làm chủ nó đi.