0

Jetson Orin NX: Nền tảng Máy tính Nhúng AI Dựa trên Kiến trúc NVIDIA Ampere

Jetson Orin NX: Nghiên cứu Nền tảng Máy tính Nhúng AI Dựa trên Kiến trúc NVIDIA Ampere

Tác giả:
Mai Xuân Ngọc, Vũ Hoàng Dũng
Hanoi University of Science and Technology
Email: ngoc.mx242087m@sis.hust.edu.vn, dung.vh242221m@sis.hust.edu.vn

Tóm tắt

Nghiên cứu này cung cấp một phân tích chuyên sâu về kiến trúc NVIDIA Ampere, một bước đột phá trong công nghệ GPU dành cho tính toán song song và Trí tuệ Nhân tạo (AI). Các cải tiến kiến trúc cốt lõi, đặc biệt là CUDA CoreTensor Core, được phân tích kỹ lưỡng nhằm làm rõ ảnh hưởng của chúng đến hiệu năng tính toán. Đồng thời, nghiên cứu tập trung vào việc ứng dụng các công nghệ của kiến trúc Ampere trong nền tảng máy tính nhúng NVIDIA Jetson Orin NX, làm rõ vai trò và tác động của CUDA Core cùng Tensor Core trong môi trường nhúng. Ngoài ra, báo cáo cũng đánh giá những tiến bộ quan trọng mà kiến trúc Ampere mang lại cho khả năng xử lý song song và AI. Cuối cùng, hiệu năng thực nghiệm của một ứng dụng AI được triển khai trên Jetson Orin NX được trình bày nhằm minh chứng cho khả năng của nền tảng này.

Từ khóa: NVIDIA Ampere, CUDA Core, Tensor Core, Jetson Orin NX, Tính toán song song, Trí tuệ Nhân tạo, AI biên, Xử lý thị giác máy tính.

1. Giới thiệu

Trong bối cảnh cuộc Cách mạng Công nghiệp 4.0 đang diễn ra mạnh mẽ, các trung tâm dữ liệu hiện đại và hệ thống điện toán phân tán đang đối mặt với những thách thức về khối lượng công việc ngày càng đa dạng và phức tạp. GPU đã vượt khỏi ranh giới xử lý đồ họa truyền thống để trở thành trung tâm của các hệ thống AI và HPC hiện đại.

Kiến trúc NVIDIA Ampere được giới thiệu như một bước đột phá với:

  • Tensor Core thế hệ mới hỗ trợ đa định dạng (TF32, BF16, FP16, INT8)
  • Tính thưa thớt có cấu trúc (sparsity) giúp tăng gấp đôi hiệu suất
  • Kiến trúc SM (Streaming Multiprocessor) cải tiến
  • Cơ chế nén dữ liệu tại bộ nhớ đệm L2

Một minh chứng ứng dụng là nền tảng Jetson Orin NX - máy tính AI nhỏ gọn tích hợp GPU Ampere, phù hợp cho các ứng dụng biên như nhận diện đối tượng, robot thông minh và hệ thống IoT thời gian thực.

2. Kiến trúc NVIDIA Ampere

2.1 Tổng quan kiến trúc

Kiến trúc Ampere mang đến nhiều cải tiến quan trọng:

  • Tensor Core thế hệ thứ ba: Hỗ trợ đa dạng định dạng (TF32, bfloat16, FP64, INT8, INT4)
  • Tính thưa thớt có cấu trúc: Mẫu 2:4 giúp tăng gấp đôi thông lượng phép nhân ma trận
  • Kiến trúc SM mới: Cải thiện băng thông shared memory và giảm độ trễ L1 miss
  • Truyền dữ liệu bất đồng bộ và nén dữ liệu L2: Tăng hiệu quả sử dụng băng thông

Cấu trúc của Streaming Multiprocessor trong Ampere

2.2 NVIDIA Tensor Core thế hệ thứ ba

Tensor Core thế hệ 3 hỗ trợ:

  • Định dạng TF32: Kết hợp ưu điểm FP32 (dải số rộng) và FP16 (tốc độ cao)
  • Tự động ép kiểu giữa các định dạng
  • Hiệu suất vượt trội so với các thế hệ trước

So sánh hiệu năng Tensor Core với các định dạng dữ liệu khác nhau

2.3 Ma trận thưa thớt có cấu trúc

Phương pháp cắt tỉa 2:4:

  1. Huấn luyện mô hình với trọng số đầy đủ
  2. Áp dụng cắt tỉa có cấu trúc
  3. Tinh chỉnh lại trọng số còn lại

Cắt tỉa thưa thớt có cấu trúc trên GPU A100

2.4 Kiến trúc SM mới

Mỗi SM chứa:

  • 4 Tensor Core (256 phép toán FP16 FMA/chu kỳ)
  • Bộ nhớ hợp nhất (L1 cache + shared memory) lên đến 192KB
  • Cơ chế truy cập bộ nhớ tối ưu

Nhân ma trận sử dụng shared memory

2.5 Cải tiến truyền dữ liệu

  • Lệnh truyền dữ liệu bất đồng bộ mới (load-global-store-shared)
  • Quản lý cư trú dữ liệu trong L2 cache
  • Cơ chế nén dữ liệu giúp tăng hiệu quả sử dụng băng thông

Quản lý cư trú dữ liệu trong L2 cache

3. NVIDIA Jetson Orin NX

3.1 Giới thiệu

Jetson Orin NX là module hệ thống nhỏ gọn tích hợp:

  • GPU Ampere với 1024 CUDA Core và 32 Tensor Core
  • Hiệu suất lên đến 100 TOPS (INT8)
  • Hỗ trợ đa dạng giao tiếp ngoại vi

NVIDIA Jetson Orin NX KIT

3.2 Thông số kỹ thuật

Mô-đun CUDA Cores Tensor Cores Xung nhịp
Jetson Orin NX 16GB 1024 32 918 MHz
Jetson Orin NX 8GB 1024 32 765 MHz

3.3 Ngoại vi hỗ trợ

  • Giao tiếp tiêu chuẩn: UART, I2C, SPI, CAN
  • Cổng USB 3.2/2.0, MIPI CSI
  • Ethernet 1Gbps
  • GPIO đa năng

4. Thực nghiệm với Jetson Orin NX

4.1 Thử nghiệm nhân ma trận

So sánh thời gian nhân ma trận 4096×4096:

Kiểu dữ liệu Jetson Orin NX RTX 3060
CPU FP32 801.654 ms 232.971 ms
GPU FP32 (CUDA) 114.244 ms 18.449 ms
GPU FP16 (Tensor Core) 15.836 ms 5.345 ms
GPU TF32 (Tensor Core) 24.164 ms 10.587 ms

4.2 Thử nghiệm YOLOv8n-pose

Kết quả xử lý thị giác máy tính:

Thiết bị Kiểu dữ liệu Thời gian (ms) FPS
Jetson Orin NX FP32 55.9 17.88
Jetson Orin NX TF32 34.3 29.17
Jetson Orin NX FP16 31.9 31.39
RTX 3060 FP32 32.5 30.81
RTX 3060 TF32 15.3 65.51
RTX 3060 FP16 13.4 74.69

Phát hiện đối tượng với YOLO

4.3 Thử nghiệm mô hình ngôn ngữ lớn

Hiệu năng các mô hình LLM trên Jetson:

Mô hình Tốc độ (tokens/s) RAM (GB) Công suất (W)
deepseek-r1:1.5b 3.87 1.6 11.0
llama3 3.22 5.7 12.3
mistral:7b 3.15 5.6 12.0
deepseek-r1:14b 1.70 10.3 13.3

Triển khai LLM bằng Ollama

5. Kết luận

Nghiên cứu đã phân tích toàn diện kiến trúc NVIDIA Ampere và ứng dụng trên Jetson Orin NX. Các kết quả cho thấy:

  • Tensor Core FP16 tăng tốc gấp 7 lần so với CUDA Core
  • YOLOv8n-pose đạt 31 FPS ở chế độ FP16
  • Mô hình LLM nhỏ (1.5B) chạy ổn định với 3.87 tokens/s

Jetson Orin NX chứng tỏ là giải pháp mạnh mẽ cho AI biên, mở ra tiềm năng ứng dụng trong robot, giám sát thông minh và IoT.****


All Rights Reserved

Viblo
Let's register a Viblo Account to get more interesting posts.