Đã đăng vào thg 6 13, 2025 3:36 SA 6 phút đọc

335

Jetson Orin NX: Nền tảng Máy tính Nhúng AI Dựa trên Kiến trúc NVIDIA Ampere

Jetson Orin NX: Nghiên cứu Nền tảng Máy tính Nhúng AI Dựa trên Kiến trúc NVIDIA Ampere

Tác giả:
Mai Xuân Ngọc, Vũ Hoàng Dũng
Hanoi University of Science and Technology
Email: ngoc.mx242087m@sis.hust.edu.vn, dung.vh242221m@sis.hust.edu.vn

Tóm tắt

Nghiên cứu này cung cấp một phân tích chuyên sâu về kiến trúc NVIDIA Ampere, một bước đột phá trong công nghệ GPU dành cho tính toán song song và Trí tuệ Nhân tạo (AI). Các cải tiến kiến trúc cốt lõi, đặc biệt là CUDA Core và Tensor Core, được phân tích kỹ lưỡng nhằm làm rõ ảnh hưởng của chúng đến hiệu năng tính toán. Đồng thời, nghiên cứu tập trung vào việc ứng dụng các công nghệ của kiến trúc Ampere trong nền tảng máy tính nhúng NVIDIA Jetson Orin NX, làm rõ vai trò và tác động của CUDA Core cùng Tensor Core trong môi trường nhúng. Ngoài ra, báo cáo cũng đánh giá những tiến bộ quan trọng mà kiến trúc Ampere mang lại cho khả năng xử lý song song và AI. Cuối cùng, hiệu năng thực nghiệm của một ứng dụng AI được triển khai trên Jetson Orin NX được trình bày nhằm minh chứng cho khả năng của nền tảng này.

Từ khóa: NVIDIA Ampere, CUDA Core, Tensor Core, Jetson Orin NX, Tính toán song song, Trí tuệ Nhân tạo, AI biên, Xử lý thị giác máy tính.

1. Giới thiệu

Trong bối cảnh cuộc Cách mạng Công nghiệp 4.0 đang diễn ra mạnh mẽ, các trung tâm dữ liệu hiện đại và hệ thống điện toán phân tán đang đối mặt với những thách thức về khối lượng công việc ngày càng đa dạng và phức tạp. GPU đã vượt khỏi ranh giới xử lý đồ họa truyền thống để trở thành trung tâm của các hệ thống AI và HPC hiện đại.

Kiến trúc NVIDIA Ampere được giới thiệu như một bước đột phá với:

Tensor Core thế hệ mới hỗ trợ đa định dạng (TF32, BF16, FP16, INT8)
Tính thưa thớt có cấu trúc (sparsity) giúp tăng gấp đôi hiệu suất
Kiến trúc SM (Streaming Multiprocessor) cải tiến
Cơ chế nén dữ liệu tại bộ nhớ đệm L2

Một minh chứng ứng dụng là nền tảng Jetson Orin NX - máy tính AI nhỏ gọn tích hợp GPU Ampere, phù hợp cho các ứng dụng biên như nhận diện đối tượng, robot thông minh và hệ thống IoT thời gian thực.

2. Kiến trúc NVIDIA Ampere

2.1 Tổng quan kiến trúc

Kiến trúc Ampere mang đến nhiều cải tiến quan trọng:

Tensor Core thế hệ thứ ba: Hỗ trợ đa dạng định dạng (TF32, bfloat16, FP64, INT8, INT4)
Tính thưa thớt có cấu trúc: Mẫu 2:4 giúp tăng gấp đôi thông lượng phép nhân ma trận
Kiến trúc SM mới: Cải thiện băng thông shared memory và giảm độ trễ L1 miss
Truyền dữ liệu bất đồng bộ và nén dữ liệu L2: Tăng hiệu quả sử dụng băng thông

Cấu trúc của Streaming Multiprocessor trong Ampere

2.2 NVIDIA Tensor Core thế hệ thứ ba

Tensor Core thế hệ 3 hỗ trợ:

Định dạng TF32: Kết hợp ưu điểm FP32 (dải số rộng) và FP16 (tốc độ cao)
Tự động ép kiểu giữa các định dạng
Hiệu suất vượt trội so với các thế hệ trước

So sánh hiệu năng Tensor Core với các định dạng dữ liệu khác nhau

2.3 Ma trận thưa thớt có cấu trúc

Phương pháp cắt tỉa 2:4:

Huấn luyện mô hình với trọng số đầy đủ
Áp dụng cắt tỉa có cấu trúc
Tinh chỉnh lại trọng số còn lại

Cắt tỉa thưa thớt có cấu trúc trên GPU A100

2.4 Kiến trúc SM mới

Mỗi SM chứa:

4 Tensor Core (256 phép toán FP16 FMA/chu kỳ)
Bộ nhớ hợp nhất (L1 cache + shared memory) lên đến 192KB
Cơ chế truy cập bộ nhớ tối ưu

Nhân ma trận sử dụng shared memory

2.5 Cải tiến truyền dữ liệu

Lệnh truyền dữ liệu bất đồng bộ mới (load-global-store-shared)
Quản lý cư trú dữ liệu trong L2 cache
Cơ chế nén dữ liệu giúp tăng hiệu quả sử dụng băng thông

Quản lý cư trú dữ liệu trong L2 cache

3. NVIDIA Jetson Orin NX

3.1 Giới thiệu

Jetson Orin NX là module hệ thống nhỏ gọn tích hợp:

GPU Ampere với 1024 CUDA Core và 32 Tensor Core
Hiệu suất lên đến 100 TOPS (INT8)
Hỗ trợ đa dạng giao tiếp ngoại vi

NVIDIA Jetson Orin NX KIT

3.2 Thông số kỹ thuật

Mô-đun	CUDA Cores	Tensor Cores	Xung nhịp
Jetson Orin NX 16GB	1024	32	918 MHz
Jetson Orin NX 8GB	1024	32	765 MHz

3.3 Ngoại vi hỗ trợ

Giao tiếp tiêu chuẩn: UART, I2C, SPI, CAN
Cổng USB 3.2/2.0, MIPI CSI
Ethernet 1Gbps
GPIO đa năng

4. Thực nghiệm với Jetson Orin NX

4.1 Thử nghiệm nhân ma trận

So sánh thời gian nhân ma trận 4096×4096:

Kiểu dữ liệu	Jetson Orin NX	RTX 3060
CPU FP32	801.654 ms	232.971 ms
GPU FP32 (CUDA)	114.244 ms	18.449 ms
GPU FP16 (Tensor Core)	15.836 ms	5.345 ms
GPU TF32 (Tensor Core)	24.164 ms	10.587 ms

4.2 Thử nghiệm YOLOv8n-pose

Kết quả xử lý thị giác máy tính:

Thiết bị	Kiểu dữ liệu	Thời gian (ms)	FPS
Jetson Orin NX	FP32	55.9	17.88
Jetson Orin NX	TF32	34.3	29.17
Jetson Orin NX	FP16	31.9	31.39
RTX 3060	FP32	32.5	30.81
RTX 3060	TF32	15.3	65.51
RTX 3060	FP16	13.4	74.69

Phát hiện đối tượng với YOLO

4.3 Thử nghiệm mô hình ngôn ngữ lớn

Hiệu năng các mô hình LLM trên Jetson:

Mô hình	Tốc độ (tokens/s)	RAM (GB)	Công suất (W)
deepseek-r1:1.5b	3.87	1.6	11.0
llama3	3.22	5.7	12.3
mistral:7b	3.15	5.6	12.0
deepseek-r1:14b	1.70	10.3	13.3

Triển khai LLM bằng Ollama

5. Kết luận

Nghiên cứu đã phân tích toàn diện kiến trúc NVIDIA Ampere và ứng dụng trên Jetson Orin NX. Các kết quả cho thấy:

Tensor Core FP16 tăng tốc gấp 7 lần so với CUDA Core
YOLOv8n-pose đạt 31 FPS ở chế độ FP16
Mô hình LLM nhỏ (1.5B) chạy ổn định với 3.87 tokens/s

Jetson Orin NX chứng tỏ là giải pháp mạnh mẽ cho AI biên, mở ra tiềm năng ứng dụng trong robot, giám sát thông minh và IoT.****