+3

[GPU in AI] Bài 2: RAPIDS và những điều cần biết

Ngày nay data ngày một nhiều dẫn đến việc ETL (Extract, Transform, Load) hay còn gọi là phân tích và xử lí data ( data analyis) ngày một phức tạp và tốn nhiều thời gian nên NVIDIA đã tạo nên RAPIDS giúp giải quyết vấn đề này

RAPIDS trong GPU

Khi nhắc đến phân tích và xử lí data chúng ta không thể không nhắc tới: Python, Pandas, SQL, Spark, ... nhưng tất cả các ngôn ngữ trên đều có 1 khuyết điểm lớn là đều chạy trên CPU dẫn đến việc xử lí data rất tốn thời gian và không sử dụng hiệu quả tài nguyên của máy tính nên RAPIDS đã ra đời

RAPIDS là gì

image.png

  • Là các thư viện open-source được viết bởi NVIDIA
  • Dùng Cuda cho backends để tối ưu hóa tốc độ tính toán trên GPU
  • Dùng cho mục đích data science và analytics trên GPU
  • Cung cấp giao diện Python thân thiện với người dùng

Có thể nói ngắn gọn là RAPIDS giúp chúng ta xử lí data và thực hiện các bài toán về Machine Learning trên GPU và 1 điều tuyệt vời là syntax hoàn toàn giống với pandas, Numpy, scikit-learn, ...

Trong RAPIDS sẽ có các thư viện chính là

  • cuDF: giống pandas nhưng chạy trên GPU
  • cuML: giống Sklearn nhưng chạy trên GPU
  • cuGraph: giống NetworkX nhưng chạy trên GPU
  • cuSpatial: giống GIS nhưng chạy trên GPU

image.png

image.png

image.png

Qua các bức ảnh trên ta có thể thấy RAPIDS thể hiện 1 tốc độ vượt trội so với các thư viện khác và điều tuyệt vời là độ chính xác vẫn không thay đổi

1 lưu ý là trong series GPU in AI mình chỉ hướng dẫn 2 thư viện chính là cuDF ( pandas in GPU ) và cuML ( Sklearn in GPU )

Hướng dẫn cài đặt

Trên local

Đây là link để cài RAPIDS

image.png

Các bạn hãy chọn giống như trên TUY NHIÊN nhớ kiểm tra lại để xem Cuda toolkit phiên bản nào bằng lệnh:

$ nvcc -V

image.png

Nếu các bạn chưa cài đặt Cuda toolkit thì hãy tham khảo ở đây

1 lưu ý quan trọng là RAPIDS chỉ hỗ trợ trên python phiên bản 3.9 - 3.10 - 3.11

Và sau khi xong có thể kiểm tra bằng các lệnh:

import cudf

cudf._ _version _ _

import cuml

cuml._ _ version_ _

import cugraph

cugraph._ _ version _ _

import cuspatial

cuspatial._ _ version _ _

import cuxfilter

cuxfilter._ _ version _ _

image.png

Trên Google Colab

Hãy đổi từ CPU sang GPU

image.png

Hãy chạy 2 lệnh này:

!git clone https://github.com/rapidsai/rapidsai-csp-utils.git

!python rapidsai-csp-utils/colab/pip-install.py

Và sau khi xong có thể kiểm tra bằng các lệnh:

import cudf

cudf._ _version _ _

import cuml

cuml._ _ version_ _

import cugraph

cugraph._ _ version _ _

import cuspatial

cuspatial._ _ version _ _

import cuxfilter

cuxfilter._ _ version _ _

image.png


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí