Phân tích white paper "Open Infrastructure for AI: Building the AI-Ready Cloud"
Vừa qua cộng đồng Open Infra Foundation vừa công bố thành lập AI Working Group và xuất bản white paper đầu tiên: Nhóm Global này được thành lập nhằm tập trung các chuyên gia và tổ chức đầu ngành nghiên cứu về chủ đề hạ tầng mở cho AI, hiện tại đã xuất bản white paper đầu tiên của nhóm tại link https://www.openstack.org/openstack-for-ai/
Trong đó đại diện Việt Nam FPT Smart Cloud là thành viên hoạt động tích cực contribute nội dung cho chủ đề này dựa trên kinh nghiệm thực tế khi triển khai thành công 2 cụm AI Factory tại Việt Nam và Nhật bản lọt vào Top 500 hạ tầng AI tiên tiến nhất thế giới, cũng như việc tôi có vinh dự tham gia trinh bày trong broadcast Show&Tell đầu tiên của nhóm này trước hàng trăm chuyên gia và bạn bè quốc tế đến từ các công ty như Redhat, Rackspace, China Mobile,...

Nhóm này sẽ mở ra nhiều cơ hội cho Việt Nam về việc quản bá hình ảnh sản phẩm AI Infrastructure, AI SaaS "Make in Việt Nam" đến các doanh nghiệp thế giới tạo cơ hội kinh doanh, ngoài ra còn kết nối các chuyên gia quốc tế cho việc quản bá hình ảnh công ty, tuyển dụng chuyển giao công nghệ mới. Thông qua bài viết này tôi sẽ điểm qua những thông tin quan trọng và thú vị đúc kết từ quá trình cộng tác nội dung cũng như từ phiên bản chính thức của white paper nói trên.
OpenStack cho AI: Hạ tầng Mở, linh hoạt, và Sẵn Sàng cao
Các yêu cầu hạ tầng dành cho workload AI đang tăng lên nhanh chóng về cả độ phức tạp lẫn quy mô. Lợi thế của OpenStack trong việc đáp ứng nhu cầu này không chỉ đến từ bộ mã nguồn trưởng thành, mô-đun hóa, mà còn từ mô hình phát triển mở, dựa trên cộng đồng. Khác với các nền tảng độc quyền, OpenStack được xây dựng bởi chính cộng đồng những người triển khai và vận hành nó trong môi trường sản xuất. Điều này cho phép OpenStack cải tiến nhanh chóng và tích hợp các năng lực mới nổi như lập lịch GPU multi-tenant, schedule NUMA-aware - tất cả mà không phải phụ thuộc vào lộ trình bị kiểm soát bởi nhà cung cấp.
Khi các workload AI ngày càng tiêu tốn tài nguyên hơn và nhạy cảm về độ trễ hơn, OpenStack cung cấp lớp ảo hóa và quản trị hạ tầng mạnh mẽ, đủ khả năng hỗ trợ môi trường tính toán hiệu suất cao thông qua các dịch vụ như Nova, Neutron, Cinder và Ironic. Khả năng mở rộng đã được kiểm chứng và mức độ linh hoạt cao khiến OpenStack trở thành lựa chọn phù hợp cho thế hệ tiếp theo của workload AI và HPC.
Cộng đồng OpenStack đã cùng hợp tác để giới thiệu kiến trúc và usecase công nghệ của việc sử dụng OpenStack nhằm hỗ trợ các workload AI trong tài liệu white paper mới: Open Infrastructure for AI: OpenStack’s Role in the Next Generation Cloud.
Nhóm làm việc OpenInfra for AI được thành lập nhằm chia sẻ kiến trúc và các trường hợp sử dụng thực tế về cách OpenStack và các dự án OpenInfra khác (StarlingX, Kata Containers và Zuul) đang được ứng dụng để hỗ trợ workload AI. Các thành viên của nhóm đại diện cho hệ sinh thái toàn cầu gồm các nhà cung cấp, nhà vận hành và nhà phát triển OpenStack đang đồng hành cùng OpenInfra Foundation.
Nhóm cũng tổ chức các buổi Show & Tell định kỳ, nơi giới thiệu những hệ thống cloud thực tế đang phục vụ các bài toán AI. Trong tương lai, nhóm dự định sẽ tiếp tục công bố thêm nhiều tài liệu và nguồn lực về cách các dự án khác trong hệ sinh thái OpenInfra đang hỗ trợ AI.
Kim chỉ nam cho hạ tầng AI
Trong những năm vừa qua việc bùng nổ của Generative AI không chỉ thay đổi rất nhiều về việc tái định hình sản phẩm AI để thích nghi với các mô hình ngôn ngữ lớn (LLM), OpenAI hay việc lựa chọn self-hosting các mô hình LLM mã nguồn mở, mà còn thay đổi cách chúng ta sử dụng hạ tầng AI từ việc training đến inference đòi hỏi những loại GPU chuyên dụng như H100/H200 để tăng tốc với lượng vRAM khủng và lượng dữ liệu LLM lớn, nó thay đổi rất nhiều công nghệ hạ tầng như chúng ta hay nghe một số "keyword" trên các bài diễn thuyết tại NVIDIA GTC như HPC, Infiniband, Super Pod, High Performance Storage,... Nhằm bám sát vào những thay đổi lớn của hạ tầng AI thế hệ mới này White paper mở đầu bằng việc đưa ra 5 bài toán kinh điển và cách thức để hạ tầng mã nguồn mở giải quyết chúng bao gồm:
- Model training & Serving: Bài toán giúp những nhà phát triển ứng dụng AI không cần quan tâm vào hạ tầng, chỉ cần thông qua giao diện code như Jupiter Notebook hoặc code IDE là có thể gọi vào training một model LLM. Sau khi training thì có thể chạy serving model đó thông qua API (e.g. OpenAI Compatible API) chỉ với vài click chuột hoặc vài dòng cli.
- GPU as a service (AI Platform): Những dòng GPU tân tiến như H100/H200 rất mạnh mẽ nhưng giá thành cao, việc sở hữu một thiết bị H100 gần như là chỉ có ở những doanh nghiệp lớn và thường không sử dụng hết năng lực của một thiết bị gây lãng phí, thay vào đó là việc đi thuê tài nguyên mang lại chi phí tối ưu hơn và phù hợp cho mọi doanh nghiệp. Hạ tầng mở có khả năng linh hoạt cao để giải quyết các bài toán phân chia GPU lớn thành nhiều phần nhỏ phù hợp mọi phân khúc khách hàng.
- MLOps Platform: Với sự thay đổi nhanh chóng của các model AI LLM, việc đảm bảo phần mềm không bị outdate, việc quản trị các chu trình thay đổi, giám sát, scale trong các hệ thống ngôn ngữ lớn là rất quan trọng để đảm bảo uptime, hiệu năng của ứng dụng.
- High Performance Computing cluster: Khi đạt một mức độ scale lớn như OpenAI, Deepseek, Perplexcity, việc sử dụng một vài node GPU không còn đủ, ví dụ làm sao kết nối một cụm 32 node GPU H100 chạy với hiệu suất cao, thông lượng cực lớn và tốc độ đọc ghi dữ liệu hàng Tbps. Những bài toán cần giải quyết như Infiniband, Baremetal, High performance storage.
- AI oT & Edge Computing (điện toán biên): Điện toán biên AI nơi các thiết bị remote deivce như di động, xe hơi tự hành, robotic, drone sẽ kết nối để tiền xử lý hoặc đưa ra quyết định nhanh chóng trước khi xử lý những tác vụ nặng hơn ở trung tâm. Bài toán đòi hỏi việc áp dụng linh hoạt các kiến trúc distributed, edge computing, caching để đảm bảo khả năng real-time cho ứng dụng.
Xuyên suốt whitepaper này sẽ cho chúng ta lời giải những bài toán thực tế trên bằng cách áp dụng cloud mã nguồn mở thuần túy kèm theo những optimization, best pratice tận dụng những công nghệ tối tân của hạ tầng một cách linh hoạt để giải quyết từng bài toán.
Tiêu chuẩn kiến trúc
Cách GPU hoạt động
Với công nghệ tiên tiến nhất của NVIDIA, có 3 phương pháp tích hợp GPU cho máy ảo:
- PCI-Passthrough: Gắn trực tiếp GPU vào máy ảo với hiệu năng tốt nhất.
- Virtual GPU (vGPU): Tận dụng tính năng NVIDIA GRID, chia nhỏ 1 thiết bị thành nhiều phần nhỏ share resource.
- Multi-Instance GPU (MIG): Vẫn là công nghệ chia nhỏ GPU thành nhiều phần nhỏ nhưng dedicated tài nguyên cho ứng dụng.
Từ 3 công nghệ trên, tài liệu làm rõ về cách tích hợp với mã nguồn mở OpenStack để khởi tạo tài nguyên GPU một cách tự động hướng cung cấp dịch vụ GPUaaS. Đây là nền tảng quan trọng cho các đơn vị đang muốn cung cấp dịch vụ GPU đặc biệt là AI Factory trên nền tảng mã nguồn mở có thể tham khảo áp dụng.
Lưu trữ
Cung cấp khả năng lưu trự hiệu năng lớn cho các ứng dụng LLM, với những model lên hàng TB vài tỉ tham số, làm sao có thể load nhanh model vào GPU để nhanh chóng cung tấp dịch vụ. Bài toán High Performance Storage với giao thức Parallel File system được chia sẻ trong whitepaper này thông qua cách áp dụng mã nguồn mở hoặc các sản phẩm trong phân khúc HPS như Vast, DDN.
Network
Mô tả các phương án đáp ứng hạ tầng AI vốn đòi hỏi băng thông rộng lên đến 100-200Gb/s với các công nghệ Inifiniband, NVLink, SROIV tích hợp sâu vào hạ tầng tăng tốc độ truyền tải dữ liệu lớn đảm bảo hiệu suất cho các bài toán model training, model serving.
Tối ưu optimization
Bên cạnh cung cấp các kiến trúc hạ tầng AI, tài liệu còn mô tả một số tip để tối ưu hiệu năng cho AI Infrastructure dựa trên mã nguồn mở Openstack như:
- Áp dụng các công nghệ tăng tốc GPU VM: NUMA affinity, CPU Pining
- Tăng tốc mạng: SR-IOV, DPDK, Multi-Queue, MTU, Hardware offload, RoCE.
- Tích hợp Infiniband
- High Performance Storage
Đây là những công nghệ "bí mật" giúp hạ tầng AI của doanh nghiệp có hiệu suất tốt hơn với cùng một phần cứng so với nhà cung cấp khác.
Tính năng vượt trội
Với khả năng tùy chỉnh linh hoạt và cộng đồng lớn, mã nguồn mở Openstack có thể cung cấp hầu hết các dịch vụ, hệ sinh thái phục vụ cho việc phát triển AI:
- GPU H100/H200 Bare metal as-a-service sử dụng OpenStack Ironic
- Máy ảo cung cấp GPU/vGPU thông qua PCI-Passthrough & SRIOV NVidia GRID.
- Cloud workstation/desktop sử dụng OpenStack Nova
- Nền tảng GPU Kubernetes engine dựa trên OpenStack Magnum
- Dịch vụ quản trị database sử dụng Openstack trove
- GPU container as-a-service on top of GPU K8S Engine with NVIDIA MIG technology
- Dễ dàng khởi tạo và quản trị cấp phát VM với nhiều dòng GPU trong cùng một cụm.
- Tận dụng những dự án khác như tính năng cân bằng tải (Octavia), GPU VM Auto-scaling (Senlin), and storage backup (Cinder)
- File system với Manila
Tính tùy biến cũng tạo nên lợi thế mạnh mẽ của mã nguồn mở Openstack so với các giải pháp mã nguồn đóng trong cùng phân khúc. Trong thời đại AI phát triển và nhiều công nghệ mới liên tục xuất hiện, việc các mã nguồn đóng có thể bắt kịp là một bài toán phức tạp, thay vào đó Openstack có thể dễ dàng tùy chỉnh thêm vào các module theo api, driver đã có sẵn.

Ví dụ điển hình
Kết thúc whitepaper là một loạt các ví dụ thành công về việc áp dụng mã nguồn mở Openstack vào hạ tầng AI như:
- China Mobile: Phát triển ECloud, giải quyết các bài toán lớn về AI.
- FPT SmartCloud: Gồm FPT Cloud và FPT AI Factory
- Rackspace: Sử dụng trong sản phẩm Private Cloud AI (Rackspace Flex) cung cấp nhiều tính năng cho GPU/AI Workload.
- StackHPC: Hệ thống 6G sử dụng Openstack cùng với các GPU HGX H200, phát triển AI Platform Azimuth.
- ZTE: AI Infratructure, dựa trên Openstack, RDMA Switch, High Performance Storage.

All rights reserved