Trí tuệ nhân tạo : Từ dự án PoC đến giai đoạn Production
Bài đăng này đã không được cập nhật trong 5 năm
( Đây là bài mình dịch lại từ bài viết Moving AI from PoC Stage to Production của tác giả Alexandre Gonfalonieri. Trong bài viết dưới mình sẽ dịch phần đầu tiên: Thực tế triển khai dự án PoC và lý do dự án PoC thất bại. Pilot phase và chuyển đổi PoC thành sản phẩm sẽ được dịch tiếp trong bài viết sau.)
Sau khi thực hiện rất nhiều dự án Trí tuệ Nhân tạo (AI) khác nhau, tôi nhận ra rằng hầu hết các PoC (Proof of Concept) đều chưa đi đến giai đoạn thành phẩm (production) và chỉ có 1 số ít đến được giai đoạn phát hành. Trong năm 2019, rất nhiều công ty đã bắt đầu ứng dụng các giải pháp AI với kết quả ấn tượng nhưng tương tự, chỉ một số doanh nghiệp có khả năng phát triển toàn diện năng lực Trí tuệ Nhân tạo và mang lại giá trị gia tăng cho tổ chức của mình. Dựa trên kinh nghiệm của bản thân, tôi thấy rằng chưa đến 20% các dự án PoC ứng dụng học máy đến được giai đoạn sản xuất. Và kể cả đến được giai đoạn này thì hầu hết các dự án đều sẽ thất bại trong quá trình “công nghiệp hoá" giải pháp AI.
1. Tình hình thực tế:
Phần lớn các công ty đều bắt đầu bằng việc chứng minh rằng một giải pháp AI, trên thực tế sẽ giúp cắt giảm chi phí, nâng cao trải nghiệm khách hàng và tạo ra điểm khác biệt cho doanh nghiệp, thông qua một Proof of Concept (PoC). PoC thường được thực hiện trên các thuật toán khá đơn giản sử dụng dữ liệu đào tạo có sẵn hay dữ liệu nội bộ. Mục đích chính là để cho thấy một thuật toán có thể được huấn luyện để giải quyết một trường hợp cụ thể chỉ với một lượng nhỏ dữ liệu đào tạo. Và nếu họ thành công, dự án PoC sẽ tiếp tục bước sang giai đoạn sản xuất (production stage). Trên thực tế, giai đoạn sản xuất thể hiện mức độ phức tạp cao hơn của dự án AI. Đến được giai đoạn này, bạn không cần phải chứng minh giải pháp có hiệu quả hay không mà phải cho thấy rằng nó có thể tích hợp được với cơ sở hạ tầng của công ty và hoạt động tốt trong các điều kiện thực tế.
"Để đạt được thành công, các dự án Học máy cần phải xem xét kỹ càng cấu trúc và quy mô công ty, khách hàng và quy trình làm việc nội bộ."
Chính điều kiện cơ sở hạ tầng, kiến thức và cách quản lý dữ liệu lại là những rào cản khiến dự án PoC không thể đến được giai đoạn sản xuất tiếp theo, và hầu hết các doanh nghiệp vẫn chưa ý thức được tầm quan trọng của quá trình đưa PoC thành sản phẩm thực tế. Trong giai đoạn này, rất có thể doanh nghiệp sẽ phải phải thay đổi toàn bộ hệ thống làm việc đã có. Bên cạnh đó, càng đi gần đến giai đoạn phát hành cuối cùng thì sẽ càng có nhiều vấn đề mới phát sinh.
Giai đoạn sản xuất là gì? Một hệ thống hay giải pháp được đưa vào sử dụng trong thực tế cuộc sống. Đó không còn là dự án PoC để kiểm tra xem giải pháp có hoạt động hay không, hay thử nghiệm trên dữ liệu mẫu, đó là dữ liệu thực được sử dụng để giải quyết các vấn đề có thật.
Sau nhiều dự án, tôi nhận thấy rằng hầu hết các nhà cung cấp giải pháp AI không chứng minh được ý tưởng họ đưa ra ban đầu. Nhưng tại sao quá trình chuyển đổi từ PoC sang Production lại bị coi là cơn ác mộng đối với các dự án AI? Trên thực tế, những dự án này không đến được giai đoạn sản xuất vì những yếu tố sau:
- PoC không cho ra kết quả như mong đợi
- Chi phí vận hành quá lớn
- Quá phức tạp so với khả năng của công ty
- Thiếu dữ liệu
- Không thoả mãn được các bên liên quan
Một công ty có thể sẵn sàng từ bỏ một dự án AI nếu phải đối mặt với vấn đề dữ liệu hoặc phát sinh quy trình làm việc mới, mặc dù họ nhận thấy rằng giải pháp AI này là hoàn hảo cho vấn đề kinh doanh mà công ty đang gặp phải. Thực tế, các tổ chức sẽ phải xử lý một loạt các vấn đề liên quan đến phần mềm, bảo mật dữ liệu và số lượng dữ liệu cần cho đào tạo trước khi bước vào giai đoạn sản xuất. Một khía cạnh khác là các công ty thường đánh giá thấp chi phí cần thiết để xây dựng một mô hình AI hoạt động ở quy mô thực. Để đưa một nguyên mẫu vào sản xuất cần nhiều đầu tư hơn những gì doanh nghiệp nghĩ, và các nhà quản lý cần đảm bảo rằng họ có đủ khả năng chi trả khi dự án đi vào giai đoạn sản xuất.
"Dự án PoC ứng dụng học máy của bạn chỉ là bước đầu tiên của hành trình dài. Bạn cần phải nhìn xa hơn về những vấn đề có thể sẽ phát sinh khi quyết định mở rộng dự án thành hệ thống sản xuất ở quy mô thực."
2. Tại sao dự án AI PoC của bạn thất bại
Lộ trình PoC cho một dự án trí tuệ nhân tạo đặt ra vô vàn thách thức cho doanh nghiệp. Từ việc thiếu dữ liệu, các vấn đề pháp lý đến lo sợ về các ứng dụng hỗ trợ AI hoặc khả năng tích hợp, doanh nghiệp cần phải phân tích kỹ các yếu tố khác nhau trước khi đưa mô hình vào sản xuất. Các công ty nên đầu tư vào các dự án PoC để học hỏi về tiềm năng của chính mình, cải thiện văn hoá dữ liệu; đồng thời nhanh chóng kết thúc các dự án không có tương lai và tìm ra những hướng tiếp cận tiềm năng nhất để tiếp tục đầu tư nguồn lực. Rất nhiều công ty đã cố gắng kiếm tiền với PoC đầu tiên và chọn một vấn đề phức tạp để giải quyết thông qua Học Máy. Và đó là vé một chiều đi thẳng đến thất bại!
Doanh nghiệp cũng nên hiểu rằng những kỹ năng cần thiết để xây dựng một PoC là hoàn toàn khác với kỹ năng để mở rộng ý tưởng cho sản xuất. Nghe có vẻ hiển nhiên nhưng nếu không có cấu trúc để hỗ trợ tích hợp Trí tuệ Nhân tạo thì dự án dù hoàn hảo đến đâu cũng sẽ thất bại. Một dự án AI cần phải được hỗ trợ bởi cấp quản lý, và nếu thiếu đi sự hứng thú đầu tư dài hạn thì ứng dụng AI sẽ không bao giờ đạt đến bất kỳ mức độ có ý nghĩa nào về quy mô hay tính hữu dụng. Để phát triển thành công những dự án công nghệ đặc biệt là trí tuệ nhân tạo luôn đòi hỏi thời gian và cả sự kiên nhẫn.
Để dự án PoC cho ra kết quả tốt, doanh nghiệp bắt buộc phải tiến hành nghiên cứu sâu rộng, xây dựng một nhóm đa chức năng thực hiện được nhiều công việc và bắt đầu tìm kiếm, kiểm tra hàng loạt thông số kỹ thuật phần cứng. Các công ty cũng có thể tham khảo ý kiến của các chuyên gia bên ngoài để tinh chỉnh mô hình. Mặc dù nhóm có thể đưa ra nguyên mẫu trong vòng chỉ 2 đến 3 tuần, các bước tiến hành tiếp theo sẽ diễn ra lâu hơn và cần sự đầu tư nhất định về cả tiền bạc và thời gian. Dựa trên kinh nghiệm cá nhân, triển khai một PoC tốt thường mất từ 1 đến 2 tháng. Trong đó, quy trình thu thập dữ liệu thực sự tiêu tốn thời gian. Rất nhiều công ty có được ý tưởng tuyệt vời về cách tận dụng AI nhưng lại chưa có dữ liệu đúng để thực hiện. Ví dụ, ta có một dự án PoC có thuật toán thể hiện khả năng nhận diện gương mặt được chụp trong một điều kiện ánh sáng, khoảng cách và góc. Như vậy trong quá trình thử nghiệm, thuật toán này cần phải được đào tạo về sự thay đổi của ánh sáng, khoảng cách và góc chụp khác nhau, thậm chí là màu da, giới tính và nhiều biến thể hơn nữa. Hay nói cách khác, các thuật toán cần phải được cung cấp nhiều dữ liệu hơn nữa để cho ra kết quả tốt hơn.
Hiểu về sự khác biệt giữa việc đơn thuần thêm dữ liệu vào PoC bằng mô hình Học Máy và tiếp tục duy trì với quy mô rộng là điều rất quan trọng. Tuy nhiên, khía cạnh này lại thường bị đánh giá thấp. Sau khi thực hiện rất nhiều dự án với các bộ dữ liệu khác nhau và hầu hết là dữ liệu không hoàn hảo, có thể kết luận rằng: những người cố gắng chuyển thuật toán chỉ có quy mô desktop sang quy mô sản xuất thường có xu hướng hạ thấp tầm quan trọng của thời gian và năng lượng cần thiết để chuyển đổi thuật toán của mô hình học máy sang định dạng có thể sử dụng được. Điều quan trọng là phải biết giảm thiểu tối đa khoảng cách giữa những yêu cầu của thực tế và bộ dữ liệu PoC. Trong trường hợp này, cách tốt nhất là sử dụng chính dữ liệu thực tế.
Doanh nghiệp phải xác định rằng sẽ tốn rất nhiều thời gian để có thể xây dựng được một bộ dữ liệu phù hợp và chắc chắn. Có những quy trình cụ thể buộc các doanh nghiệp phải tuân theo để sản sinh ra những dữ liệu đáp ứng các tiêu chuẩn cần thiết để đào tạo một mô hình dự đoán. Khi dự án PoC thành công, nhiều nhóm nghiên cứu AI cho rằng có thể tự chuẩn bị dữ liệu đào tạo cho toàn bộ dự án. Tuy nhiên, thực tế không đơn giản như vậy. Họ không hiểu được rằng phải khó khăn thế nào để công ty có thể đưa ra ra được những dữ liệu cần thiết (work silos, tổ chức chậm...). Tại giai đoạn này, chúng ta bắt đầu hiểu được công ty làm việc như thế nào.
Trên thực tế, việc đào tạo thuật toán cho các trường hợp thực tế bổ sung là một phần không thể thiếu của quá trình sản xuất và công việc đào tạo này sẽ tạo ra nhu cầu về bộ dữ liệu lớn hơn.
Trong ngày 07/12/2019 tới, dự án rubikAI cùng Up Co-working Space sẽ tổ chức hoạt động thảo luận chuyên sâu AI Series Talks #2 với chủ đề :"Từ AI PoC tới thực tế: Làm sao để thành công?" Hoạt động sẽ diễn ra từ 14:45 - 17:00 tại BK HUP, 17A Tạ Quang Bửu, Bách Khoa, Hai Bà Trưng, Hà Nội. Tham gia sự kiện tại http://bit.ly/AI-Series-Talks-2 để không bỏ lỡ cơ tìm hiểu về hành trình xây dựng PoC và rút ra bài học cho chính doanh nghiệp của mình!
All rights reserved