Biến đổi số hóa - Digital transformation: Học máy (Machine Learning) có thể giúp ta thay đổi công việc kinh doanh như thế nào?

Bài đăng này đã không được cập nhật trong 4 năm

#### Trước khi có thể mang tới một bộ mặt mới cho việc kinh doanh, học máy (Machine Learning/ML) cần phải vượt qua nhiều "[đường cong học tập](http://www.saga.vn/thuat-ngu/learning-curve-duong-cong-hoc-tap~1407)"
![](https://images.viblo.asia/6d204138-c7a5-44d3-b47b-70fc4249ba4f.jpg)
Những phân tích dữ liệu căn bản của ML có được là nhờ viết lại những nguyên tắc, mà các doanh nghiệp sử dụng để xử lí dữ liệu. Nhưng nghiên cứu về học và phân tích máy đã và đang gặt hái thành công trong việc biến một lượng dữ liệu khổng lồ- được định hình với sự hỗ trợ từ các nhà khoa học dữ liệu (data scientists)- thành những quy tắc phân tích. Những quy tắc này khi được đưa vào sẽ có khả năng xác định được những chi tiết mà trước đây, trong khi phân tích con người sẽ bỏ qua. Đó có thể là nghiên cứu về bộ gen hay cũng có thể là tiên đoán về những vấn đề có thể sẽ xảy ra bằng máy móc phức tạp.

Giờ đây, ML đang bắt đầu "đặt chân vào thương trường". Thế nhưng hầu hết các doanh nghiệp vẫn chưa thực sự nắm bắt được, bằng cách nào, ML sẽ thay đổi cách làm kinh doanh của họ hoặc nó sẽ tái định hình tổ chức của họ như thế nào trong quá trình đó. Các công ty đềy đang trông chờ ML tự động hóa các quy trình hoặc thúc đẩy con người bằng cách hỗ trợ con người ta trong những công việc định hướng về dữ liệu (data-driven). Và có khả năng là ML sẽ biến các doanh nghiệp thành nhà cung cấp, biến những bài học rút ra được từ kho dữ liệu khổng lồ thành các thuật toán và từ đó có thể rao bán quyền sử dụng cho nhà cung cấp phần mềm và dịch vụ.

Nhưng để đến được giai đoạn đó, nó còn phụ thuộc vào nhiều yếu tố: khả năng học máy sẽ tiến triển ra sao trong vòng 5 năm tới và ý nghĩa của sự phát triển đó đối với những sách lược tuyển dụng, chiêu mộ dài hạn tại thời điểm này. Và không ở nơi nào điều này có thể mang tính quyết định hơn trong học máy tự do không có sự giám sát, nơi mà hệ thống nhận hàng loạt các tập dữ liệu (datasets) và được chỉ định phải tìm ra những kiểu mẫu/mô hình và không hề có sự tham gia bước đầu của con người để chỉ ra chính xác đâu là thứ mà các phầm mềm này cần phải tìm ra. Đòi hỏi sức người cho những công việc chuẩn bị ở mức tối thiểu, khả năng mở rộng của học máy không giám sát (unsupervised ML-unsupML) là vô cùng lớn.

David Dittman, giám đốc kinh doanh thông minh (business intelligence) và dịch vụ phân tích tại Procter & Gamble, đưa ra lí giải rằng vấn đề lớn nhất khi phân tích mà ông nhận thấy ở các công ty lớn tại Mỹ đó là:

"Họ đang say mê công nghệ học máy và phân tích dữ liệu trong khi họ lại không hiểu rằng họ phải xây dựng cơ sở nền tảng cho nó, bởi vì ML là một lĩnh vực khó, đắt đỏ và đòi hỏi tầm nhìn."

Tuy nhiên, Dittman cho hay, các doanh nghiệp đang mắc sai lầm khi tin rằng ML sẽ giúp họ tìm ra tầm nhìn này.

"Liệu rằng tôi có thể phó mặc cho trí thông minh nhân tạo chỉ cho tôi câu trả lời không?"

Vấn đề ở đây chính là "trí thông minh nhân tạo" không thực sự vận hành như vậy. ML hiện nay được chia ra làm hai hạng mục lớn: có giám sát và không giám sát. Và dù là hạng mục nào đi chăng nữa thì cũng không thể vận hành được mà thiếu đi một nền tảng dữ liệu vững vàng.

Phân loại các phương thức đào tạo (training)

Học máy có giám sát (supervised ML-supML) đòi hỏi con người tạo ta những tập hợp dữ liệu đào tạo (training data) và xác nhận kết quả training. Yisong Yue, giáo sư trợ lý môn máy tính và toán học tại Caltech cho biết, một ví dụ điển hình của loại học máy này là nhận diện giọng nói (speech recognition). ![](https://images.viblo.asia/750353c9-f3fd-4c59-8b28-05bbd6375255.jpg)*Yisong Yue - giáo sư trợ lí môn máy tính và toán học tại Viện công nghệ California, nhìn thấy tiềm năng của học máy không giám sát đối với những ứng dụng như chẩn đoán ung thư từ các hình ảnh chụp X-quang.*
> "Nhận diện giọng nói được dạy bằng phương pháp học có giám sát cao độ. Bạn phải bắt đầu bằng việc xử lí một khối lượng dữ liệu khổng lồ, yêu cầu nhiều người nói những câu chữ nhất định để ghi lại."

Tuy nhiên việc thu thập và phân loại dữ liệu đủ cho supML có thể sẽ là một thách thức.

"Hãy thử tưởng tượng chi phí cho việc này, nói tất cả các câu nói đó theo nhiều cách khác nhau. Những nhà khoa học dữ liệu đang nghiên cứu mọi mặt đề tài này. Công việc này thật sự là không thể áp dụng rộng rãi cho mọi task mà bạn muốn giải quyết. Rõ ràng là về căn bản có một giới hạn đối với supML"

Học máy không giám sát giảm thiểu những tương tác đó. Nhà khoa học dữ liệu sẽ chọn một tập hợp dữ liệu khổng lồ và ra lệnh cho phần mềm tìm ra những quy luật trong đó và quan trọng là, con người sẽ không cần phải, trước tiên, chỉ ra phần mềm cần tìm những gì.

Chính vì chỉ tốn 1 phần rất nhỏ chi phí con người như vậy, nên khả năng mở rộng của unsupML (cụ thể ở đây là trên phương diện khối lượng công việc cần con người tham gia vào) là lớn hơn. Thế nhưng bản thân từ "không giám sát" lại có khả năng gây hiểu nhầm vì thực chất nhà khoa học dữ liệu vẫn cần phải lựa chọn dữ liệu để đưa vào nghiên cứu.

Mike Gualtieri, Phó chủ tịch Forrester Research và là nhà phân tích chính về phân tích tiên tiến (advanced analytics) và học máy cho biết: Phần mềm học máy không giám sát được yêu cầu "tìm những tập hợp dữ liệu có thể sẽ gây hứng thứ và sau đó con người sẽ thực hiện phân tích những tập hợp đó rồi quyết định xem sẽ làm gì tiếp theo". Hoạt động phân tích của con người vẫn là cần thiết để việc tìm ra những tập hợp, sự phân nhóm các dữ liệu thực hiện bởi các phần mềm có ý nghĩa.

Nhưng đổi lại cái giá của học không giám sát đôi khi có thể lại lớn hơn nhiều. Ví dụ, học không giám sát có thể có các ứng dụng vào những tác vụ trong ngành y ví dụ như chẩn đoán ung thư. Ông cũng giải thích rằng ngày nay trong những nỗ lực chẩn đoán tiêu chuẩn, có sự đòi hỏi về việc lấy mẫu sinh thiết (biopsy) và gửi nó tới phòng thí nghiệm.

Vấn đề ở đây đó là những mẫu sinh thiết, bản thân chúng là những nghiên cứu đòi hỏi nhiều công sức con người, đều gây tốn thời gian và hết sức đắt đỏ. Và khi mà một bác sĩ và bệnh nhân muốn biết ngay lập tức nếu đó có phải là ung thư hay không thì việc chờ đợi kết quả sinh thiết có thể sẽ rất nguy hiểm. Hiện nay, bác sĩ chuyên khoa X quang sẽ nhìn vào mẫu mô tế bào và bác sĩ sẽ chẩn đoán khả năng tồn tại tế bào ung thư trong mẫu tế bào đó. Với một tập hợp dữ liệu đủ lớn, nó có thể trở thành một ứng dụng cho học máy có giám sát. Ông Yue cũng chia sẻ: “ Giả sử chúng ta lấy mẫu dữ liệu gồm những hình ảnh của tế bào và những kết quả sinh thiết đó đưa vào chạy phân tích học máy có giám sát. Công việc này đòi hỏi nhiều sức lao động nhưng nó có thể xác định được những điểm tương đồng trong những bức ảnh chụp các sinh thiết cho kết quả dương tính với ung thư. Nhưng ông cũng đặt ra câu hỏi, nếu như thay vì sử dụng kĩ thuật học máy có giám sát thì quá trình đó sẽ ra sao nếu đươc thực hiện theo hướng không giám sát.

“Giả sử sẽ ra sao nếu chúng ta có một loạt những hình ảnh nhưng lại không có kết quả xét nghiệm sinh thiết? Khi đó chúng ta có thể sử dụng những kết quả này để tự tìm tòi ra xem liệu chúng ta có thể dự đoán gì dựa vào những tập hợp kết quả đó”.

Tạm cho số lượng mẫu phẩm là 1000. Phần mềm sẽ chia nhóm những hình ảnh và tìm ra những điểm tương đồng cũng như khác biệt.

“Ví dụ nó tìm ra được 10 nhóm và giả sử ta chỉ có thể làm được 10 mẫu sinh thiết. Ta có thể chọn chỉ kiểm tra 1 nhóm. Tất nhiên, đây mới chỉ là bước đầu tiên trong cả một chuỗi các bước vì trong thực tế có vô vàn loài ung thư khác nhau.”

Chỉ dẫn vs. Đưa ra quyết định

Cho dù là học không giám sát thì vai trò của con người vẫn rất quan trọng. Chỉ có con người mới có thể phân chia và gán giá trị cho mỗi nhóm dữ liệu/khuôn mẫu dữ liệu mà nó tìm ra được nên thực tế thì việc rút bỏ hoàn toàn yếu tố con người ra ngoài là chưa thực hiện được. Thay vào đó, cho tới thời điểm này, sẽ tốt hơn nếu có thể cải thiện nâng cao khả năng thể hiện của con người bằng cách nhấn mạnh và lưu ý những dữ liệu nào nên được tập trung. Nhưng có những nơi mà sẽ sớm thay đổi theo hướng tập trung vào số lượng và chất lượng dữ liệu. Ông Dittman cho biết

“Tôi nghĩ rằng bây giờ người ta ồ ạt chuyển sang làm tự động hóa trong khi việc cần làm trước hết phải là cái tiến quy trình đưa ra quyết định hiện đang có. Trong 5 năm tới đây, chúng ta sẽ có những tài sản dữ liệu chuẩn hơn và rồi bạn sẽ có nhu cầu đưa thêm nhiều tự động hóa vào thay vì tiếp tục cải tiến. Nhưng chưa phải bây giờ. Hiện nay, có một sự thiếu hụt dữ liệu có thể sử dụng làm tài nguyên học máy. Những dữ liệu hiện tại chưa đủ rộng và chưa đủ chi tiết.”

Cho dù các phân tích dữ liệu từ ML đang dần trở nên chi tiết nhưng việc nó sẽ thay đổi các tổ chức, doanh nghiệp lĩnh vực IT ra sao vẫn chưa thực sự rõ ràng. Ông Gualtieri tiên đoán một sự suy giảm nhu cầu thông tin dữ liệu ở các nhà khoa học dữ liệu trong 5 năm tới cũng như nhu cầu về dev - những người phát triển web từ “giấy trắng”. So với những năm 1995 thì những năm 2000, rõ ràng là nhu cầu này đang giảm xuống. Hay như việc rất nhiều chức năng của web được tự động hóa và đem trao đổi mua bán dưới dạng module scripts. Sự biến đổi tương tự cũng đang xảy ra trong ML bởi các nhà cung cấp dịch vụ và phần mềm bắt đầu đưa ra những giao diện lập trình ứng dụng (API) cho những nền tảng học máy thương mại. Gualtieri dự đoán rằng một sự thay đổi sẽ diễn ra trong nội tại doanh nghiệp IT: họ sẽ làm theo khuôn mẫu xây-hay-mua (build-or-buy)

“Ngày nay, bạn sẽ lựa chọn xây dựng nó và thuê hàng loạt nhà khoa học dữ liệu nhưng sau này khi những APIs được đưa ra thị trường, xu hướng chọn “mua” chắc chắn sẽ dâng cao.”

Ông cũng nói thêm:

“Chúng ta đang được chứng kiến sự khởi đầu của xu hướng đó.“

Một vài ví dụ ở đây đó là Clarifai. Phần mềm cho phép tìm kiếm một khoảng khắc nào đó trong các video , ví dụ như tìm trong hàng ngàn video đám cưới và học cách nhận diện nghi lễ trao nhẫn hay giây phút “chú rể có thể hôn cô dâu” hay là Affectiva, nhận diện cảm xúc con người qua bức ảnh. Dittman cũng đồng tình với Gualtieri rằng các công ty sẽ tạo ra nhiều đoạn scripts với các chức năng chuyên biệt để tự động hóa nhiều công việc khác nhau. Nhưng ông lại bày tỏ quan điểm khác với Gualtieri ở chỗ việc tự động hóa sẽ khiến cho nhu cầu nhân lực trong lĩnh vực khoa học máy tính sẽ đi xuống trong 5 năm tới.

“Nếu bạn nhìn vào con số những nhà khoa học đang làm việc với dữ liệu, bạn sẽ thấy chắc chắn nó sẽ đi lên chóng mặt, nhưng vẫn không thể so sánh với tốc độ của số hóa công nghệ thông tin”

Ông Dittman giải thích

“Nếu cân nhắc xu hướng open source và sự thật là những công cụ xử lí dữ liệu đang ngày càng một dễ sử dụng thì rõ ràng việc xu hướng chuyển từ viết code thuần từ đầu sang tái chế code là dễ hiểu”

Ông Yue cũng lí luận rằng nhu cầu đối với những nhà khoa học dữ liệu sẽ còn đi lên bởi ML sẽ còn gặt hái nhiều thành công nữa và như vậy người ta sẽ lại càng đầu tư và thử nghiệm phát triển nó nhiều hơn nữa. Và một khi công nghệ được cải tiến, ngày càng nhiều bộ phận, đơn vị trong các doanh nghiệp có thể đưa ML vào sử dụng, việc này cũng đồng nghĩa với nhu cầu các nhà khoa học dữ liệu sẽ lại đi lên vì chắc chắn trước hết sẽ phải có người viết ra các chương trình đó đã.

Từ người tiêu dùng thành nhà cung cấp

Một trong số các động lực thôi thúc nhu cầu data scientists lên cao đó là sự “thèm khát” dữ liệu- thứ sẽ làm cho ML trở nên hữu dụng và hiệu quả hơn. Gualtiery quan sát thấy một vài doanh nghiệp có khả năng sẽ trở thành nhà cung cấp trong vài năm tới đây.

“Boeing có thể sẽ quyết đinh trở thành nhà cung cấp ML cho riêng ngành hàng không và bán những modules riêng lẻ ra ngoài cho những nhà cung cấp khác những người mà sau đó có khả năng sẽ lại trở thành khách hàng”

Dittman cũng thấy được tiềm năng của dữ liệu và những đoạn ML code. Chúng hoàn toàn có khả năng được đem ra bán lại và trở thành một nguồn thu lời chính cho các doanh nghiệp.

“Các doanh nghiệp sẽ quy đổi những dữ liệu mình có ra thành tiền. Ngành công nghiệp dữ liệu sẽ sớm bùng nổ. Dữ liệu thì bạt ngàn nhưng cái thiếu ở đây là chiến lược sử dụng nó. Thách thức đặt ra ở đây là liệu bạn có đang lấy những dữ liệu đúng với những gì doanh nghiệp của bạn hướng tới hay không?”

Tuy nhiên, Yue lại có một mối lo ngại khác:

“Trong 5 năm tới, ML sẽ dần mâu thuẫn với các vấn đề pháp lí theo quy luật tự nhiên. Chúng ta có những điều luật nghiêm ngặt về phân biệt đối xử và bảo vệ giai cấp. Giả sử nếu dùng thuật toán và dữ liệu để quyết định người để cho vay thì sao? Làm sao để biết không có sự phân biệt nào ở đây. Nhưng đó là câu hỏi dành cho những nhà hoạch định chính sách."

Yue cũng đưa ra một ví dụ về phần mềm tìm kiếm mối liên hệ giữa những người tiêu dùng dựa trên những khoản vay của họ và những người có màu mắt xanh nước biển. Phần mềm có thể quét màu mắt của khách hàng và sử dụng thông tin đó để đánh giá và quyết định xem có chấp nhận cho họ vay không.

“Nếu một người đưa ra quyết định ở đây, đó sẽ có thể bị xem là phân biệt đối xử”

Vấn đề pháp lí đó chính là nói về vai trò cốt lõi của nhà phân tích dữ liệu đối với unsupML. Công việc của phần mềm là tìm ra những mối liên hệ nhưng có khả năng là con người vẫn là người quyết định cuối cùng thì những mối liên hệ đó sẽ được xử lí ra sao. Bằng cách này hay cách khác, bộ phận tuyển dụng chắc chắn sẽ phải chiêu mộ thêm rất nhiều nhà khoa học dữ liệu nữa trong thời gian tới.

*Nguồn tham khảo: https://arstechnica.com/information-technology/2017/09/digital-transformation-1/?intcid=polar http://www.saga.vn/thuat-ngu/learning-curve-duong-cong-hoc-tap~1407*

Phân loại các phương thức đào tạo (training)

Chỉ dẫn vs. Đưa ra quyết định

Từ người tiêu dùng thành nhà cung cấp

Mục lục