Các Thuật toán trong học máy (Machine learning)

Bài đăng này đã không được cập nhật trong 7 năm

Học máy, một loại trí thông minh nhân tạo "học" khi xác định các mẫu mới trong dữ liệu, cho phép các nhà khoa học dữ liệu xác định chính xác các cơ hội doanh thu và tạo chiến lược để cải thiện trải nghiệm của khách hàng bằng cách sử dụng thông tin ẩn trong các tập dữ liệu khổng lồ. Chọn thuật toán phù hợp là một phần quan trọng của bất kỳ dự án máy học nào và bởi vì có hàng tá lựa chọn, hiểu được điểm mạnh và điểm yếu của họ trong các ứng dụng kinh doanh khác nhau là điều cần thiết. Dưới đây là năm trong số các thuật toán học máy phổ biến nhất và một số trường hợp sử dụng tiềm năng của chúng.

Bài viết về machine learning khác: https://viblo.asia/p/xay-dung-mot-he-thong-goi-y-phim-don-gian-voi-python-eW65Ge1PZDO

Random Forest

Random Forest sử dụng đồ thị có hướng để mô hình hóa việc ra quyết định; mỗi nút trên biểu đồ đại diện cho một câu hỏi về dữ liệu và các nhánh xuất phát từ mỗi nút đại diện cho các câu trả lời có thể có cho câu hỏi đó. Tổng hợp hàng trăm hoặc thậm chí hàng ngàn cây quyết định này là một phương pháp tập hợp các nhóm được gọi là random forest.

Mặc dù có độ chính xác cao, các random forest thường được gọi là mô hình hộp đen vì chúng phức tạp đến mức chúng có thể khó diễn giải. Ví dụ, hiểu làm thế nào một mô hình random forest phê duyệt hoặc từ chối khoản vay có thể liên quan đến việc sàng lọc thông qua hàng ngàn quyết định được điều chỉnh tốt. Tuy nhiên, các mô hình random forest là phổ biến do độ chính xác cao và chi phí tính toán tương đối thấp. Chúng được sử dụng cho rất nhiều ứng dụng bao gồm mô hình khuấy đảo và phân khúc khách hàng.

Neural Networks

Mục tiêu của các thuật toán học máy neural networks là bắt chước cách thức bộ não của con người tổ chức và hiểu thông tin để đi đến những dự đoán khác nhau. Trong các neural networks, thông tin được truyền qua một lớp đầu vào, một lớp ẩn và một lớp đầu ra. Các lớp đầu vào và đầu ra có thể bao gồm các tính năng và dự đoán thô, tương ứng. Lớp ẩn ở giữa bao gồm nhiều nơ-ron liên kết cao có khả năng kỹ thuật siêu tính năng phức tạp. Khi mạng nơ-ron học hỏi dữ liệu, các kết nối giữa các nơ-ron này được tinh chỉnh cho đến khi mạng mang lại dự đoán chính xác cao.

Cách tiếp cận sinh học này để tính toán cho phép các neural networks vượt trội ở một số vấn đề thách thức nhất, có chiều cao trong trí tuệ nhân tạo, như nhận dạng giọng nói và đối tượng, phân đoạn hình ảnh và xử lý ngôn ngữ tự nhiên. Giống như các khu rừng ngẫu nhiên, các mạng thần kinh rất khó - nếu không nói là không thể - không thể sử dụng các công cụ như Skater, một gói giải thích mô hình nguồn mở. Điều này có nghĩa là các nhà khoa học dữ liệu thường sẽ trì hoãn các thuật toán học máy đơn giản hơn trừ khi phân tích của họ đòi hỏi độ chính xác cao.

Logistic Regression

Logistic regression, được mượn từ lĩnh vực thống kê cổ điển, là một trong những thuật toán học máy đơn giản hơn. Kỹ thuật học máy này thường được sử dụng cho các vấn đề phân loại nhị phân, nghĩa là những vấn đề trong đó có hai kết quả có thể bị ảnh hưởng bởi một hoặc nhiều biến giải thích. Thuật toán ước tính xác suất của một kết quả được đưa ra một tập hợp các biến quan sát.

Trường hợp Logistic regressionkhác với các phương pháp khác là ở tính dễ hiểu của nó. Vì thuật toán này có nguồn gốc từ thuật toán hồi quy tuyến tính có thể giải thích cao, ảnh hưởng của từng tính năng dữ liệu có thể được diễn giải mà không cần nỗ lực nhiều. Do đó, Logistic regression thường được ưa chuộng khi tính giải nghĩa và suy luận là tối quan trọng. Thuật toán linh hoạt này được sử dụng để xác định kết quả của các sự kiện nhị phân như giao dịch khách hàng, nhấp chuột tiếp thị hoặc phát hiện gian lận.

Kernel Methods

Kernel Methods là một nhóm các thuật toán học máy được sử dụng để phân tích mẫu, bao gồm việc tổ chức dữ liệu thô thành các thứ hạng, cụm hoặc phân loại. Các phương pháp này cho phép các nhà khoa học dữ liệu áp dụng kiến thức miền của họ về một vấn đề nhất định bằng cách xây dựng các hạt nhân tùy chỉnh kết hợp các phép biến đổi dữ liệu có khả năng cải thiện độ chính xác của chế độ tổng thể Ứng dụng phổ biến nhất của hạt nhân là máy vectơ hỗ trợ (SVM), trong đó xây dựng một mô hình phân loại dữ liệu mới thuộc về loại này hoặc loại khác dựa trên một tập hợp các ví dụ đào tạo. Một SVM đưa ra các quyết định này bằng cách biểu diễn mỗi ví dụ như một điểm trong một không gian đa chiều được gọi là siêu phẳng. Các điểm sau đó được phân tách thành các loại bằng cách tối đa hóa khoảng cách (được gọi là lề lề) giữa các nhóm rõ ràng khác nhau trong dữ liệu.

Kernel Methods rất hữu ích khi bạn có kiến thức về miền liên quan đến các ranh giới quyết định trước, điều này thường không đúng trừ các vấn đề phổ biến nhất. Do đó, các học viên thường lựa chọn một thuật toán học máy ngoài luồng khác.

K-Means Clustering

K-Means Clustering là một kiểu học tập không giám sát, được sử dụng khi làm việc với dữ liệu không có danh mục hoặc nhóm xác định (dữ liệu không được gắn nhãn). Mục tiêu của K-Means Clustering là tìm các nhóm riêng biệt trong dữ liệu dựa trên sự tương đồng vốn có giữa chúng thay vì các nhãn được xác định trước. K đại diện cho tổng số nhóm duy nhất mà thuật toán sẽ tạo. Mỗi ví dụ được gán cho một nhóm hoặc nhóm khác dựa trên sự giống nhau với các ví dụ khác trên một tập hợp các đặc điểm được gọi là các tính năng. Phân cụm K-Means là hữu ích cho các ứng dụng kinh doanh như phân khúc khách hàng, phân loại hàng tồn kho và phát hiện bất thường.

Cuối cùng, thuật toán học máy tốt nhất để sử dụng cho bất kỳ dự án cụ thể nào phụ thuộc vào dữ liệu có sẵn, cách sử dụng kết quả và chuyên môn của nhà khoa học dữ liệu về chủ đề này. Hiểu cách chúng khác nhau là một bước quan trọng để đảm bảo rằng mọi mô hình dự đoán mà các nhà khoa học dữ liệu của bạn xây dựng và triển khai đều mang lại kết quả có giá trị.

Machine Learning

Random Forest

Neural Networks

Logistic Regression

Kernel Methods

K-Means Clustering

Mục lục