Đã đăng vào thg 4 10, 7:47 SA 6 phút đọc

BÀI SỐ 3: HỌC MÁY CÓ GIÁM SÁT (supervised learning)

Học máy đang tạo ra giá trị kinh tế to lớn ngày nay. Tôi nghĩ rằng 99% giá trị kinh tế được tạo ra bởi học máy hiện nay đến từ một loại học máy gọi là học có giám sát (supervised learning). Hãy cùng xem điều đó nghĩa là gì.

Học máy có giám sát, hay thường gọi là học có giám sát, đề cập đến các thuật toán học cách ánh xạ từ X sang Y, hay từ đầu vào sang đầu ra. Đặc điểm chính của học có giám sát là bạn cung cấp cho thuật toán học của mình các ví dụ để học, bao gồm câu trả lời đúng, trong đó “câu trả lời đúng” nghĩa là nhãn chính xác y tương ứng với một đầu vào x nhất định.

Nhờ việc quan sát các cặp đầu vào x và đầu ra mong muốn y, thuật toán học dần cách chỉ dựa vào đầu vào x (không có nhãn) để đưa ra dự đoán hoặc ước lượng đầu ra tương đối chính xác.

Hãy xem một số ví dụ:

Nếu đầu vào x là một email và đầu ra y là email đó là spam hay không spam, thì ta có bộ lọc thư rác.
Nếu đầu vào là một đoạn âm thanh và nhiệm vụ của thuật toán là xuất ra văn bản chuyển đổi (transcript), thì đó là nhận dạng giọng nói (speech recognition).
Nếu bạn muốn đầu vào là tiếng Anh và đầu ra là tiếng Tây Ban Nha, Ả Rập, Hindi, Trung Quốc, Nhật Bản hoặc ngôn ngữ khác, thì đó là dịch máy (machine translation).
Ứng dụng sinh lợi nhất của học có giám sát hiện nay có lẽ là quảng cáo trực tuyến.

Hầu hết các nền tảng quảng cáo lớn đều có một thuật toán học máy nhận thông tin về một quảng cáo và thông tin về bạn, rồi dự đoán xem bạn có nhấp vào quảng cáo đó hay không. Vì mỗi lượt nhấp đều tạo ra doanh thu, việc hiển thị quảng cáo phù hợp hơn giúp tăng lợi nhuận đáng kể cho các công ty này.

Đây là lĩnh vực tôi từng làm nhiều nghiên cứu, có thể không phải ứng dụng hấp dẫn nhất, nhưng chắc chắn có tác động kinh tế rất lớn.

Một ví dụ khác là xe tự lái: thuật toán nhận đầu vào là hình ảnh và dữ liệu từ các cảm biến như radar, sau đó dự đoán vị trí của các xe khác để xe có thể lái an toàn.

Trong sản xuất, tôi cũng từng làm nhiều việc tại Landing AI. Thuật toán có thể nhận hình ảnh sản phẩm vừa rời dây chuyền (ví dụ điện thoại) và xác định xem có bị trầy xước, móp hay lỗi không. Đây gọi là kiểm tra bằng hình ảnh (visual inspection), giúp giảm lỗi sản phẩm.

Trong tất cả các ứng dụng trên, ta đều huấn luyện mô hình bằng các ví dụ gồm đầu vào X và câu trả lời đúng Y. Sau khi học từ các cặp X-Y này, mô hình có thể nhận một đầu vào mới chưa từng thấy và dự đoán đầu ra tương ứng.

Hãy đi sâu hơn vào một ví dụ cụ thể:

Giả sử bạn muốn dự đoán giá nhà dựa trên diện tích nhà. Bạn thu thập dữ liệu và vẽ đồ thị:

Trục ngang là diện tích nhà (feet vuông)
Trục dọc là giá nhà (nghìn đô la)

Một người bạn hỏi: “Nhà 750 feet vuông thì giá bao nhiêu?”

Một thuật toán học có thể làm là fit một đường thẳng vào dữ liệu. Khi đọc theo đường thẳng này, giá nhà có thể khoảng 150.000 đô la.

Tuy nhiên, không chỉ có đường thẳng. Ta có thể chọn một mô hình phức tạp hơn, ví dụ một đường cong, có thể phù hợp dữ liệu tốt hơn. Khi đó dự đoán có thể gần 200.000 đô la.

Sau này bạn sẽ học cách quyết định nên dùng đường thẳng, đường cong hay mô hình phức tạp hơn để phù hợp dữ liệu.

Trong ví dụ này, ta đã cung cấp cho thuật toán một tập dữ liệu mà trong đó “câu trả lời đúng” (giá nhà y) được biết cho mỗi điểm dữ liệu. Nhiệm vụ của thuật toán là dự đoán giá nhà cho những trường hợp mới.

Đó chính là học có giám sát.

Cụ thể hơn, bài toán dự đoán giá nhà này là một dạng học có giám sát gọi là hồi quy (regression), tức là dự đoán một con số trong tập giá trị liên tục (có thể là 150.000, 70.000, 183.000 hoặc bất kỳ giá trị nào).

Vậy là ta đã hiểu về học có giám sát: học ánh xạ từ đầu vào X sang đầu ra Y. Trong video này, bạn đã thấy ví dụ về hồi quy (dự đoán số).

Ngoài ra còn có một loại bài toán học có giám sát quan trọng khác gọi là phân loại (classification). Chúng ta sẽ tìm hiểu trong video tiếp theo.

Nếu bạn muốn, mình có thể:

Tóm tắt ngắn hơn (5–7 dòng)
Giải thích dễ hiểu hơn cho người mới học
Hoặc vẽ sơ đồ tư duy nội dung này

supervised learning

Mục lục