Đã đăng vào thg 1 21, 2019 6:23 CH 16 phút đọc

818

Tìm niềm cảm hứng để bắt đầu học Deep Learning

Bài đăng này đã không được cập nhật trong 5 năm

Deep Learning gây nên cơn sốt công nghệ trên toàn thế giới trong vài năm nay. Trong giới học thuật, mỗi năm có hàng ngàn bài báo khoa học về đề tài này. Trong giới công nghiệp, từ các công ty lớn như Google, Facebook, Microsoft đến các công ty khởi nghiệp đều đầu tư vào Deep Learning. Hàng loạt các ứng dụng sử dụng Deep Learning ra đời trên mọi linh vực của cuộc sống, từ khoa học máy tính đến những ngành ít liên quan hơn như vật lý, hóa học, y học, chính trị. AlphaGo, cỗ máy đánh cờ vây với khả năng tính toán trong một không gian có số lượng phần tử còn nhiều hơn số lượng hạt trong vũ trụ, tối ưu hơn bất kì đại kì thủ nào, là một trong rất nhiều ví dụ hùng hồn cho sự vượt trội của Deep Learning so với các phương pháp cổ điển. Vậy thực chất Deep Learning làm được gì, chúng ta hãy cùng tìm hiểu qua 8 ứng dụng nổi bật sau đây nhé: Khoan hãy bắt đầu ngay, chúng ta hãy cùng đi tìm hiểu sơ qua về 3 thuật ngữ hay được sử dụng thời gian gần đây và cũng dễ gây nhầm lẫn: AI (trí tuệ nhân tạo), Machine Learning (Học máy) và Deep Learning (Từ này mình xin phép không dịch sang Tiếng Việt vì dịch word by word thành Học sâu thì nghe khá là kì cục (yaoming))

1. AI

AI hiểu một cách sơ khai là trí tuệ máy tính tiên tiến, công nghệ này được mô tả như sau: “Mọi khía cạnh của học tập hoặc bất kỳ tính năng nào khác của trí thông minh trên thực tế có thể được mô tả chính xác đến mức có thể làm được một cái máy để mô phỏng nó.” AI có thể mô phỏng bất cứ thứ gì từ một chương trình chơi cờ vua, đến một hệ thống nhận dạng giọng nói như Alexa của Amazon. Công nghệ này có thể được phân loại thành ba nhóm: Kiểu trí tuệ nhân tạo hẹp, trí tuệ nhân tạo tổng hợp (AGI), và trí tuệ nhân tạo siêu thông minh.

Trí tuệ nhân tạo hẹp là những AI có kỹ năng trong một nhiệm vụ cụ thể, ví dụ như AlplaGo của Google đã đánh bại nhà vô địch thế giới Lee Sedol ở bộ môn Go. Điều này tạo nên sự khác biệt với trí thông minh tổng hợp nhân tạo (AGI), ở đó AI được mô phỏng ở mức gần giống với con người, và có thể thực hiện một loạt các nhiệm vụ khác nhau.

Trí tuệ nhân tạo siêu thông minh sẽ đưa mọi thứ lên một bước xa hơn, đây là “trí tuệ thông minh hơn bộ não người tốt nhất trên thực tế mọi lĩnh vực, bao gồm sáng tạo khoa học, sự khôn ngoan chung và các kỹ năng xã hội”. Nói cách khác, đó là khi máy móc đã vượt ra khỏi tầm kiểm soát của con người.

2. Machine Learning

Machine Learning là một lĩnh vực con của AI. Nguyên tắc cốt lõi của Machine Learning là các máy tiếp nhận dữ liệu và tự học. Machine learning là một phương pháp phân tích dữ liệu mà sẽ tự động hóa việc xây dựng mô hình phân tích. Sử dụng các thuật toán lặp để học từ dữ liệu, machine learning cho phép máy tính tìm thấy những thông tin giá trị ẩn sâu mà không được lập trình một cách rõ ràng nơi để tìm.Khía cạnh lặp lại của machine learning là quan trọng bởi vì khi các mô hình này được tiếp xúc với dữ liệu mới thì chúng có thể thích ứng một cách độc lập. Chúng học từ các tính toán trước đó để tạo ra những quyết định cũng như kết quả lặp lại và đáng tin cậy.

Nó hiện là công cụ hứa hẹn nhất của AI dành cho doanh nghiệp. Các hệ thống Machine Learning có thể nhanh chóng áp dụng kiến thức và đào tạo từ các bộ dữ liệu lớn để thực hiện các công việc về nhận dạng khuôn mặt, nhận dạng giọng nói, nhận diện đối tượng, dịch và nhiều công việc khác một cách xuất sắc. Không giống mã hóa thủ công một chương trình phần mềm với các hướng dẫn cụ thể để hoàn thành một tác vụ, Machine Learning cho phép một hệ thống tự học để nhận dạng các biểu mẫu và đưa ra dự đoán một cách chính xác. Alpha Go là một ví dụ hoàn hảo về Machine Learning, khi nó tiếp nhận và học hỏi một lượng lớn dữ liệu từ cách bước đi cũng như tính toán của các cao thủ để đánh bại nhà vô địch thế giới Lee Sedol. Hiện tại, các tập đoàn lớn như IBM, Google, Amazon, Microsoft… đều cung cấp các nền tảng Machine Learning để các doanh nghiệp ứng dụng và tích hợp vào các chiến lược kinh doanh.

3. Deep learning

Deep learning là một lĩnh vực chuyên sâu của Machine Leaning. Nó sử dụng một số kỹ thuật của Machine Learning để giải quyết các vấn đề thực tế bằng cách khai thác các mạng thần kinh nhân tạo (dựa trên các thiết bị phần cứng và phần mềm được kết nối với nhau theo cách nào đó) và mô phỏng việc đưa ra các quyết định của con người. Deep Learning có chi phí khá đắt đỏ, và đòi hỏi các bộ dữ liệu lớn để tự tập luyện, bởi vì có một số lượng lớn các tham số cần được tìm hiểu theo giải thuật, mà ban đầu có thể tạo ra rất nhiều dữ liệu tích cực giả. Ví dụ, một thuật toán deep learning có thể được hướng dẫn để “học” về việc một con mèo trông như thế nào. Nó sẽ có một bộ dữ liệu khổng lồ của hình ảnh để nó hiểu được các chi tiết rất nhỏ mà phân biệt một con mèo với một con báo hoa, một con báo đen hay một con cáo. Tiếp tục với ví dụ về Alpha Go, Google đã lý giải về việc hệ thống đã sử dụng deep learning theo cách kết hợp tìm kiếm cây Monte-Carlo với mạng thần kinh nhân tạo đã được đào tạo bằng cách học có giám sát các trận của của những chuyên gia và bằng cách tăng cường học tập từ các trận đấu tự chơi.

Deep Learning có ứng dụng sâu rộng trong các lĩnh vực của đời sống, ví dụ như tìm kiếm dựa trên văn bản, phát hiện gian lận, phát hiện spam, nhận dạng chữ viết tay, tìm kiếm hình ảnh, nhận dạng giọng nói, phát hiện chế độ xem phố và bản dịch là tất cả các tác vụ có thể được thực hiện thông qua deep learning, thay thế nhiều hệ thống dựa trên các nguyên tắc thủ công. Tuy nhiên, deep learning cũng rất dễ bị thiên lệch, nếu trong bộ dữ liệu không có những tham số cần thiết.

OK, phần định nghĩa hơi dài nhưng nó cần thiết để đặt kiến thức nền nhất định giúp bạn dễ tiếp cận hơn với vấn đề.

Tiếp tục nhé, dưới đây là danh sách các ví dụ cụ thể mà chúng ta sẽ xem xét trong bài viết này:

Tự động tô màu cho hình ảnh đen trắng
Thêm âm thanh vào phim câm
Máy dịch tự động
Phát hiện và tách đối tượng trong ảnh
Tạo chữ viết tay tự động
Tạo văn bản tự động
Tạo chú thích ảnh tự động
Tự động chơi game

1. Tự động tô màu cho ảnh đen trắng

Vấn đề cần giải quyết là tự động tô màu cho các bức ảnh cho trước (INPUT: ảnh đen trắng, OUTPUT: ảnh màu) Bình thường thì điều này được thực hiện bằng tay vì việc này được xem như khá là khó, song Deep Learning có thể được sử dụng để điều khiển và dùng các đối tượng và bối cảnh của chúng trong bức ảnh để tô màu cho hình ảnh, giống y như con người, một cách hết sức trực quan và ấn tượng. Nhìn chung, cách tiếp cận để xử lí vấn đề là sử dụng mạng neural rất lớn và các lớp được giám sát(supervised layers) để tái tạo hình ảnh bằng việc việc bổ sung màu sắc. Sau đây là kết quả nhận được sau khi xử lí bằng Deep Learning.

2. Tự động thêm âm thanh vào phim câm

Trong task này, hệ thống Deep Learning phải tổng hợp âm thanh và thêm vào video để khớp với video im lặng. Hệ thống được training và sử dụng 1000 ví dụ video với âm thanh của một chiếc trống nổi bật các bề mặt khác nhau và tạo ra các âm thanh khác nhau. Một mô hình Deep Learning liên kết các khung hình video với cơ sở dữ liệu các âm thanh được phối lại trước để chọn âm thanh phát phù hợp nhất với những gì đang diễn ra trong cảnh.

Sau đó, hệ thống đã được đánh giá bằng cách sử dụng thiết lập thử nghiệm, trong đó con người phải xác định video nào có âm thanh thật hay giả.

3. Máy dịch tự động

Nhiệm vụ bây giờ là từ các từ, cụm từ đang ở ngôn ngữ X, tự động dịch nó sang ngôn ngữ Y khác Máy dịch tự động đã có từ lâu, nhưng dường như kết quả mang lại trước đây vẫn chỉ ở mức tương đối và chưa đáp ứng sự kì vọng. Ngày nay, Deep Learning đang dần đáp ứng được nhu cầu của con người, cụ thể trong việc: Tự động dịch văn bản. Tự động dịch hình ảnh Dịch văn bản có thể được thực hiện mà không cần bất kỳ quá trình tiền xử lý nào, cho phép thuật toán tìm hiểu sự phụ thuộc giữa các từ và ánh xạ của chúng sang một ngôn ngữ mới Sau khi xác định, chúng có thể được chuyển thành văn bản, dịch và hình ảnh sẽ được tạo lại nhưng với văn bản đã được dịch. Điều này thường được gọi là dịch trực quan ngay lập tức.

4. Phân loại và phát hiện đối tượng trong ảnh

Việc này này yêu cầu phân loại các đối tượng trong một bức ảnh là một trong những tập hợp các đối tượng đã biết trước đó, hay còn gọi là phát các vật thể, đối tượng trong một bức hình

Sau khi xử lí, sẽ thu được kết quả

Nổi bật nhất là việc Facebook đã phát triển và ứng dụng thành công phát hiện nhận diện gương mặt trong các ảnh được upload lên MXH này.

5. Tạo chữ viết tay tự động

Nhiệm vụ lúc này là tạo ra các đoạn text viết tay một cách tự động Chữ viết tay được cung cấp dưới dạng một chuỗi tọa độ được sử dụng bởi bút khi các mẫu chữ viết tay được tạo. Từ kho văn bản này, mối quan hệ giữa chuyển động bút và các chữ cái được học và các ví dụ mới có thể được tạo ra. Điều hấp dẫn là các phong cách khác nhau có thể được học và sau đó bắt chước.

6. Tạo văn bản tự động

Mình nghĩ task này là một trong những task thú vị nhất, trong đó một kho văn bản được học và từ mô hình này, văn bản mới được tạo ra, từng chữ một hoặc từng ký tự một. Mô hình có khả năng học cách đánh vần, chấm câu, hình thành tâm lý và thậm chí nắm bắt phong cách của văn bản trong kho văn bản. Các mạng thần kinh lớn được sử dụng để tìm hiểu mối quan hệ giữa các mục trong chuỗi các chuỗi đầu vào và sau đó tạo văn bản.

7. Tạo chú thích ảnh tự động

Thêm chú thích hình ảnh tự động là công việc cần làm, khi đó đó một hình ảnh được cung cấp, hệ thống phải tạo chú thích mô tả nội dung của hình ảnh. Trong năm 2014, đã có một sự bùng nổ của các thuật toán Deep Learning đạt được kết quả rất ấn tượng về vấn đề này, tận dụng công việc từ các mô hình hàng đầu để phân loại đối tượng và phát hiện đối tượng trong ảnh. Khi bạn có thể phát hiện các đối tượng trong ảnh và tạo nhãn cho các đối tượng đó, bạn có thể thấy rằng bước tiếp theo là biến các nhãn đó thành một mô tả câu mạch lạc.

8. Tự động chơi game

Công việc ở đây là cho model học cách chơi game vi tính chỉ dự vào các điểm ảnh(pixels) trên màn hình Hiện tại người ta đã nghiên cứ mở rộng và đạt đến đỉnh cao trong Google DeepMind. Riêng Trò chơi AlphaGo đã đánh bại bậc thầy thế giới trong trò chơi cờ vây.

Deep Learning AI Machine Learning Neural Networks