Tại sao Alpha Go chiến thắng cờ vây là một bước ngoặt lịch sử loài người?

Bài đăng này đã không được cập nhật trong 3 năm

_Hẳn mọi người còn nhớ sự kiện công nghệ năm 1997, khi hệ thống Deep Blue của IBM đã đánh bại kiện tướng cờ vua Garry Kasparov. Tại thời điểm đó, chiến thắng này được các chuyên gia cũng như công chúng đánh giá như là một bước ngoặt của trí tuệ nhân tạo. Nhưng một điều đáng thất vọng là mãi cho đến nhiều năm sau đó, công nghệ của Deep Blue không thể có một bước tiến nào khác ngoài lĩnh vực cờ vua. Vào giữa tháng 3 vừa qua, trên toàn các trang báo công nghệ cũng như cộng đồng mạng cùng đồng loạt đăng tải tin tức, AlphaGo - công cụ thông minh nhân tạo được phát triển cho việc chơi cờ vây của Google Deep Mind đã đánh bại một trong số những game thủ cờ vây mạnh nhất trong lịch sử từ trước tới nay. Liệu điều này có làm nên sự khác biệt ? Hay nó cũng sẽ chỉ dừng lại ở việc chỉ là một cỗ máy chơi cờ với các kiện tướng có kết quả 100% win không hơn không kém? _

Tôi tin là câu trả lời là có. Tất nhiên lý do sẽ không giống với những gì các bạn đã đọc được như cờ vây thì khó hơn cờ vua nhiều. Hay thắng được cờ vây đã là quá khủng, hoặc phải đến 10 năm rồi mới thắng được cờ vây chứng tỏ đỉnh cao của trí tuê nhân tạo đây rồi. Thật ra những lý do ấy cũng không hoàn toàn sai. Nhưng những điều nói ở trên chưa hề trả lời vào trọng tâm cho câu hỏi : Liệu thành công của AlphaGo có dẫn tới “cách mạng” trong công nghệ AI (trí thông minh nhân tạo) và ứng dụng được vào nhiều lĩnh vực khác được không? Bài viết này hi vọng phần nào sẽ làm rõ vấn đề này.

**Sơ lược về trí tuệ nhân tạo đối với cờ vua và công nghệ DeepBlue **

Trước hết hãy quay trở lại một chút về cờ vua và Deep Blue. Trong cờ vua, khi mới học có lẽ ai cũng đều được hướng dẫn về chức năng cũng như “giá trị” của mỗi quân trên bàn cờ. Ví dụ một con mã hoặc tượng thì tương đương với 3 con tốt. Một con xe thì cơ động hơn, di chuyển ngang dọc xa hơn thì đáng giá 5 con tốt. Rồi thì con hậu sẽ đáng giá 9 con tốt, vua thì tất nhiên là vô giá rồi, mất vua con đánh đấm gì nữa. Sử dụng “giá trị” của mỗi con cờ bạn có thể sẽ có một danh sách các “nước đi kế tiếp”. Đây chính là nguyên lý cực kì quan trọng trong cờ vua máy tính. Hầu hết các chương trình cờ vua thông minh nhân tạo đều chạy dựa trên việc tính toán và tìm kiếm trong danh sách kết hợp giữa nhiều nước đi cũng như các nước đi counter. Kết quả của việc tính toán này là máy tính sẽ tìm ra một chuỗi những nước đi mà có thể tối đa hóa được “tổng giá trị” các con cờ của phe mình trên bàn cờ. Một điều cần phải nhấn mạnh là nó làm việc này mà không quan tâm nhiều lắm đến việc đối phương sẽ đi như thế nào.

Những chương trình chơi cờ vua đầu tiên gần như chỉ đánh giá tổng giá trị theo cách rất đơn giản như đã nói ở trên - “1 con tượng bằng 3 con tốt”. Về sau thì các chương trình được phát triển sâu rộng hơn và có liên quan đến kiến thức cờ vua nhiều hơn. Ví dụ như Deep Blue sử dụng 8000 nhân tố khác nhau trong hàm đánh giá của nó để đưa ra đánh giá “tổng giá trị”. Ta có thể hiểu đơn giản là Deep Blue sẽ ko xem 1 con xe thì luôn bằng 5 con tốt. Giá sử như có một con tốt cùng màu ở trước con xe ấy, con tốt này sẽ cản trở phạm vi hoạt động của con xe, do đó “giá trị” của con xe sẽ bị giảm đi một chút. Tuy nhiên, nếu trước con xe đấy mà có một con tốt phe địch, thì trong trường hợp này “giá trị” của con xe lại không bị giảm đi. Việc sử dụng thêm các nhân tố đánh giá giá trị có sử dụng kiến thức cờ vua chính là cốt lõi của thành công của công nghệ Deep Blue.

Tóm tắt lại, các nhà phát triển Deep Blue đã sử dụng hai nhân tố chính. Một là xây dựng chức năng có thể đánh giá được “tổng giá trị” dựa trên rất nhiều kiến thức về cờ vua. Hai là sử dụng hệ thống máy tính cực mạnh để có thể tính toán được những vị trí có thể, nước đi có thể tiếp theo trên bàn cờ. Từ đó rút ra được chuỗi nước đi mang lại giá trị lớn nhất. Vậy đấy, nhìn chung thì đến đây bạn có thể hiểu được là DeepBlue chưa thể gọi là “thông minh” được. Nó chỉ đơn thuần có lợi thế về tốc độ tính toán hàng triệu nước đi trong một giây thôi.

**Điều gì sẽ xảy ra nếu chúng ta áp dụng chiến thuật này cho cờ vây ? **

Điểm lại một chút về lịch sự phát triển trí tuệ nhân tạo. Thông thường thì trò chơi chính là những công cụ dùng để kiểm tra được sự phát triển của quá trình này. Năm 1952 một chương trình chơi tic-tac-toe hay hơn con người đã được hoàn thành bởi trong một dự án làm nghiên cứu tiến sĩ. Tiếp đến là cờ vua vào năm 1997 được chinh phục bởi Deep Blue. Rồi đến việc chinh phục trò chơi Jeopardy năm 2011, và năm 2014 thì là Atari. Nhưng, có một trò chơi thực sự được xem như bức tưởng cản trở những bước tiến thành công này : môn thể thao trí tuệ cổ đại cờ vây. Ra đời tại Trung Hoa và có lịch sử khoảng trên dưới 2500 năm tuổi, hiện tại có khoảng 40 triệu người trên thế giới chơi cờ vây.

Luật cờ vây rất đơn giản : Bạn đặt 1 con trắng hoặc đen lên bàn cờ làm sao để vây bắt được các con cờ của đối phương bằng cách vây chặt các khoảng trống của nó. Phần không gian vây bắt được sẽ được xem là lãnh thổ của bạn và bạn sẽ nhận được điểm ở đấy. Trong sử sách Trung Hoa, Khổng Tử ca ngợi sự siêu việt của cờ vây và coi nó là một trong bốn nghệ thuật thường thức mà một học giả thực sự phải tinh thông. Đòi hỏi chiều sâu trí tuệ, sự kiên nhẫn và trực giác nhạy bén, trò chơi phức tạp này đã trở thành thước đo tư chất và chiếm lĩnh thế giới tưởng tượng của loài người suốt hàng thế kỷ.

Nếu vẫn áp dụng cách suy nghĩ thông thường của các AI khác về chơi game, tức là dự đoán những chuỗi các bước đi có thể xảy ra rồi lựa chọn bước đi tối ưu nhất trong mỗi lượt đi thì theo như tính toán, không gian tìm kiếm của các bước đi ấy sẽ nhiều hơn một con số “googol” lần so với bộ môn cờ vua. Nếu chưa biết “googol” là gì thì bạn có thể hiểu rằng số lượt đi có thể xảy ra trong cờ vây sẽ lớn hơn cả số lượng nguyên tử trong vũ trụ! Vậy nên việc xây dựng một cây tìm kiếm - phương pháp tiếp cận truyền thống trong AI là hoàn toàn bất khả thi đối với cờ vây. Tiếp đến là việc xem xét đến khái niệm đánh giá “tổng giá trị” trong cờ vây. Các tay chơi cờ vây chuyên nghiệp không đánh giá những nước đi theo lối như vậy. Họ dùng trực giác để đánh giá một nước đi là tốt hay không tốt. Ví dụ như họ sẽ nhận định là nước đi tốt hơn nhưng không thể giải thích một cách rõ ràng được lý do. Thế nên không hề có một hệ thống chuẩn mực được định nghĩa rõ ràng cho cờ vây như trong cờ vua.

**Lịch sử phát triển trí tuệ nhân tạo đối với cờ vây. **

Vào năm 2006, Monte Carlo đã bắt đầu làm việc với AI cho cờ vây. Dù cố gắng thử áp dụng phương pháp cây tìm kiếm cho nó và thử áp dụng rất nhiều cách đánh giá tổng giá trị cho từng nước đi nhưng hoàn toàn không thành công. Cho đến trước khi AlphaGo ra đời thì chương trình chơi cờ vây mạnh nhất chỉ có thể chạm được tới level 5 đẳng nghiệp dư mà không cần phải chấp, và hoàn toàn không đủ khả năng để có thể chơi với game thủ chuyên nghiệp nếu không được chấp. Vào năm 2012, một chương trình chơi cờ vây có tên là Zen đã đánh bại game thủ chuyên nghiệp 9 đẳng Masaki Takemiya 2 lần khi được chấp 5 và 4 nước đi cho mỗi trận.

Năm 2013, một chương trình khác Crazy Stone cũng đánh bại game thủ chuyên nghiệp Yoshio Ishida 9 đẳng khi game thủ này phải chấp 4 nước đi.

Theo như David Silver - một thành viên trong nhóm phát triển của AlphaGo, dự án AlphaGo được thành lập khoảng vào năm 2014 với mục đích để kiểm tra xem liệu kĩ thuật “mạng lưới thần kinh” được sử dụng trong “deep learning” (một khái niệm trong machine learning) có thể đánh bại được cờ vây hay không?

Vào tháng 10 năm 2015, AlphaGo đã đánh bại kiện tướng cờ vây châu Fan Hui - một game thủ cờ vây chuyên nghiêp 2 đẳng (cao nhất trong chuyên nghiệp là 9 đẳng) với tỉ số 5 - 0. Được biết Fan Hui đã từng 3 lần vô địch cờ vây châu u. Đây là lần đầu tiên một chương trình máy tính chơi cờ vây có thể đánh bại một cờ thủ chuyên nghiệp với bàn cờ full-size 19x19 mà không cần chấp. Đến giữa tháng 3 năm 2016, AlphaGo đánh bại Lee Sedol - cờ thủ chuyên nghiệp 9 đẳng, một trong số những tay chơi cờ vây mạnh nhất trên thế giới với tì số 4 - 1. Lee Sedol bắt đầu sự nghiệp vào năm 1996 vào năm 12 tuổi và đã giành 18 chức vô địch cho tới nay. Không chỉ vậy, ông còn được xem là vị anh hùng dân tộc tại quê hương Hàn Quốc, một huyền thoại sống trong làng cờ vây thế giới. Trước khi trận đấu diễn ra, nhiều ý kiến chuyên gia còn cho rằng ông sẽ đánh bại AlphaGo. Tuy nhiên, thực tế diễn ra lại trái với kì vọng của cộng đồng cờ vây khi AlphaGo đã giành chiển thắng suốt 3 trận đầu liên tiếp. Trả lời phỏng vấn của báo báo chí, ông Lee cho biết: “Tôi đã rất sửng sốt và bất ngờ. Tôi thậm chí còn không nghĩ là mình sẽ thua. Và càng không thể ngờ là AlphaGo lại có thể chơi cờ vây một cách hoàn hảo như vậy”.

**Nguyên lý hoạt động của AlphaGo **

Điểm mới và khác biệt trong AlphaGo chính là các nhà phát triển đã hình dung ra cách có thể mô phỏng, tạo ra một “trực giác” đối với máy ví tính. Để giải thích rõ ràng nó hoạt động như thế nào, chúng ta hãy bắt đầu tìm hiểu về hệ thống AlphaGo được dự án phát triển công bố vào tháng Một năm nay. Đầu tiên, AlphaGo ghi nhận vào hệ thống của nó 150,000 trận đấu được chơi bởi những cờ thủ tốt sử dụng hệ thống “mạng lưới thần kinh” để tìm ra những mô hình cho mỗi trận. Nói một cách cụ thể, nó học hỏi từ đó dự đoán được xác suất mà một cờ thủ có thể đi nước tiếp theo cho bất kì một trường hợp nào. AlphaGo được thiết kế để nó có thể tự nâng cấp cải thiện “mạng lưới thần kinh” này bằng cách chơi đi chơi lại với một phiên bản khác của chính nó, thông qua đó nâng cao khả năng để chiến thắng của mình.

Vậy hệ thống “mạng lưới thần kinh” này hoạt động như thế nào ? Làm sao nó có thể học để dự doán được một nước đi tốt?

Đây là một hệ thống mô hình toán học rất phức tạp, với vài triệu thông số có thể tự chỉnh sửa để thay đổi chính nó. Luận về khái niệm “học hỏi” của hệ thống nghĩa là máy tính sẽ có những thay đổi nhỏ, chỉnh sửa các thông số trong chính hệ thống, qua đó hoàn thiện hơn những tiểu tiết trong cách chơi. Quá trình này sẽ bao gồm 2 giai đoạn: Đầu tiên, hệ thống mạng lưới này sẽ cố gắng tăng xác suất thực hiện được những nước cờ giống như con người trong từng tình huống cụ thể. Trong giai đoạn thứ hai, nó sẽ nâng cao xác suất thắng cuộc bằng việc tự luyện tập với chính mình. Nghe có vẻ khá điên rồ? Tuy nhiên việc thực hiện chỉnh sửa lặp đi lặp lại những giá trị rất nhỏ trong một hệ thống vô cùng phức tạp và rộng lớn. Nếu bạn làm điều đó trong một thời gian đủ dài, với một hệ thống máy tính đủ mạnh, mạng lưới thần kinh đấy sẽ đạt được đến trình độ nhất định. Đáng ngạc nhiên hơn là sau quá trình “học hỏi”, hệ thống càng trở nên thông minh hơn một cách khó lý giải. Nguyên nhân thực sự nằm ở chỗ, những chỉnh sửa nhỏ bé này được tiến hành hoàn toàn tự động với con số hoàn thiện lên tới hàng tỷ.

Trải qua quá trình “học hỏi” gồm hai giai đoạn như trên, hệ thống mạng lưới thần kinh đã có thể chơi cờ vây khá tốt ở trình độ nghiệp dư, nhưng để vươn tới trình độ chuyên nghiệp thì hoàn toàn chưa đủ. Tại thời điểm này, nó mới chỉ dừng lại ở mức độ chơi cờ mà không cần tìm kiếm thông qua các nước đi có thể trong tương lai và ước tính tổng giá trị của các vị trí. Vì vậy để nâng cao hơn trình độ nghiệp dư, AlphaGo cần một cách ước tính giá trị của những nước cờ.

Để vượt qua được rào cản trên, ý tưởng của các nhà phát triển là cho AlphaGo tự đấu với chính mình, qua đó đánh giá được nước đi có thể giúp chiến thắng. Khả năng chiến thắng này sẽ được sử dụng như giá trị cho một nước đi. Tiếp theo, hệ thống kết hợp cả hai phương pháp vừa nêu để chọn ra nước đi sẽ dẫn đến giá trị cao nhất. Có thể thấy, AlphaGo không đi theo lối mòn của DeepBlue đã sử dụng cho cờ vua, mà phân tích hàng nghìn trận đấu và tự chơi với chính mình để tạo cách chơi riêng. Thông qua việc điều chỉnh hàng tỷ thông số trong hệ thống khiến nó càng trở nên hoàn hảo hơn, hình thành một “trực giác nhân tạo” tương tự như tay chơi chuyên nghiệp mỗi khi hạ cờ.

Với cách làm này, thì AlphaGo hoàn toàn ưu việt hơn DeepBlue. Từ thuở sơ khai nhất của khoa học máy tính, chúng ta đã biết đến khái niệm tìm kiếm tối ưu. Cách tiếp cận của Deep Blue cũng hoàn toàn tương tự như thế: thực hiện việc tìm kiếm nhằm đạt được mục đích tìm giá trị tối ưu cho một hàm được xây dựng nên bởi các kiến thức cờ vua. Phải nói là Deep Blue đã làm rất tốt việc xây dựng được hàm này, nhưng cách làm này không có chút gì khác so với rất nhiều chương trình được viết vào thập niên 1960.

AlphaGo cũng sử dụng ý tưởng tìm kiếm và tối ưu hóa này, tất nhiên là thông minh hơn nhiều. Điểm mới và khác biệt của nó chính là giai đoạn đầu tiên khi nó sử dụng một hệ thống "mạng lưới thần kinh" để có thể tự học, cũng như tự xây dựng được một chức năng cho phép có thể mô phỏng được "trực giác về một nước đi tốt" như con người. Bằng cách kết hợp những phương pháp này, AlphaGo có thể chơi cờ ở trình độ rất cao như chúng ta đã thấy.

Khả năng có thể mô phỏng được mô hình trực giác này chính là một bước tiến lớn, xu hướng mới trong trí tuệ nhân tạo cũng như machine learning (học máy). Trong một công bố gần đây của cha đẻ AlphaGo, đội ngũ Google DeepMind đã xây dựng một hệ thống mạng lưới cho phép học 49 video trò chơi Atari, giúp cho phần mềm của họ đạt đến trình độ mà con người không thể nào sánh được. Khác với DeepBlue khi có các lập trình viên cùng chuyên gia thực hiện viện phân tích các ván cờ và nghiên cứu chiến thuật để hoàn thiện cách chơi; AlphaGo sẽ tự động làm hết những việc nhiệm vụ này. Tất nhiên, trong thời gian đầu AlphaGo chơi rất tệ, giống như một người mới học. Nhưng đó là do nó "học" và "tự chơi" chưa đủ. Nhưng khi đến một thời điểm khi các thông số đã dần đi vào ổn định chuẩn mực, thì khả năng chơi của AlphaGo sẽ dần dần được tăng lên và đạt đến mức đã thấy tại thời điểm hiện tại.

Khả năng của hệ thống "mạng lưới thần kinh" được sử dụng để mô phỏng mô hình nhận thức của con người này cũng được sử dụng trong các lĩnh vực khác. Vào năm 2015, Leon Gatys, Alexander Ecker và Matthias Bethge đã mô tả quá trình mạng lưới thần kinh này học về nghệ thuật. Ý tưởng của họ khá đơn giản: Trước hết hệ thống sẽ được có thời gian để học và làm quen với rất nhiều thể loại tranh ảnh, cho tới khi đạt được khả năng phân biệt một bức tranh giống với phong cách nghệ thuật nào mà nó đã từng tiếp xúc.

**Lời kết **

Trong những năm gần đây, khái niệm hệ thống "mạng lưới thần kinh" được sử dụng để nắm bắt mô hình nhận thức của con người trong rất nhiều lĩnh vực. Có khá nhiều dự án sử dụng hệ thống này như phân tích phong cách nghệ thuật, chiến thuật video-game, phân tích ngôn ngữ tự nhiên hay thâm chí âm thanh.

Rõ ràng đối với các học giả chuyên sâu trong khoa học máy tính, AlphaGo chưa phải là bước đột phá mang tính cách mạng, nhưng nó là ứng dụng thực tế minh chứng cho một phát triển cực kì quan trọng: Xây dựng một hệ thống có thể nắm bắt và học được mô hình nhận thức, trực giác của con người. Tại thời điểm hiện tại còn rất nhiều thách thức thú vị để khám phá: mở rộng thêm khả năng nắm bắt nhận thức ở các lĩnh vực khác, ổn định hệ thống mạng lưới thần kinh, hiểu hơn về nó, kết hợp hệ thống ấy với sức mạnh của hệ thống máy tính chúng ta đang sở hữu. Có thể nói đây chính là một triển vọng tương lai đầy hứa hẹn cho mảnh đất trí tuệ nhân tạo.

Trở lại với câu chuyện cờ vây, Lee Sedol cuối cùng đã giành chiến thắng và cũng là chiến thắng duy nhất trong chuỗi 5 ván đầu trước AlphaGo tại ván đấu thứ 4. Liệu do chuỗi trận thất bại trước đó đã gạt bỏ tâm lý thắng thua giúp ông tập trung hết sức và giành chiến thắng? Hay vì AlphaGo đã cố tình mắc sai lầm giả vờ thua một game? Liệu AlphaGo có thực sự thông minh đến mức ấy? Câu trả lời vẫn là một ẩn số!

Tài liệu tham khảo :

https://en.wikipedia.org/wiki/AlphaGo

https://googleblog.blogspot.com/2016/01/alphago-machine-learning-game-go.html

http://en.chessbase.com/post/alphago-vs-lee-sedol-history-in-the-making

https://www.quantamagazine.org/20160329-why-alphago-is-really-such-a-big-deal/

http://www.theverge.com/2016/3/9/11185030/google-deepmind-alphago-go-artificial-intelligence-impact

Machine Learning Artificial Intelligence

Mục lục