Đã đăng vào thg 7 26, 2024 2:26 SA 32 phút đọc

1.2K

Làm Thế Nào Embeddings Thay Đổi Cách AI Hiểu Về Ngôn Ngữ?

Mở đầu

Giới thiệu về khái niệm Embeddings

Giới thiệu ngắn gọn về chủ đề và tầm quan trọng của embeddings trong AI:
- Embeddings là một khái niệm cốt lõi trong học máy và xử lý ngôn ngữ tự nhiên (NLP). Chúng là cách biểu diễn các từ, câu, đoạn văn bản dưới dạng các vector số học, giúp máy tính hiểu và xử lý ngôn ngữ tự nhiên một cách hiệu quả hơn.
- Tầm quan trọng của embeddings nằm ở khả năng chuyển đổi các đơn vị ngôn ngữ (như từ vựng) thành dạng mà máy tính có thể thao tác, mở ra nhiều ứng dụng mạnh mẽ như dịch máy, phân loại văn bản, và tạo ra văn bản mới.
Đề cập đến sự phát triển của Generative AI và vai trò của embeddings:
- Sự phát triển nhanh chóng của Generative AI đã thay đổi cách chúng ta nhìn nhận và sử dụng công nghệ AI. Những mô hình AI như GPT-3 hay BERT đều dựa vào kỹ thuật embeddings để hiểu và tạo ra ngôn ngữ một cách tự nhiên.
- Vai trò của embeddings trong Generative AI rất quan trọng. Nhờ vào các embeddings, các mô hình AI có thể học được các mối quan hệ ngữ nghĩa giữa các từ và câu, giúp chúng tạo ra các văn bản mạch lạc và có ý nghĩa.

Phần 1: Embeddings Là Gì?

Định nghĩa và Khái niệm Cơ bản

Giải thích đơn giản về embeddings:
- Embeddings là các vector số học biểu diễn từ ngữ, cụm từ, hoặc đoạn văn trong một không gian đa chiều, giúp máy tính hiểu và xử lý ngôn ngữ tự nhiên. Thay vì sử dụng các biểu diễn từ ngữ đơn giản như bag-of-words, embeddings mã hóa ngữ nghĩa và ngữ cảnh của từ ngữ.
- Các từ có nghĩa tương tự sẽ được biểu diễn bằng các vector gần nhau trong không gian embeddings. Điều này giúp mô hình AI hiểu được ngữ cảnh và mối quan hệ giữa các từ.
Ví dụ minh họa về cách embeddings chuyển đổi văn bản thành số:
- Giả sử chúng ta có ba từ: "king", "queen", và "man". Các embeddings cho ba từ này có thể là các vector như sau:
  - "king" = [0.5, 0.1, 0.4]
  - "queen" = [0.5, 0.2, 0.4]
  - "man" = [0.5, 0.1, 0.3]
- Các vector này không chỉ thể hiện các từ dưới dạng số mà còn biểu diễn ngữ nghĩa của từ. Sự tương đồng giữa "king" và "queen" (vị trí thứ hai trong vector) cho thấy mối quan hệ gần gũi giữa chúng về mặt ngữ nghĩa.

Lịch sử Phát triển của Embeddings

Sự ra đời và tiến hóa của embeddings trong lĩnh vực AI:
- Embeddings xuất hiện từ những năm 1990 nhưng chỉ thực sự bùng nổ khi các mô hình như Word2Vec của Google được giới thiệu vào năm 2013. Word2Vec đã mở ra một kỷ nguyên mới trong xử lý ngôn ngữ tự nhiên bằng cách tạo ra các embeddings có thể học từ dữ liệu ngữ liệu lớn.
- Tiếp theo đó, các mô hình như GloVe (Global Vectors for Word Representation) của Stanford đã tiếp tục cải tiến phương pháp này, giúp tăng cường khả năng học ngữ nghĩa từ các từ trong văn bản.
Các mô hình và công nghệ đã sử dụng embeddings:
- Các mô hình tiên tiến như BERT (Bidirectional Encoder Representations from Transformers) và GPT (Generative Pre-trained Transformer) đều sử dụng embeddings để mã hóa văn bản. BERT, được phát triển bởi Google, sử dụng cách tiếp cận hai chiều để hiểu ngữ cảnh của từ, trong khi GPT của OpenAI sử dụng cách tiếp cận một chiều để tạo ra văn bản.
- Các mô hình này đã chứng minh rằng embeddings không chỉ cải thiện khả năng hiểu ngôn ngữ của máy tính mà còn mở ra nhiều ứng dụng mạnh mẽ trong các lĩnh vực như dịch máy, trả lời câu hỏi, và tạo văn bản tự động.

Phần 2: Cơ Chế Hoạt Động Của Embeddings

Chuyển đổi Văn bản thành Số

Quy trình chuyển đổi từ văn bản sang số:
- Đầu tiên, văn bản được token hóa, tức là chia nhỏ thành các đơn vị nhỏ hơn như từ hoặc cụm từ.
- Mỗi token sau đó được ánh xạ tới một vector số trong không gian đa chiều. Quy trình này tạo ra các embeddings, là các vector biểu diễn ngữ nghĩa của token trong văn bản.
- Các vector này được xây dựng sao cho các từ có ngữ nghĩa tương tự nằm gần nhau trong không gian vector.
Giải thích chi tiết về các bước chuyển đổi:
- Token hóa: Chia câu thành các từ hoặc cụm từ. Ví dụ, câu "Tôi yêu học máy" sẽ được chia thành ["Tôi", "yêu", "học", "máy"].
- Tạo từ điển: Mỗi từ trong văn bản được gán một chỉ số duy nhất. Ví dụ, từ điển có thể là {"Tôi": 0, "yêu": 1, "học": 2, "máy": 3}.
- Ánh xạ từ sang vector: Sử dụng các mô hình như Word2Vec hoặc GloVe, mỗi từ được ánh xạ tới một vector số học. Ví dụ, "Tôi" có thể được ánh xạ tới [0.1, 0.3, 0.5], "yêu" tới [0.2, 0.4, 0.6], v.v.
- Học embeddings: Các mô hình học máy sẽ học cách điều chỉnh các vector này dựa trên ngữ cảnh trong văn bản, sao cho các từ có nghĩa tương tự sẽ có các vector gần nhau.

Cách AI Hiểu và Xử lý Embeddings

Cách AI sử dụng embeddings để hiểu ngữ cảnh và ý nghĩa của văn bản:
- Ngữ cảnh: Khi một mô hình AI gặp một từ, nó sẽ sử dụng embedding của từ đó để hiểu ý nghĩa của từ trong ngữ cảnh của câu. Ví dụ, từ "bank" trong câu "He sat on the bank of the river" và "She went to the bank to deposit money" sẽ có các embeddings khác nhau dựa trên ngữ cảnh.
- Mối quan hệ ngữ nghĩa: AI có thể nhận ra các từ có ngữ nghĩa tương tự hoặc liên quan thông qua khoảng cách giữa các embeddings của chúng. Ví dụ, embeddings của "king" và "queen" sẽ gần nhau hơn so với "king" và "car".
Các thuật toán và mô hình học máy liên quan:
- Word2Vec: Một mô hình tiên phong trong việc tạo embeddings, Word2Vec sử dụng các kiến trúc Continuous Bag of Words (CBOW) và Skip-Gram để học các embeddings từ dữ liệu văn bản lớn.
- GloVe: Phương pháp này sử dụng ma trận đồng xuất hiện (co-occurrence matrix) để học các embeddings, đảm bảo rằng các từ xuất hiện cùng nhau thường xuyên sẽ có các embeddings gần nhau.
- FastText: Một mở rộng của Word2Vec, FastText không chỉ ánh xạ các từ mà còn các đoạn của từ (subword), giúp cải thiện việc biểu diễn các từ mới hoặc từ hiếm.
- BERT (Bidirectional Encoder Representations from Transformers): Mô hình này sử dụng một kiến trúc transformer để học các embeddings từ cả hai chiều của ngữ cảnh (trước và sau từ cần dự đoán), giúp cải thiện sự hiểu biết ngữ nghĩa của AI.
- GPT (Generative Pre-trained Transformer): Sử dụng kiến trúc transformer một chiều, GPT học các embeddings dựa trên chuỗi từ trước đó, giúp tạo ra văn bản mạch lạc và tự nhiên.

Với cơ chế hoạt động này, embeddings không chỉ giúp AI hiểu rõ hơn về ngữ nghĩa và ngữ cảnh của từ ngữ mà còn mở ra nhiều ứng dụng mạnh mẽ trong việc xử lý và tạo ra ngôn ngữ tự nhiên.

Phần 3: Ứng Dụng Thực Tế Của Embeddings

Embeddings trong Công cụ Tìm kiếm

Cách embeddings giúp cải thiện kết quả tìm kiếm:
- Embeddings giúp công cụ tìm kiếm hiểu rõ hơn ngữ nghĩa của các truy vấn tìm kiếm và nội dung trang web. Thay vì chỉ dựa vào từ khóa, các công cụ tìm kiếm sử dụng embeddings để hiểu ý định của người dùng và mối quan hệ ngữ nghĩa giữa các từ trong truy vấn.
- Khi người dùng nhập một truy vấn tìm kiếm, công cụ tìm kiếm chuyển đổi truy vấn này thành các embeddings. Sau đó, nó so sánh các embeddings này với các embeddings của nội dung trang web để tìm ra các trang phù hợp nhất.
Ví dụ thực tế từ các công cụ tìm kiếm hiện đại:
- Google sử dụng một mô hình dựa trên embeddings gọi là BERT để cải thiện kết quả tìm kiếm. BERT giúp Google hiểu rõ hơn ngữ cảnh của từ trong truy vấn, làm cho kết quả tìm kiếm chính xác và liên quan hơn.
- Ví dụ, trước khi sử dụng BERT, khi người dùng tìm kiếm "2019 brazil traveler to usa need a visa", Google có thể không hiểu rõ ý định của người dùng. Với BERT, Google hiểu rằng "brazil traveler to usa" là một khái niệm và "need a visa" là yêu cầu, từ đó cung cấp kết quả tìm kiếm phù hợp hơn.

Embeddings trong Chatbot và Trợ lý Ảo

Cách embeddings giúp chatbot hiểu và phản hồi người dùng tốt hơn:
- Embeddings giúp chatbot hiểu ngữ nghĩa của câu hỏi và ngữ cảnh của cuộc trò chuyện. Điều này cho phép chatbot phản hồi một cách tự nhiên và chính xác hơn.
- Các chatbot sử dụng embeddings để mã hóa ngôn ngữ của người dùng thành các vector số, sau đó sử dụng các mô hình học máy để dự đoán phản hồi phù hợp nhất.
Các trường hợp sử dụng thành công của chatbot sử dụng embeddings:
- Google Assistant và Amazon Alexa sử dụng embeddings để hiểu và phản hồi các lệnh của người dùng một cách tự nhiên. Nhờ vào embeddings, các trợ lý ảo này có thể hiểu được các yêu cầu phức tạp và ngữ cảnh, cung cấp các phản hồi chính xác và hữu ích.
- Chatbot của các ngân hàng và dịch vụ khách hàng sử dụng embeddings để hỗ trợ khách hàng nhanh chóng và hiệu quả. Ví dụ, chatbot của ngân hàng có thể hiểu và trả lời các câu hỏi về tài khoản, giao dịch, và các dịch vụ khác một cách chính xác.

Embeddings trong Dịch Máy và Ngôn ngữ Tự nhiên

Ứng dụng của embeddings trong dịch thuật và xử lý ngôn ngữ tự nhiên:
- Embeddings cải thiện độ chính xác và mạch lạc của dịch máy bằng cách hiểu ngữ nghĩa và ngữ cảnh của từ ngữ trong câu. Điều này giúp dịch các câu từ ngôn ngữ này sang ngôn ngữ khác một cách chính xác và tự nhiên hơn.
- Trong xử lý ngôn ngữ tự nhiên, embeddings được sử dụng để phân loại văn bản, phân tích cảm xúc, và nhiều ứng dụng khác. Các mô hình embeddings như Word2Vec và GloVe đã mở ra nhiều cơ hội mới trong việc xử lý ngôn ngữ tự nhiên.
Các mô hình nổi bật như BERT, GPT:
- BERT (Bidirectional Encoder Representations from Transformers): BERT sử dụng kiến trúc transformer để học các embeddings từ cả hai chiều của ngữ cảnh (trước và sau từ cần dự đoán). Điều này giúp BERT hiểu ngữ nghĩa của từ một cách chính xác hơn, cải thiện độ chính xác của các ứng dụng dịch máy và xử lý ngôn ngữ tự nhiên.
- GPT (Generative Pre-trained Transformer): GPT sử dụng kiến trúc transformer một chiều để học các embeddings dựa trên chuỗi từ trước đó. GPT nổi bật trong việc tạo ra văn bản tự nhiên và mạch lạc, làm cho nó trở thành một công cụ mạnh mẽ cho các ứng dụng như viết bài tự động, tạo nội dung, và dịch máy.

Với những ứng dụng thực tế này, embeddings đã và đang thay đổi cách chúng ta tương tác với công nghệ và ngôn ngữ tự nhiên, mở ra nhiều cơ hội mới và cải thiện hiệu quả của các hệ thống AI.

Phần 4: Lợi Ích Của Việc Sử Dụng Embeddings

Tăng Cường Độ Chính Xác của AI

Cách embeddings giúp AI hiểu văn bản chính xác hơn:
- Embeddings cung cấp một cách biểu diễn ngữ nghĩa của từ trong không gian vector, giúp AI hiểu ngữ cảnh và mối quan hệ giữa các từ một cách tự nhiên hơn. Điều này đặc biệt quan trọng trong xử lý ngôn ngữ tự nhiên (NLP) và các ứng dụng liên quan đến ngôn ngữ.
- Thay vì chỉ dựa vào sự xuất hiện của các từ, embeddings giúp AI nhận diện các từ có ngữ nghĩa tương tự, từ đó cải thiện khả năng hiểu và dự đoán của mô hình. Ví dụ, AI có thể hiểu rằng "vua" và "nữ hoàng" có ngữ nghĩa liên quan đến hoàng gia, mặc dù chúng là các từ khác nhau.
So sánh với các phương pháp truyền thống:
- Bag-of-Words (BoW): Phương pháp BoW đại diện cho văn bản bằng cách đếm số lần xuất hiện của các từ, bỏ qua ngữ cảnh và trật tự của từ. Điều này dẫn đến mất mát thông tin ngữ nghĩa và ngữ cảnh.
- TF-IDF: Phương pháp TF-IDF cải thiện BoW bằng cách xem xét tần suất của từ trong một văn bản cụ thể và trong toàn bộ tập dữ liệu, nhưng vẫn không thể biểu diễn mối quan hệ ngữ nghĩa giữa các từ.
- Embeddings: Khác với BoW và TF-IDF, embeddings mã hóa ngữ nghĩa và ngữ cảnh của từ trong không gian vector đa chiều. Điều này giúp AI hiểu rõ hơn về mối quan hệ giữa các từ và cải thiện độ chính xác trong các nhiệm vụ như dịch máy, phân loại văn bản, và phân tích cảm xúc.

Cải Thiện Hiệu Suất và Tốc Độ

Cách embeddings tối ưu hóa hiệu suất của các mô hình AI:
- Embeddings giảm thiểu kích thước dữ liệu đầu vào bằng cách biểu diễn từ ngữ dưới dạng các vector số ngắn gọn. Điều này giúp giảm thiểu khối lượng tính toán cần thiết và cải thiện hiệu suất của các mô hình AI.
- Thay vì xử lý toàn bộ từ điển từ ngữ, AI chỉ cần làm việc với các embeddings, giúp giảm thiểu độ phức tạp và tăng cường tốc độ xử lý.
Tác động đến thời gian xử lý và tài nguyên tính toán:
- Thời gian xử lý: Sử dụng embeddings giúp giảm thời gian xử lý bằng cách mã hóa thông tin ngữ nghĩa trong các vector ngắn gọn. Điều này giúp mô hình AI xử lý văn bản nhanh hơn và hiệu quả hơn.
- Tài nguyên tính toán: Bằng cách giảm thiểu kích thước dữ liệu đầu vào và độ phức tạp tính toán, embeddings giúp tiết kiệm tài nguyên tính toán và năng lượng. Điều này đặc biệt quan trọng trong các ứng dụng đòi hỏi xử lý nhanh chóng và hiệu quả, như chatbot, dịch máy, và tìm kiếm thông tin.
- Khả năng mở rộng: Với sự hỗ trợ của embeddings, các mô hình AI có thể xử lý lượng dữ liệu lớn hơn mà không cần gia tăng đáng kể tài nguyên tính toán. Điều này giúp mở rộng quy mô các ứng dụng AI mà vẫn duy trì hiệu suất cao.

Nhờ vào những lợi ích này, embeddings đã trở thành một công cụ không thể thiếu trong việc cải thiện hiệu suất và độ chính xác của các mô hình AI, đồng thời tối ưu hóa tài nguyên và thời gian xử lý.

Phần 5: Thách Thức Và Tương Lai Của Embeddings

Những Thách Thức Hiện Tại

Các vấn đề và hạn chế của embeddings:
- Hiểu ngữ cảnh hạn chế: Mặc dù embeddings mã hóa ngữ nghĩa của từ, chúng vẫn có thể gặp khó khăn khi phải xử lý các ngữ cảnh phức tạp hoặc đa nghĩa. Ví dụ, từ "bank" có thể chỉ cả ngân hàng và bờ sông, và embeddings có thể gặp khó khăn trong việc phân biệt ngữ cảnh này.
- Thiên vị dữ liệu: Embeddings được học từ các tập dữ liệu lớn, và nếu tập dữ liệu này chứa thiên vị (bias) thì các embeddings cũng sẽ phản ánh thiên vị đó. Điều này có thể dẫn đến các quyết định không công bằng hoặc sai lệch trong các ứng dụng AI.
- Khả năng mở rộng: Khi làm việc với các ngôn ngữ ít phổ biến hoặc các lĩnh vực chuyên ngành, việc thu thập đủ dữ liệu để huấn luyện các embeddings chất lượng cao có thể là một thách thức lớn.
- Tính toán phức tạp: Mặc dù embeddings giảm thiểu khối lượng tính toán so với các phương pháp truyền thống, việc huấn luyện các mô hình lớn như BERT hay GPT đòi hỏi tài nguyên tính toán rất lớn, điều này có thể gây khó khăn cho các tổ chức với nguồn lực hạn chế.
Những thách thức trong việc triển khai và tối ưu hóa:
- Tối ưu hóa ngữ cảnh: Việc điều chỉnh embeddings để phù hợp với các ngữ cảnh cụ thể và đa dạng là một thách thức lớn. Các mô hình phải được tối ưu hóa để hiểu và xử lý các ngữ cảnh khác nhau một cách chính xác.
- Hiệu suất trong thời gian thực: Đối với các ứng dụng yêu cầu xử lý thời gian thực, như chatbot hoặc dịch máy, việc duy trì hiệu suất cao mà không làm giảm chất lượng là một thách thức.
- Quản lý dữ liệu: Đảm bảo rằng dữ liệu dùng để huấn luyện embeddings không chứa thiên vị và phản ánh đúng các ngữ cảnh là một công việc đòi hỏi sự cẩn trọng và nguồn lực.

Xu hướng và Phát triển Tương Lai

Dự đoán về sự phát triển của embeddings trong AI:
- Embeddings động (Dynamic Embeddings): Trong tương lai, các mô hình embeddings có thể trở nên động hơn, thay đổi theo ngữ cảnh và thời gian. Điều này giúp cải thiện khả năng hiểu ngữ nghĩa và ngữ cảnh của từ.
- Embeddings đa ngôn ngữ (Multilingual Embeddings): Với sự phát triển của các mô hình AI đa ngôn ngữ, embeddings có thể được huấn luyện để biểu diễn từ ngữ trong nhiều ngôn ngữ cùng lúc, giúp cải thiện các ứng dụng dịch máy và xử lý ngôn ngữ đa ngữ.
- Học không giám sát (Unsupervised Learning): Sự phát triển của các kỹ thuật học không giám sát sẽ giúp tạo ra các embeddings từ dữ liệu không gán nhãn, mở rộng phạm vi ứng dụng và giảm sự phụ thuộc vào dữ liệu được gán nhãn.
Các nghiên cứu và cải tiến tiềm năng trong tương lai:
- Kiến trúc transformer cải tiến: Các nghiên cứu tiếp tục cải tiến kiến trúc transformer để tạo ra các embeddings chất lượng cao hơn với tài nguyên tính toán ít hơn. Điều này bao gồm việc tối ưu hóa các mô hình hiện có như BERT và GPT, cũng như phát triển các kiến trúc mới.
- Đa modal embeddings (Multimodal Embeddings): Nghiên cứu về embeddings không chỉ giới hạn ở văn bản mà còn mở rộng sang các dữ liệu khác như hình ảnh, âm thanh và video, giúp AI có khả năng hiểu và xử lý thông tin đa dạng hơn.
- Xử lý thiên vị trong embeddings: Các nghiên cứu đang tập trung vào việc phát hiện và giảm thiểu thiên vị trong embeddings, đảm bảo rằng các mô hình AI hoạt động công bằng và chính xác hơn.
- Ứng dụng trong các lĩnh vực mới: Embeddings sẽ tiếp tục mở rộng ứng dụng trong nhiều lĩnh vực khác nhau, từ y học, tài chính, giáo dục đến giải trí, giúp cải thiện hiệu quả và độ chính xác của các hệ thống AI trong những lĩnh vực này.

Nhìn chung, mặc dù còn nhiều thách thức, embeddings vẫn là một phần quan trọng và không thể thiếu trong sự phát triển của AI. Với các nghiên cứu và cải tiến liên tục, chúng ta có thể mong đợi rằng embeddings sẽ ngày càng trở nên mạnh mẽ và hữu ích hơn trong tương lai.

Kết Luận

Tóm tắt nội dung chính

Tổng kết lại các điểm quan trọng về cách embeddings thay đổi cách AI hiểu về ngôn ngữ:
- Embeddings là các vector số học biểu diễn ngữ nghĩa của từ ngữ, giúp AI hiểu và xử lý ngôn ngữ tự nhiên một cách hiệu quả hơn.
- Chúng đã được áp dụng rộng rãi trong các mô hình AI tiên tiến như Word2Vec, GloVe, BERT và GPT, giúp cải thiện đáng kể độ chính xác và hiệu suất của các hệ thống AI.
- Các ứng dụng thực tế của embeddings trong công cụ tìm kiếm, chatbot, dịch máy, và nhiều lĩnh vực khác đã chứng minh tính hiệu quả và tiềm năng to lớn của chúng.

Tầm quan trọng của embeddings trong AI hiện đại

Nhấn mạnh vai trò của embeddings trong việc phát triển AI thông minh hơn:
- Embeddings đóng vai trò quan trọng trong việc nâng cao khả năng hiểu biết ngôn ngữ của AI, giúp các hệ thống AI trở nên thông minh hơn và đáng tin cậy hơn.
- Chúng giúp AI hiểu ngữ cảnh và ngữ nghĩa của từ ngữ, từ đó cải thiện khả năng dự đoán và phản hồi trong nhiều ứng dụng khác nhau, từ tìm kiếm thông tin đến giao tiếp với người dùng.
- Với sự phát triển không ngừng của công nghệ và nghiên cứu, embeddings sẽ tiếp tục là một công cụ quan trọng trong việc đưa AI đến gần hơn với khả năng hiểu và tương tác tự nhiên như con người.

Lời kêu gọi hành động

Embeddings không chỉ là một khái niệm phức tạp trong AI mà còn là một công cụ mạnh mẽ có thể ứng dụng trong nhiều lĩnh vực khác nhau.
Độc giả được khuyến khích tìm hiểu thêm về các mô hình embeddings, cách chúng hoạt động và cách áp dụng chúng vào các dự án thực tế của mình.
Hãy bắt đầu từ những bước đơn giản như sử dụng các mô hình có sẵn như Word2Vec hay BERT, và dần dần khám phá các ứng dụng nâng cao hơn.
Thế giới AI đang chờ đón những ý tưởng sáng tạo và ứng dụng đột phá từ bạn, và embeddings sẽ là công cụ đắc lực giúp bạn thực hiện điều đó.

Kết luận, embeddings đã và đang thay đổi cách AI hiểu và tương tác với ngôn ngữ. Với những tiến bộ không ngừng trong nghiên cứu và ứng dụng, chúng ta có thể kỳ vọng rằng embeddings sẽ tiếp tục đóng vai trò quan trọng trong việc phát triển các hệ thống AI thông minh và hiệu quả hơn trong tương lai. Hãy nắm bắt cơ hội này và khám phá tiềm năng vô hạn của embeddings trong các dự án của bạn.

Phụ Lục (nếu cần)

Các nguồn tài liệu tham khảo

Nghiên cứu và bài viết:
- Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). "Efficient Estimation of Word Representations in Vector Space." arXiv preprint arXiv:1301.3781.
- Pennington, J., Socher, R., & Manning, C. (2014). "GloVe: Global Vectors for Word Representation." Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532-1543.
- Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." arXiv preprint arXiv:1810.04805.
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). "Language Models are Unsupervised Multitask Learners." OpenAI Blog.
Sách tham khảo:
- Goldberg, Y. (2017). "Neural Network Methods for Natural Language Processing." Synthesis Lectures on Human Language Technologies.
- Jurafsky, D., & Martin, J. H. (2021). "Speech and Language Processing." 3rd Edition. Pearson.

Thuật ngữ và Định nghĩa

Embeddings: Các vector số biểu diễn ngữ nghĩa của từ ngữ hoặc văn bản trong không gian đa chiều, giúp AI hiểu và xử lý ngôn ngữ tự nhiên.
Token hóa (Tokenization): Quá trình chia nhỏ văn bản thành các đơn vị nhỏ hơn như từ hoặc cụm từ.
Bag-of-Words (BoW): Phương pháp biểu diễn văn bản bằng cách đếm số lần xuất hiện của các từ, không quan tâm đến ngữ cảnh và trật tự của từ.
TF-IDF (Term Frequency-Inverse Document Frequency): Phương pháp cải tiến BoW, xem xét tần suất của từ trong một văn bản cụ thể và trong toàn bộ tập dữ liệu để biểu diễn văn bản.
Word2Vec: Mô hình học sâu tiên phong trong việc tạo embeddings, sử dụng các kiến trúc Continuous Bag of Words (CBOW) và Skip-Gram để học các vector từ dữ liệu văn bản lớn.
GloVe (Global Vectors for Word Representation): Mô hình embeddings sử dụng ma trận đồng xuất hiện (co-occurrence matrix) để học các vector biểu diễn từ ngữ.
FastText: Mở rộng của Word2Vec, biểu diễn không chỉ các từ mà còn các đoạn của từ (subword), giúp cải thiện việc biểu diễn các từ mới hoặc từ hiếm.
BERT (Bidirectional Encoder Representations from Transformers): Mô hình học sâu sử dụng kiến trúc transformer để học các embeddings từ cả hai chiều của ngữ cảnh (trước và sau từ cần dự đoán).
GPT (Generative Pre-trained Transformer): Mô hình học sâu sử dụng kiến trúc transformer một chiều để học các embeddings dựa trên chuỗi từ trước đó, nổi bật trong việc tạo ra văn bản tự nhiên và mạch lạc.
Transformer: Kiến trúc mô hình học sâu được sử dụng trong nhiều mô hình NLP hiện đại, giúp cải thiện khả năng hiểu và tạo ngôn ngữ tự nhiên.