+6

Tìm hiểu về Semantic Annotation - Phần 1: Semantic Web - Web ngữ nghĩa

Semantic Annotation là một thuật ngữ đã tồn tại từ lâu, nhưng hiện nay khá người biết về nó, vậy hôm nay chúng ta thử tìm hiểu xem nó là gì? và lợi ích của công nghệ này mang lại nhé ! Bài đầu tiên trong Seri này mình sẽ nói về Semantic Web, còn được mô tả là thế hệ Web 2.0 😄

1. Semantic Web là gì ?

Có thể bạn sẽ ngạc nghiên, sao lại đang nói về Semantic Annotation mà lại độp phát nói về một khái niệm nghe vừa lạ vừa quen như thế này ? Trước khi nói về cái khái niệm kia, mình muốn nói về tác dụng lớn nhất mà Semantic Annotation mang lại, điều mà những năm trở lại đây, Google đang hiện thực hóa nó.

Vậy Semantic Web là gì ? Theo Wikipedia:

The Semantic Web is an extension of the World Wide Web through standards by the World Wide Web Consortium (W3C).The standards promote common data formats and exchange protocols on the Web, most fundamentally the Resource Description Framework (RDF). According to the W3C, "The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries". The Semantic Web is therefore regarded as an integrator across different content, information applications and systems. Tiếng việt dịch ra là là Web ngữ nghĩa.Đây là một dự án mã nguồn mở trên lĩnh vực website được khởi xướng từ tổ chức W3C. Semantic Web định nghĩa các chuẩn dữ liệu chung trên World Wide Web. Semantic Web hướng việc chuyển đổi các web hiện tại từ các văn bản không có cấu trúc hoặc bán cấu trúc thành dữ liệu có ngữ nghĩa.

Để dễ hiểu mình sẽ cắt nghĩa cho các bạn như sau: Semantic Web là :

1- Được xây dựng bởi W3C, xây dựng trên cơ sở World Wide Web.

2- Semantic Web định nghĩa các chuẩn dữ liệu chung trên World Wide Web.

3- Chuyển đổi các web hiện tại từ các văn bản không có cấu trúc hoặc bán cấu trúc thành dữ liệu có ngữ nghĩa.

Quan trọng nhất của Semantic Web là chuyển Web hiện tại thành web cấu trúc dữ liệu có ngữ nghĩa. Semantic Web là một mạng lưới các thông tin được liên kết sao cho chúng có thể được xử lý dễ dàng bởi các máy tính ở phạm vi toàn cầu. Nó được xem là cách mô tả thông tin rất hiệu quả trên World Wide Web, và cũng được xem là một cơ sở dữ liệu có khả năng liên kết toàn cầu. Semantic Web là một phương pháp cho phép định nghĩa và liên kết dữ liệu một cách có ngữ nghĩa hơn nhằm phục vụ cho máy tính có thể “hiểu” được.

Hơi khó hiểu rồi nhỉ, vậy ta đi qua một ví dụ nha!

2. Ví dụ về Semantic Web

Bạn đã bao giờ tìm kiếm trên google một câu hỏi, mà google hiểu sai ý câu hỏi của bạn chưa ?

Ví dụ như ở trên, bạn hỏi rằng "Sân vận động Mỹ đình mở cửa mấy giờ ?" mà kết quả thì chả trả về một câu trả lời liên quan nào cả. Vậy lý do ở đây là gì ? Lý do là hiện tại hầu hết các Search Engine hiện tại đang tìm kiếm theo KeyWord và nội dung trên các nền tảng Web hiện tại chủ yếu vẫn là dữ liệu phi cấu trúc, vậy nên nó chỉ bắt theo từ và hoàn toàn không hiểu ý nghĩa câu hỏi và ý nghĩa của nội dung được đăng lên Internet.

Vậy bây giờ ta cùng xem sức mạnh của Semantic Web nhé:

Khi bắt đầu với câu hỏi: "Messi là ai ?", chẳng cần đầy đủ là Lionel Messi, mà google đã trả về đúng kết quả mà ta cần tìm, hiển thị ngay ở ngoài tìm kiếm, mà chẳng cần click vào nguồn dữ liệu(Để ý bạn sẽ thấy dữ liệu này là của Wikipedia). Chắc hẳn bạn đã thấy việc này rồi đúng không ? Thời gian gần đây, khi hỏi về thời tiết, ngày giờ, google đã trả về kết quả trực tiếp mà không cần nguồn nữa. Khác biệt ở đây chính là dữ liệu đã được "ngữ nghĩa hóa" ! . Việc ngữ nghĩa hóa này cần thực hiển ở 2 phía: Một là bên Search Engine (Tiêu biểu là Google) phải áp dụng công cụ tìm kiếm ngữ nghĩa, Cái thứ 2 (Quan trọng hơn) là Website mang thông tin phải được mô hình hóa thành dữ liệu ngữ nghĩa. Tiêu biểu hiện nay là Wikipedia đã chuyển toàn bộ dữ liệu của mình thành dữ liệu ngữ nghĩa.

Một ví dụ khác:

Với câu hỏi "what games can you play on ps4?" , Câu trả lời được hiển thị rất dễ dàng nhờ đã trực quan hóa dữ liệu 😄 So với trước đây, chắc ta phải cần một thời gian kha khá để tổng hợp thông tin như thế này nhỉ 😆😆😆

3. Lợi ích của Semantic Web

1. Máy tính có thể hiểu được thông tin trên Web

Thời đại hiện nay là thời đại của thông tin, ai có được nhiều thông tin hơn, người đó sẽ giành chiến thắng. Thế nhưng nếu cho bạn một cục dữ liệu được mã hóa, mà bạn không hiểu được, thì dữ liệu đó cũng không có ý nghĩa gì. Internet hiện tại đang là một mớ hỗn độn như thế. Hàng ngày, một lượng lớn thông tin được đưa lên Internet, thế nhưng lượng lớn dữ liệu đó chỉ con người có thể hiểu được, còn máy tính thì không hiểu được. Vậy nên lượng lớn dữ liễu này sẽ dần "outdate" và vô giá trị. Semantic Web có thể giải quyết vấn đề trên, bằng cách mô tả dữ liệu thành ngữ nghĩa. Lúc này, cả người và máy có thể hiểu được. Người dùng tin sẽ vẫn có thông tin trình bày theo cách trước đây, nhưng đối với máy tính, Semantic Web sẽ làm cho máy hiểu được nghĩa và tìm ra thông tin chính xác hơn Web hiện hành. Bây giờ, máy không phải suy luận dựa vào ngữ pháp và các ngôn ngữ đánh dấu (Markup Language) nữa vì cấu trúc ngữ nghĩa của văn bản (text) thực sự đã chứa nó rồi.

Điều này sẽ mang lại lợi ích cực lớn cho các công nghệ tương lai như BigData, machine learning, IoT...

2. Hỗ trợ tìm kiếm

Như đã mô tả ở mục Ví dụ về Semantic, một trong những lợi ích của Semantic Web mang lại là khả năng tìm kiếm vượt trội. Tại sao lại thế? Bởi Semantic Web sẽ tìm kiếm theo ngữ cảnh và ngữ nghĩa- Điều mà Con người cũng đang thực hiện để hiểu và trả lời câu hỏi thường ngày !!!

Không chỉ mang sức mạnh có thể suy diễn theo ngữ nghĩa, Semantic còn có khả năng liên kết dữ liệu, thứ mang lại kết quả tìm kiếm nhanh chóng và chính xác hơn nhiều lần ! Với Semantic Web, chúng ta không những nhận được những thông tin chính xác hơn khi tìm kiếm thông tin từ máy tính, mà máy tính còn có thể tích hợp thông tin từ nhiều nguồn khác nhau, biết so sánh các thông tin với nhau.

3. Mở ra khả năng xây dựng thư viện ngữ nghĩa khổng lồ

Thư viện số hiện tại đang gặp phải rất nhiều vấn đề, một trong những vấn đề đó là vấn đề muôn thủa: Dữ liệu không có cấu trúc, dẫn đến rất khó tổng hợp và phân tích thông tin. Điều này dẫn đến con người vẫn phải can thiệp khá nhiều vào các công việc liên quan. Áp dụng công nghệ semantic web chúng ta có thể nghiên cứu và phát triển hệ thống thư viện số có thể thực hiện xử lý, lưu trữ, tìm kiếm và phân tích tất cả các kiểu thông tin số. Công nghệ ngữ nghĩa cho phép miêu tả đối tượng, thiết lập các lược đồ cần thiết trong các dạng của ontologies cho các định danh của các đối tượng số. Mục tiêu chính là làm cho thao tác giữa các phần có thể xử lý thông minh, nhất quán, mạch lạc tương tự các lớp của đối tượng số và các dịch vụ. ontologies là gì thì mình sẽ đề cập trong phần tiếp theo của Seri này Một trong những ứng dụng quan trọng nữa chúng ta có thể thấy hệ thống dữ liệu của thư viện số rất lớn và đa dạng nó thường phục vụ cho nhiều tổ chức, cá nhân vào nhiều mục đích khác nhau, trong khi đó dữ liệu chủ yếu thuộc vào hai dạng là dữ liệu có cấu trúc (trong database) và dữ liệu phi cấu trúc (các nguồn lấy từ web). Một vấn đề dăt ra là làm thế nào để các ứng dụng sử dụng được đồng thời cả hai loại dữ liệu này, bởi vì trên thưc tế mỗi ứng dụng chỉ sử dụng một loại dữ liệu có cấu trúc hoặc phi cấu trúc. Chúng ta có chuẩn chung phục vụ cho hầu hết các loại ứng dụng đó là sử dụng XML (Extensible Markup Laguage), nó được xem là nền tảng công nghệ của semantic web. Nó sẽ là cầu nối thực hiện chuẩn hoá các nguồn dữ liệu, từ đó có thể phục vụ cho mọi loại ứng dụng.

4. Tạm Kết

Trong bài viết này mình đã chia sẻ về khái niệm,lợi ích cũng như ứng dụng của Semantic Web. Trong bài viết với mình sẽ nói kỹ hơn về kiến trúc Semantic Web và các công nghệ sử dụng trong Semantic Web, mà cơ sở là Semantic Annotation. Nếu có điều gì thắc mắc, hãy đặt câu hỏi cho mình nhé !


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí