Kho dữ liệu và khai phá dữ liệu (tiếp)
Bài đăng này đã không được cập nhật trong 6 năm
2. Khai phá dữ liệu
a. Khai phá dữ liệu là gì? Động cơ của việc khai phá dữ liệu
Trong một vài thập kỉ trở lại đây, khả năng tạo sinh và lưu trữ dữ liệu của con người đã tăng lên cực kì nhanh chóng. Lượng dữ liệu khổng lồ được lưu trữ đã dẫn đến việc đòi hỏi cấp bách những kĩ thuật mới, những công cụ tự động thông minh trợ giúp cho con người trong việc chuyển đổi một lượng lớn dữ liệu thành những thông tin hữu ích và tri thức.
Khai phá dữ liệu là công việc trích rút tri thức một cách tự động và hiệu quả từ một khối lượng dữ liệu rất lớn. Tri thức đó thường ở dạng các mẫu có tính chất không tầm thường, không tường minh, chưa được biết đến và có tiềm năng mang lại lợi ích. Có một số nhà nghiên cứu còn gọi khai phá dữ liệu là phát hiện tri thức trong CSDL (Knowledge Discovery in Database KDD). Ở đây chúng ta sẽ xem khai phá dữ liệu là cốt lõi của quá trình phát hiện tri thức (như hình phía trên). Quá trình phát hiện tri thức bao gồm các bước:
- Làm sạch dữ liệu (data cleaning): ở bước này các nhiễu và dữ liệu không nhất quán sẽ được loại bỏ
- Tích hợp dữ liệu (data intergation): dữ liệu từ nhiều nguồn khác nhau có thể được tổ hợp lại
- Lựa chọn dữ liệu (data selection): những dữ liệu thích hợp với nhiệm vụ phân tích sẽ được trích rút ra từ CSDL
- Chuyển đổi dữ liệu (data tranform): dữ liệu sau khi được chọn lọc sẽ được chuyển đổi hay hợp nhất về dạng thích hợp cho việc khai phá
- Khai phá dữ liệu (data mining): đây là quá trình cốt lõi, tất yếu trong đó các phương pháp thông minh sẽ được áp dụng nhằm trích rút ra các mẫu dữ liệu
- Đánh giá mẫu (pattern evaluation): các nhà phân tích dữ liệu sẽ dựa trên một số độ đo nào đó để xác định lợi ích thực sự, độ quan trọng của các mẫu biểu diễn tri thức
- Biểu diễn tri thức (Knowledge presentation): ở giai đoạn này các kĩ thuật biểu diễn và hiển thị tri thức sẽ được sử dụng để đưa tri thức đã lấy ra đến người dùng
Việc khai phá dữ liệu có thể được tiến hành trên một lượng lớn dữ liệu có trong các CSDL, các kho dữ liệu hoặc trong các loại lưu trữ thông tin khác
Kiến trúc của một hệ thống khai phá dữ liệu điển hình được cho ở hình trên trong đó:
- CSDL, kho dữ liệu hoặc các thông tin lưu trữ khác (database, data warehouse, www, other info Repositories): đây là một hay một tập các CSDL, các kho dữ liệu, các trang tính hay các dạng khác của thông tin được lưu trữ. Các kĩ thuật làm sạch hoặc tích hợp dữ liệu có thể được thực hiện
- Máy chủ CSDL hay máy chủ kho dữ liệu (database or warehouse server): máy chủ này có nhiệm vụ lấy được những dữ liệu thích hợp dựa trên nhưng yêu cầu khai phá của người dùng
- Cơ sở tri thức (knowledge-base): đây là miền tri thức được dùng để tìm kiếm hay đánh giá độ quan trọng của các mầu kết quả. Tri thức này có thể bao gồm một sự phân cấp khái niệm dùng để tổ chức các thuộc tính hay các giá trị thuộc tính ở các mức trừu tượng khác nhau
- Máy khai phá dữ liệu (data-mining engine): một hệ thống khai phá dữ liệu cần phải có một tập các module chức năng để có thể thực hiện được công việc, chẳng hạn như đặc trưng hóa, kết hợp, phân lớp, phân cụm, phân tích sự tiến hóa hoặc sự chệch hướng
- Module đánh giá mẫu (pattern evaluation): bộ phận này tương tác với các module khai phá dữ liệu để tập trung vào việc duyệt tìm các mẫu đáng tin cậy. Nó có thể dùng các ngưỡng về độ quan tâm để lọc các mẫu đã khám phá được
- Giao diện người dùng (Graphical user interface): bộ phận này cho phép người dùng giao tiếp với hệ thống khai phá dữ liệu. Thông qua giao diện này người dùng tương tác với hệ thống bằng cách đặc tả một yêu cầu khai phá hay một nhiệm vụ, cung cấp thông tin giúp cho việc tìm kiếm và thực hiện khai phá đánh giá trên các kết quả khai phá trung gian. Ngoài ra bộ phận này còn cho phép người dùng có thể xem được các lược đồ CSDL, lược đồ kho dữ liệu hay các cấu trúc dữ liệu, các đánh giá mẫu và hiển thị chúng trong các khuôn dạng mẫu khác nhau
b. Các chức năng của khai phá dữ liệu:
Nhìn chung các nhiệm vụ của một hệ khai phá dữ liệu có thể được phân chia thành hai loại: mô tả và dự đoán.
- Công việc khái phá dữ liệu loại mô tả nhắm biểu thị các đặc điểm chung của dữ liệu có trong CSDL.
- Công việc khai phá dữ liệu loại dự đoán nhằm thực hiện suy luận trên dữ liệu hiện tại để có thể đưa ra dự đoán
(còn tiếp)
All rights reserved