Mô hình hoá dữ liệu: Data Warehouse Modeling
Data Warehouse Modeling là quá trình thiết kế các lược đồ thông tin chi tiết và tóm tắt của kho dữ liệu. Mục tiêu của Data Warehouse Modeling là phát triển một lược đồ mô tả thực tế, hoặc ít nhất là một phần của thực tế, mà kho dữ liệu cần hỗ trợ.
Data Warehouse Modeling là một giai đoạn thiết yếu của việc xây dựng một kho dữ liệu vì hai lý do chính. Thứ nhất, thông qua lược đồ, khách hàng của kho dữ liệu có thể hình dung mối quan hệ giữa các dữ liệu kho để sử dụng chúng một cách dễ dàng hơn. Thứ hai, một lược đồ được thiết kế tốt cho phép xuất hiện cấu trúc kho dữ liệu hiệu quả, giúp giảm chi phí triển khai kho và nâng cao hiệu quả sử dụng.
Mô hình hóa dữ liệu trong kho dữ liệu khác với mô hình hóa dữ liệu trong các hệ thống cơ sở dữ liệu hoạt động. Chức năng chính của kho dữ liệu là hỗ trợ các quy trình DSS. Do đó, mục tiêu của Data Warehouse Modeling là làm cho kho dữ liệu hỗ trợ hiệu quả các truy vấn phức tạp về thông tin dài hạn.
Ngược lại, mô hình hóa dữ liệu trong các hệ thống cơ sở dữ liệu hoạt động nhắm mục tiêu hỗ trợ hiệu quả các giao dịch đơn giản trong cơ sở dữ liệu như truy xuất, chèn, xóa và thay đổi dữ liệu. Hơn nữa, kho dữ liệu được thiết kế cho khách hàng có kiến thức thông tin chung về doanh nghiệp, trong khi hệ thống cơ sở dữ liệu hoạt động được các chuyên gia phần mềm hướng tới sử dụng nhiều hơn để tạo ra các ứng dụng riêng biệt.
Data Warehouse Modeling được minh họa trong sơ đồ đã cho. Bản thân dữ liệu trong kho cụ thể có một kiến trúc cụ thể với sự nhấn mạnh vào các cấp độ tổng hợp khác nhau, như thể hiện trong hình: Bản ghi chi tiết hiện tại có tầm quan trọng trung tâm vì nó:
- Phản ánh những diễn biến hiện tại nhất, thường là kích thích nhất.
- Nó rất nhiều vì nó được lưu ở phương pháp thấp nhất của Mức độ chi tiết.
- Nó luôn (gần như) được lưu trên ổ lưu trữ, truy cập nhanh nhưng tốn kém và khó quản lý. Older detail data được lưu trữ trong một số hình thức lưu trữ hàng loạt và nó không thường xuyên được truy cập và lưu giữ ở mức độ chi tiết phù hợp với dữ liệu chi tiết hiện tại.
Lightly summarized data là dữ liệu trích xuất từ mức độ chi tiết thấp được tìm thấy ở mức độ chi tiết, hiện tại và thường được lưu trữ trên ổ lưu trữ. Khi xây dựng kho dữ liệu phải nhớ đơn vị thời gian được thực hiện qua quá trình tóm tắt cũng như các thành phần hoặc thuộc tính nào mà dữ liệu tóm tắt sẽ chứa.
Highly summarized data là dữ liệu nhỏ gọn và có sẵn trực tiếp và thậm chí có thể được tìm thấy bên ngoài nhà kho.
Metadata là phần tử cuối cùng của kho dữ liệu và thực sự có nhiều kích thước khác nhau, trong đó nó không giống như tệp được rút ra từ dữ liệu hoạt động, nhưng nó được sử dụng như:
- Một thư mục để giúp điều tra viên DSS xác định vị trí các mục của kho dữ liệu.
- Hướng dẫn ánh xạ bản ghi khi dữ liệu được thay đổi từ dữ liệu hoạt động sang môi trường kho dữ liệu.
- Hướng dẫn về phương pháp được sử dụng để tóm tắt giữa dữ liệu hiện tại, chính xác và thông tin tóm tắt nhẹ và dữ liệu được tóm tắt cao, v.v. Tóm tắt nội dung
Vòng đời của Data Modeling
Trong phần này, chúng tôi xác định vòng đời của mô hình dữ liệu. Đây là một quá trình chuyển tiếp thẳng thắn về việc chuyển đổi các yêu cầu nghiệp vụ để hoàn thành các mục tiêu về lưu trữ, duy trì và truy cập dữ liệu trong các hệ thống CNTT. Kết quả là một mô hình dữ liệu logic và vật lý cho kho dữ liệu doanh nghiệp.
Mục tiêu của vòng đời mô hình hóa dữ liệu chủ yếu là tạo ra một khu vực lưu trữ thông tin kinh doanh. Khu vực đó đến từ các giai đoạn mô hình hóa dữ liệu logic và vật lý, như thể hiện trong Hình:
Conceptual Data Model
Mô hình dữ liệu khái niệm ghi nhận các mối quan hệ cấp cao nhất giữa các thực thể khác nhau.
Đặc điểm của mô hình dữ liệu khái niệm
- Nó chứa các thực thể thiết yếu và các mối quan hệ giữa chúng.
- Không có thuộc tính nào được chỉ định.
- Không có khóa chính nào được chỉ định. Chúng ta có thể thấy rằng dữ liệu duy nhất được hiển thị qua mô hình dữ liệu khái niệm là các thực thể xác định dữ liệu và mối quan hệ giữa các thực thể đó. Không có dữ liệu nào khác, như được hiển thị thông qua mô hình dữ liệu khái niệm.
Logical Data Model
Logical Data Model xác định thông tin theo cấu trúc mà không cần quan tâm về mặt vật lý trong cơ sở dữ liệu. Mục tiêu chính của mô hình dữ liệu lôgic là ghi lại cấu trúc dữ liệu kinh doanh, quy trình, quy tắc và mối quan hệ bằng một chế độ xem duy nhất
Các loại Data Warehouse Modeling
Enterprise Warehouse Kho Doanh nghiệp thu thập tất cả các hồ sơ về các chủ thể trong toàn bộ tổ chức. Nó hỗ trợ tích hợp dữ liệu toàn công ty, thường từ một hoặc nhiều hệ thống hoạt động hoặc nhà cung cấp dữ liệu bên ngoài và nó có chức năng chéo trong phạm vi. Nó thường chứa thông tin chi tiết cũng như thông tin tóm tắt và có thể ước tính từ vài gigabyte đến hàng trăm gigabyte, terabyte hoặc hơn thế nữa.
Một kho dữ liệu doanh nghiệp có thể được thực hiện trên các máy tính lớn truyền thống, các siêu máy chủ UNIX hoặc các nền tảng kiến trúc song song. Nó yêu cầu mô hình kinh doanh rộng rãi và có thể mất nhiều năm để phát triển và xây dựng.
Data Mart
Kho dữ liệu bao gồm một tập hợp con dữ liệu trong toàn công ty có giá trị đối với một tập hợp người dùng cụ thể. Phạm vi được giới hạn cho các đối tượng được chọn cụ thể. Ví dụ: siêu thị dữ liệu tiếp thị có thể hạn chế đối tượng của mình đối với khách hàng, các mặt hàng và doanh số bán hàng. Dữ liệu có trong các data mart có xu hướng được tóm tắt.
Data Marts được chia thành hai phần:
Data Mart độc lập: Data mart độc lập được lấy từ dữ liệu được thu thập từ một hoặc nhiều hệ thống hoạt động hoặc nhà cung cấp dữ liệu bên ngoài, hoặc dữ liệu nói chung cục bộ trong một bộ phận hoặc khu vực địa lý khác nhau.
Data Mart phụ thuộc: Các kho dữ liệu phụ thuộc được lấy chính xác từ kho dữ liệu của doanh nghiệp.
Virtual Warehouses
Kho dữ liệu ảo là một tập hợp các nhận thức về cơ sở dữ liệu hoạt động. Để xử lý truy vấn hiệu quả, chỉ một số tầm nhìn tóm tắt khả thi có thể được hiện thực hóa. Một kho ảo rất đơn giản để xây dựng nhưng cần có dung lượng dư thừa trên các máy chủ cơ sở dữ liệu đang hoạt động.
Cảm ơn mọi người đã dành thời gian để đọc bài viết. Hẹn gặp mọi người trong những bài viết tiếp theo!
Tham khảo thông tin KHÓA HỌC “PHÂN TÍCH DỮ LIỆU KINH DOANH” – ONLINE/OFFLINE tại https://indaacademy.vn/
Học viện đào tạo INDA là đơn vị dẫn đầu mảng Đào tạo kĩ năng Phân tích dữ liệu kinh doanh tại Việt Nam. Các khóa học Phân tích dữ liệu kinh doanh tại INDA sẽ được khai giảng định kỳ hàng tháng, mỗi lớp học thu hút +100 anh/chị học viên – là trung tâm đào tạo Phân tích dữ liệu kinh doanh duy nhất tại Việt Nam thu hút được đông đảo học viên mỗi lớp như vậy, đã mở 34 khóa học Public trên thị trường và là đối tác đào tạo phân tích dữ liệu cho các doanh nghiệp lớn tại Việt Nam.
All rights reserved