Tổng Quan Về Business Intelligent (BI)
Bài đăng này đã không được cập nhật trong 3 năm
BI là một qui trình có tích hợp công nghệ mà các doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ đến từ nhiều nguồn khác nhau và khai thác nguồn dữ liệu đó giúp cho họ có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình. BI có mặt ở khắp các doanh nghiệp như hệ thống siêu thị, ngân hàng, viễn thông,… đó đều là những nơi cần thu thập, xử lý khối lượng dữ liệu cực lớn. Do đó BI có tính ứng dụng rất cao khi nguồn dữ liệu của doanh nghiệp sẽ lớn dần theo thời gian hoạt động. Hiện nay BI vẫn còn là một thuật ngữ khá mới ở Việt Nam, nhưng trên thế giới BI đã được ứng dụng rất nhiều vào doanh nghiệp.Vậy mình sẽ cùng tìm hiểu 1 giải pháp BI cho doanh nghiệp gồm những gì và cách hoạt động như thế nào nhé.
BI chủ yếu gồm các thành phần chính như sau :
Data Sources:
- Là cơ sở dữ liệu thô (thường là cơ sở dữ liệu quan hệ) đến từ nhiều nguồn khác nhau như các ứng dụng business như Human Resource Management (HRM), Customer relationship management (CRM), phần mềm bán hàng, website thương mại điện tử…
- Có thể là bất cứ hệ quản trị cơ sở dữ liệu nào như MySQL, Oracle, MSSQL, DB2, …
- Thường được thiết kế theo mô hình cơ sở dữ liệu quan hệ ( vì dạng mô hình này đang rất phổ biến trong thực tế )
Data Warehouse:
- Là cơ sở dữ liệu được thiết kế theo mô hình khác với CSDL quan hệ và là nơi lưu trữ dữ liệu lâu dài của tổ chức
- Dữ liệu của DW chỉ có thể đọc, ko ghi hay update được và chỉ được update bởi gói ETL chuyển đổi dữ liệu từ Data Sources vào Data Warehouse. Mình sẽ bàn kỹ hơn về Data Warehouse ở phần tiếp theo.
Integrating Server:
- Chịu trách nhiệm trung gian vận hành gói ETL để chuyển đổi dữ liệu từ Data Sources vào Data Warehouse.
Analysis Server:
- Chịu trách nhiệm thực thi các Cube được thiết kế dựa trên các Dimension dữ liệu và tri thức nghiệp vụ
- Cube chịu trách nhiệm nhận input data từ DW và thực thi theo nghiệp vụ định nghĩa sẵn để trả về output.
Reporting Server:
- Thực thi các report với output nhận được từ Analysis Server.
- Nơi quản trị tập trung các report trên nền web, các report này có thể được attach vào ứng dụng web, hay application
Data Mining
- Là quá trình trích xuất thông tin dữ liệu đã qua xử lý (phù hợp với yêu cầu riêng của doanh nghiệp) từ Data Warehouse rồi kết hợp với các thuật toán để đưa ra ( hoặc dự đoán ) các quyết định có lợi cho việc kinh doanh của doanh nghiệp.
- Đây là một quá trình quan trọng trong BI, thông thường một doanh nghiệp muốn sử dụng giái pháp BI thường kèm theo về Data Mining.
Data Presentation
- Tạo ra các báo cáo, biểu đồ từ quá trình data mining để phục vụ cho nhu cầu của người dùng cuối.
Sau đây mình sẽ nói rõ hơn về Data Warehouse – 1 phần gần như không thể thiếu của 1 giải pháp BI.
Data Warehouse Data warehouse nói nôm na như một nơi lưu trữ dữ liệu khổng lồ của doanh nghiệp nhằm phục vụ cho yêu cầu về sau này. Một data warehouse thường có các tính chất sau :
Hướng đối tượng Thường dữ liệu trong data warehouse sẽ được phân tích theo từng đối tựơng cụ thể, ví dụ như khách hàng hoặc là sản phẩm,…
Tổng hợp dữ liệu Như chúng ta đã biết, dữ liệu vào data warehouse có thể đến từ nhiều nguồn khác nhau, mỗi nguồn có cách định nghĩa dữ liệu khác nhau nhưnh khi đưa vào Data Warehouse, chúng sẽ đựơc chuẩn hoá theo thiết kế riêng của từng DW thông qua giai đoạn ETL. Khi đó mọi nguồn dữ liệu sẽ được tổng hợp lại thành một nguồn thống nhất .
Lưu trữ lâu dài Dữ liệu trong data warehouse được lưu trữ trường kỳ theo một thời gian dài cho dù nó đã được thay đổi. Một hệ thống dữ liệu bình thường chỉ lưu trữ dữ liệu gần nhất của một trường nào đó, ví dụ như địa chỉ của 1 khách hàng, khi thay đổi nó, địa chỉ cũ vẫn được giữ lại thông qua các phương pháp Slowly Changing Dimensions ( sẽ được bàn kỹ vào các bài blog tiếp theo )
Bất biến theo thời gian Một khi dữ liệu đựơc đưa vào DW, nó chỉ đựơc thay đổi thông qua gói ETL ( nhưng dữ liệu cũ vẫn được giữ lại).
Kiến trúc của một Data Warehouse thông thường
Data Source Layer (Lớp dữ liệu nguồn) Dữ liệu vào DW có thể đến từ nhiều nguồn khác nhau và dưới các định dạng khác nhau như đơn thuần một file text, cơ sở dữ liệu quan hệ, file Excel… hoặc dữ liệu từ doanh nghiệp như dữ liệu về sản phẩm, thông tin lưu trữ về việc lướt web của ngừơi dùng lưu trên web server …
Data Extraction Layer Đảm nhận việc trích dữ liệu từ nguồn để đưa vào hệ thống DW.
Staging Area Đây là nơi mà dữ liệu sẽ được loại bỏ các trường dữ liệu thừa theo chuẩn của từng DW và chuỷên vào DW hoặc Data mart.
ETL Layer Lớp này có nhiệm vụ thêm sự logic vào dữ liệu ( thường do yêu cầu riêng của doanh nghiệp ) .
Data Storage Layer Đây là nơi mà dữ liệu sau khi đã được lược bỏ và chuẩn hóa sẽ được lưu trữ.
Data Logic Layer Các quy luật riêng của doanh nghiệp sẽ đươc lưu vào đây. Chúng không ảnh hưởng tới dữ liệu lưu trong DW nhưng sẽ tác động tới các dạng như báo cáo sau này.
Data Presentation Layer Lớp này đảm nhận việc “xuất” các thông tin hữu ích cho người dùng như bảng hoặc báo cáo đồ họa theo yêu cầu của doanh nghiệp trên web, dạng email báo cáo tự dộng tạo và gửi đi định kỳ hoặc …
Metadata Layer Đây sẽ lưu trữ các thông tin về dữ liệu trong DW.
System Operations Layer Lưu lại thông tin về quá trình hoạt động của hệ thống DW như tình trạng của tiến trình ETL, năng suất của hệ thống và lưu lại lịch sử truy xuất của các user.
All rights reserved