BIG DATA - Introduction to BIG DATA about Types, Characteristics & Benefits

061114_0759_WhatIsBigDa1.jpg

Overview

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường.

Trong bài này tôi sẽ giới thiệu các chủ đề:

  • Examples Of 'Big Data'
  • Categories Of 'Big Data'
  • Characteristics Of 'Big Data'
  • Advantages Of Big Data Processing

Ở bài tiếp theo chúng ta sẽ cùng đi tìm hiểu cụ thể về Hadoop, một công cụ lưu trữ big data free khá hiệu quả! BIG DATA - Hadoop setup and attributes

Example of Big Data

Tôi xin lấy 3 ví dụ cụ thể để chúng ta thấy được việc triển khai và sự hữu dụng Big Data trong cuộc sống của chúng ta.

Amazon.com

Nhà bán lẻ online Amazon.com luôn phải xử lí hàng triệu hoạt động mỗi ngày. Các hoạt động này luôn được lưu trữ lại trong hệ thống dữ liệu của họ. Với hệ điều hành Linux mà Amazon.com sử dụng hồi năm 2005, họ đã lưu trữ đến 51TB dữ liệu.

amazon-logo2-1920.png

Soicial Media Impact

Ở đây tôi nói đến Facebook, ắt hẳn hệ thống social networking này đã qúa quen thuộc với chúng ta. Hằng ngày, bạn vẫn thường post bài, post ảnh, post comment vvv... bạn không thể kiểm soát được các hành động của mình đã làm gì trong ngày. Nhưng Facebook lại làm được và nó còn quản lý rất tốt, không chỉ có mình bạn mà còn đang có đến hàng tỉ người như bạn, và Facebook vẫn quản lý rất là ngon. Thống kê cho thấy Facebook đang có hệ thống dữ liệu rất là lớn lên đến trăm tỷ TB.

061114_0759_WhatIsBigDa3.jpg

Stock Exchange

Phân tích tâm lý thị trường chứng khoán sử dụng Google Trends đã chỉ ra được tương quan tốt cho những tăng giảm chỉ mục theo thời gian, mà có lẽ không đáng ngạc nhiên nhưng những thú vị về tính trọng đại như một ứng dụng dữ liệu lớn.

Bài viết "Quantifying Trading Behavior in Financial Markets Using Google Trends (Dự đoán xu hướng thương mại trong thị trường tài chính sử dụng Google Trends)" (xem phần Tài nguyên) cung cấp bằng chứng rằng việc sử dụng phân tích tâm lý để kéo dài hay rút ngắn quyết định mua và bán cổ phiếu nắm giữ có thể tốt hơn việc mua và nắm giữ những chiến lược đơn giản và quỹ đầu tư index.

Nghiên cứu này có thể được phân tích chi tiết hơn nhưng những kết quả của nó cũng khá thuyết phục. Một nghiên cứu thú vị dự đoán những khả năng xảy ra của một hệ thống cho một lĩnh vực hình thức kinh doanh thực tế.

061114_0759_WhatIsBigDa2.jpg

Categorires of Big Data

Big Data có ba hình thức:

  • Structured - Có cấu trúc
  • Unstructured - Không có cấu trúc
  • Semi-structured - Bán cấu trúc

Structured

Bất kỳ dữ liệu có thể được lưu trữ, truy cập và xử lý theo hình thức cố định được gọi là một dữ liệu Structured. Thời gian trước đây trong lĩnh vực khoa học máy tính có thể kiểu cấu trúc thành công hơn trong một số loại dữ liệu Trong thời gian trước đây, thành công trong lĩnh vực khoa học máy tính phát triển kỹ thuật định dạng dữ liệu ở dạng hiệu quả cho việc khai thác. Tuy nhiên ngày nay chúng ta có thể nhìn thấy kích thước dữ liệu cần quản lý ngày càng tăng nhanh và có kích thước khổng lồ tới hàng zettabyte.

Bạn có biết? 10^21 bytes bằng với 1 zettabyte hay 1 tỉ terabytes bằng với 1 zettabyte.

Bạn có biết? Dữ liệu được lưu trữ trong một hệ thống quản lý cơ sở dữ liệu quan hệ là kiểu dữ liệu Structured.

Ví dụ của dữ liệu Structured Một bảng Employee trong cơ sở dữ liệu là một kiểu dữ liệu Structured

|_. ID|_. Name |_. Gender |_. Department |_. Salary |
| 2365 | Rajesh Kulkarni | Male | Client | 650000 |
| 3398 | Pratibha Joshi | Female | 	Admin | 650000 |
| 7465 | Shushil Roy  | Male | 	Admin | 500000 |
| 7500 | Shubhojit Das  | Male | 	Admin | 500000 |
| 7699 | Priya Sane | Female | Client | 500000 |

Unstructured

Mọi dữ liệu không có khuôn mẫu hoặc cấu trúc là kiểu dữ liệu không cấu trúc. Hơn nữa khi kích thước trở lên khổng lồ dữ liệu không cấu trúc đặt ra những thách thức trong việc xử lý và nhận được giá trị từ nó. Ví dụ về dữ liệu không cấu trúc như sau, sự hỗn tạp về nguồn dữ liệu bao gồm kết nối của các file text đơn giản, ảnh, video, ….

Ngày nay các tổ chức nắm trong tay một lượng dữ liệu lớn có giá trị nhưng rất không may, họ không biết cách nào để khai thác được nó do các dữ liệu này vẫn ở dạng thô, phần lớn không có cấu trúc, hoặc định dạng nào.

Ví dụ của dữ liệu Unstructured

Đầu ra trả về bởi tìm kiếm trên Google

061114_0759_WhatIsBigDa5.png

Semi-structured

Kiểu nửa cấu trúc có thể bao gồm cả các forms dữ liệu. Chúng ta có thể thấy dữ liệu bán cấu trúc như một mẫu nhưng nó không được định nghĩa với bảng với mối quan hệ như hệ quản trị quan hệ dữ liệu quan hệ DBMS. Ví dụ của dụ của dữ liệu bán cấu trúc là dữ liệu được thể hiện trong file XML.

Ví dụ của dữ liệu bán cấu trúc

Thông tin lưu trưc trong file XML

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

Dữ liệu luôn tăng trưởng qua các năm

061114_0759_WhatIsBigDa6.png

Để ý dữ liệu ứng dụng web không được cấu trúc gồm các file log, file lưu trữ lịch sử giao dịch, ….

Hệ thống OLTP được xây dựng để làm việc với dữ liệu cấu trúc nơi mà dữ liệu được lưu trữ dưới dạng quan hệ (các bảng).

Characteristics Of 'Big Data'

  • Volume – Khối lượng hoặc kích thước lớn. Chính cái tên của nó cũng đã nói lên điều này. Kích thước của dữ liệu quyết định chủ yếu vai trò xác định giá trị bên ngoài của dữ liệu. Hơn nữa, whether một dữ liệu đặc thù có thể cân nhắc là BigData hay không là dựa trên kích thước của nó. Do đó, Volume là một đặc điểm cần thiết để xác định BigData.

  • Variety – Đa dạng về trạng thái. Variety nói đến sự hỗn tạp các tài nguyên và trạng thái tự nhiên của dữ liệu cả cấu trúc và không cấu trúc. Trong thời gian trước đây, bảng tính và cơ sở dữ liệu là nguồn duy nhất của dữ liệu được coi như tất cả của các ứng dụng. Ngày nay, dữ liệu trong các mẫu emails, ảnh, video, thiết bị điều khiển, file PDF, audio, .. đang được cân nhắc trong các ứng dụng. Tính đa dạng của dữ liệu không cấu trúc là một vấn đè lớn trong lưu trữ, khái thác dữ liệu hieeuk quả.

  • Velocity - tốc độ tăng trưởng của dữ liệu. Dữ liệu tăng nhanh như thế nào và quá trình yêu gặp các yêu cầu, xác định tiềm năng của dữ liệu có thể khai thác. Big Data Velocity nói đến tốc độ dòng dữ liệu từ các nguồn như quán trình kinh doanh, hoạt động của ứng dụng, mạng và các phương tiện truyền thông, các cảm biến, các thiết bị di động, … Dòng dữ liệu to lớn và vẫn không ngừng.

  • Variability - Sự biến thiên của dữ liệu theo thời gian gấy khó khăn cho việc xử lý và quản lý dữ liệu hiệu quả.

Benefits of Big Data Processing

Khả năng xử lý Big Data mang lại nhiều hiệu quả như:

  • Doanh nghiệp có thể sử dụng kết hợp khi đưa ra quyết định sử dụng dữ liệu từ các mạng xã hội như Facebook, Twitter cho phép các tổ chức đưa ra chiến lược kinh doanh của mình

  • Cải thiện dịch vụ khách hàng. Hệ thống truyền thống nhận phản hồi của khách hàng đang dần được thay thế bởi hệ thống mới thiết kế với công nghệ Big Data. Trong những hệ thống này, công nghệ Big Data và công nghệ xử lý ngôn ngữ tự nhiên đang được sử dụng để phân tích phản ứng của người tiêu dùng.

  • Sớm xác định các rủi ro đối với các sản phẩm hoặc, nếu có dịch vụ

  • Hiệu quả hoạt động tốt hơn, công nghệ Big Data có thể được sử dụng để lưu trữ các dữ liệu mới trước khi chúng được đưa vào các kho chứa dữ liệu warehouse. Bên cạnh đó, sự kết hợp giữa công nghệ Big Data và data warehouse giúp cho các tổ chức thoát khỏi việc không khai thác hết giá trị của dữ liệu.

Summary

Như vậy tôi vừa giới thiệu về BIG DATA - Introduction to BIG DATA about Types, Characteristics & Benefits cho các bạn. Mong rằng qua bài này các bạn đã có 1 sự hiểu biết cơ bản về Big Data và các ứng dụng xung quoanh ta đang sử dụng Big Data rất hữu ích.

Các bạn có thể tham khảo Big data ở http://www.guru99.com/what-is-big-data.html

Bài tiếp theo tôi sẽ giới thiệu Hadoop - một công cụ lưu trữ big data free khá hiệu quả! BIG DATA - Hadoop setup and attributes