Big Data - Thách thức và Cơ hội

bigdata-knows-everything.jpg

1. Big Data là gì?

Big data là thuật ngữ để biểu diễn tập dữ liệu lớn, phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Bao gồm các thách thức phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan hóa, truy vấn và tính riêng tư. Thuật ngữ "big data" thường dùng để chỉ việc sử dụng để phân tích dự đoán, phân tích hành vi người dùng, hoặc các phương thức phân tích dữ liệu nâng cao khác nhằm trích xuất giá trị từ dữ liệu.

2. Big Data đến từ đâu?

Trong thị trường quốc tế, doanh nghiệp, nhà phân phối và khách hàng tạo và sử dụng một lượng lớn thông tin. Theo dự đoán của Gartner, dữ liệu doanh nghiệp (ở tất cả định dạng) sẽ tăng 650% trong vòng 5 năm tới. Cũng theo IDC, lượng dữ liệu toàn thế giới tăng gấp đôi sau mỗi 18 tháng. Thông tin kỹ thuật số tăng gấp đôi sau mỗi 1.5 năm. Năm 2011, trung tâm y tế lưu trữ lượng dữ liệu tương đương 1 tỷ terabyte. Dữ liệu như vậy, thường được gọi với thuật ngữ Big Data, cùng với sự ra đời của nó đã tạo nên một thách thức với cộng động doanh nghiệp và các nhà khoa học.

Thuật ngữ Big Data dùng để chỉ một tập dữ liệu với kích thước vượt qua khả năng lưu trữ của công nghệ cơ sở dữ liệu hiện tại. Đây là một lĩnh vực mới nổi, nơi công nghệ tiên tiến cung cấp các giải pháp thay thế trong việc giải quyết những vấn đề cố hữu xuất hiện khi làm việc với khối lượng dữ liệu khổng lồ, cung cấp những cách thức mới để tái sử dụng và trích xuất giá trị từ thông tin.

Các doanh nghiệp và cơ quan chính phủ tổng hợp dữ liệu từ nhiều nguồn dữ liệu khác nhau (public hoặc private). Dữ liệu riêng tư là thông tin mà tổ chức lưu trữ độc quyền và chỉ được dùng cho tổ chức đó, nhưng dữ liệu nhân viên, khách hàng, dữ liệu máy (chẳng hạn giao dịch người dùng, hành vi khách hàng...). Dữ liệu public là thông tin được chia sẻ miễn phí hoặc có phí, như chỉ số tín dụng, nội dung mạng xã hội (Facebook, Twitter). Big Data đã vươn tới mọi lĩnh vực trong nền kinh tế thế giới. Chuyển giao những cơ hội cạnh tranh trong mọi ngóc ngách của nền công nghiệp bao gồm ngân hàng, chăm sóc sức khỏe, bảo hiểm, sản xuất, bán lẻ, bán buôn, vận tải, thông tin liên lạc, xây dựng, giáo dục và dịch vụ tiện ích khác. Nó cũng đóng vai trò quan trọng trong hoạt động thương mại như marketing, chuỗi cung ứng, mô hình kinh doanh mới. Big Data đang trở thành một minh chứng khá rõ ràng rằng, doanh nghiệp mà không sử dụng dữ liệu một cách hiệu quả sẽ gặp một bất lợi cạnh tranh lớn từ những doanh nghiệp có khả năng phân tích và sử dụng dữ liệu của họ. Khả năng Big Data tiếp tục phát triển nhanh chóng, được thúc đẩy bởi sự đổi mới trong công nghệ cơ sở hạ tầng, nền tảng, và khả năng phân tích xử lý dữ liệu, cũng như sự tiến hóa hành vi con người đang ngày càng sử dụng thiết bị kỹ thuật số nhiều hơn.

Thật thú vị khi biết rằng Big Data khác biệt sao với mô hình dữ liệu thông thường (chẳng hạn mô hình dữ liệu và CSDL quan hệ, hay mô hình quản trị thông thường). Bởi vậy, nó kích hoạt mối quan tâm của các tổ chức khi họ cố gắng bóc tách thông tin từ đống dữ liệu. Dữ liệu có cấu trúc, thiết kế thông thường không thể biểu diễn được Big Data. Chía khóa để tận dụng Big Data là nhận ra sự khác biệt trước khi xúc tiến việc sử dụng nó. Sự khác biệt đáng chú ý nhất là dữ liệu thông thường được điều chỉnh một cách tập trung, nhưng Big Data là tự quản. Big Data dduwwojc tạo ra bởi một hệ máy móc hoặc do người dùng chuyên môn. Kết quả là thành phần của dữ liệu truyền thống sẽ thay đổi so với Big Data. Các thành phần của dữ liệu phục vụ một mục đích cụ thể và phải ổn định và có cấu trúc hơn, trong khi Big Data sẽ bao quát nhiều chủ để, nhưng không phải tất cả chúng đều mang lại thông tin hữu ích cho doanh nghiệp.

Hiện tại, thách thức chính cho tính toán Big Data là tìm một giải pháp mới khi biết rằng kích thước dữ liệu luôn luôn tăng trưởng. Giải pháp này nên được áp dụng trong một thời gian dài.

Big Data là một mỏ vàng mới. Mỗi ngày, 2.5 quintillion bytes dữ liệu được sinh ra. Những dữ liệu này đến từ ảnh kỹ thuật số, video, bài viết từ các trang mạng xã hội, cảm biến thông minh, thông tin giao dịch, tín hiệu GPS...

3. Big Data - Thách thức và Cơ hội

Hãy thử xem xét Big Data từ 3 góc nhìn khác nhau: góc nhìn kinh doanh, góc nhìn công nghệ và góc nhìn xã hội.

Góc nhìn doanh nghiệp

Big Data là nhu cầu đang tăng trưởng lớn đến nỗi Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỉ USD cho các công ty chuyên về quản lí và phân tích dữ liệu. Năm 2010, ngành công nghiệp Big Data có giá trị hơn 100 tỉ USD và đang tăng nhanh với tốc độ 10% mỗi năm, nhanh gấp đôi so với tổng ngành phần mềm nói chung.

big-data-joke (1).jpg

Bây giờ chúng ta hãy định nghĩa lại thuật ngữ Big Data, hãy thử xem xét một định nghĩa được đề xuất bởi viện McKinsey (McKinsey Global Institute - MGI):

"Big Data" dùng để chỉ tập dữ liệu với kích thước vượt quá khả năng lưu trữ, quản lý và phân tích của phần mềm cơ sở dữ liệu điển hình

Định nghĩa này khá chung chung và mở, nắm bắt được tốc độ tăng trưởng nhanh chóng của dữ liệu, và cũng cho thấy sự cần thiết của công nghệ để bắt kịp với nó. Định nghĩa này không thiên về kích thước dữ liệu, thực tế, tập dữ liệu sẽ ngày càng tăng trong nay mai. Nó cũng khác nhau tùy theo lĩnh vực, dao động từ vài chục terabyte đến vài petabyte.

Vậy Big Data tạo ra cái gì? Giá trị. Nhưng chính xác là giá trị gì? Big Data về bản chất không sản sinh ra bất kỳ giá trị gì, nó đơn giản chỉ là dữ liệu mà thôi.

Việc tăng trưởng dữ liệu đặt ra một thách thức cho mọi công ty IT phải giải quyết. Các doanh nghiệp không chỉ cần lưu trữ dữ liệu mà còn phải tận dụng nó nhanh chóng và hiệu quả để đạt được giá trị kinh doanh.

Giá trị chỉ đến từ thứ chúng ta suy luận được từ dữ liệu. Đó chính là lý do chúng ta cần phân tích Big Data. Werner Vogels, CTO của Amazon định nghĩa phân tích Big Data như sau: "trong thế giới cũ của phân tích dữ liệu, bạn biết chính xác câu hỏi bạn cần hỏi, sinh ra mô hình lưu trữ và tập dữ liệu có thể tiên đoán được. Trong thế giới mới của việc phân tích dữ liệu, câu hỏi của bạn sẽ tiến triển và thay đổi qua thời gian cũng như việc bạn cần thu thập, lưu trữ và phân tích dữ liệu mà không bị hạn chế bởi nguồn lực."

big-data-cartoon-100000-warehouses.jpg

Big Data có thể sinh ra giá trị tài chính ở nhiều lĩnh vực:

  • Chăm sóc sức khỏe
  • Quản lý công
  • Dữ liệu cá nhân toàn cầu
  • Bán lẻ
  • Sản xuất
  • Dữ liệu xã hội (Facebook, Twitter...)

Một số ví dụ về ứng dụng của Big Data như:

  • Phân tích nhật ký
  • Phát hiện gian lận (lọc email...)
  • Phân tích quan điểm và mạng xã hội
  • Quản lý rủi ro
  • Ngành năng lượng
  • Dự đoán (IBM Watson[4], recommender system...)

Tuy nhiên, hiện tại thì việc khai phá Big Data đang gặp một số hạn chế:

  • Các tổ chức thiếu người tài để tận dụng sức mạnh của Big Data
  • Thiếu kiến thức về thống kê, học máy, khai phá dữ liệu (một phần vì đây là vấn đề vẫn mang nặng tính nghiên cứu khoa học, thế nên nhân lực chủ yếu vẫn là giáo sư, tiến sĩ ở các trường CNTT)

Những hạn chế này phản ảnh thực tế rằng khoa học cơ bản khó hiểu và khó sử dụng. Cũng như các công nghệ mới khác, công nghệ phân tích Big Data cần thời gian để trường thành và dễ sử dụng cho các doanh nghiệp. Tất cả những ví dụ đề cập ở trên đều là giá trị sinh ra nhờ việc phân tích Big Data, tuy nhiên không phải lúc nào nó cũng tốt, thực tế là việc phân tích Big Data không đúng cách có thể nảy sinh nhiều vấn đề: truy cập dữ liệu, chính sách, bảo mật...

Góc nhìn kỹ thuật

Trên đây là những triển vọng của doanh nghiệp khi làm việc với Big Data. Nhưng thực tế ngày nay là gì? Big Data có nhiều đặc điểm tạo nên những thách thức về mặt kỹ thuật. Chúng ta có thể nhóm các thách thức này thành 3 chiều: dữ liệu, xử lý và quản lý.

A picture is worth a thousand words, các bạn có thể xem bức ảnh dưới đây để thấy được tốc độ tăng trưởng chóng mặt của dữ liệu, cũng như sự phức tạp của nó.

4-Vs-of-big-data.jpg

Với khối lượng dữ liệu khổng lồ như vậy, rõ ràng việc lưu trữ và xử lý nó là một thách thức không hề nhỏ, bao gồm thu thập dữ liệu, hiệu chỉnh, lọc nhiễu, mô hình hóa, phân tích đầu ra. Hiện tại, hai nền tảng được dùng phổ biến để xử lý Big Data là Hadoop và Spark.

Bên cạnh đó, việc quản lý dữ liệu, liên quan đến các vấn đề truy xuất, tính riêng tư, bảo mật cũng là một vấn đề, nhằm chắc chắn rằng dữ liệu đó được sử dụng chính xác, giám sát dữ liệu, quản lý vòng đời của nó.

Góc nhìn xã hội

Rất ít người nhận ra Big Data có thể dùng để giải quyết các vấn đề xã hội, tạo ra các tác động tích cực. Hầu hết các ví dụ thực tiễn không đi theo hướng tiếp cận này. Gạt sang một bên các khía cạnh riêng tư, Big Data có thể được khai thác để phục vụ hàng tỷ người đã tạo ra dữ liệu, và cả xã hội mà họ đang sống.

Vào năm 2012, diễn đàn kinh tế thế giới (WEF) xuất bản một báo cáo với tiêu đề “Big Data, Big Impact: New Possibilities for International Development.”[3] Báo cáo trình bày nhiều ý tưởng, cơ hội, thách thức trong thời đại bùng nổ dữ liệu, cũng như việc các nhà nghiên cứu và hoạch định chính sách bắt đầu nhận thấy tiềm năng trong việc khai thác Big Data để trích xuất kiến thức có thể dùng cho cộng đồng, đặc biệt là người dân có thu nhập thấp.

Luồng dữ liệu được tạo ra mỗi ngày bởi hàng tỷ tương tác của người dùng máy tính, thiết bị GPS, điện thoại di động, thiết bị y tế. Rất nhiều trong số tương tác này diễn ra thông qua việc sử dụng thiết bị di động bởi những người ở các nước đang phát triển, với nhu cầu và thói quen vẫn chưa được hiểu rõ tường tận cho đến ngày nay.

Các nhà nghiên cứu và hoạch định chính sách bắt đầu nhận ra được tiềm năng của việc dẫn dòng chảy dữ liệu vào thông tin có thể sử dụng để xác định nhu cầu, cung cấp dịch vụ, và tiên đoán cũng như ngăn chặn khủng hoảng cho người có thu nhập thấp. Chính phủ, tổ chức và các công ty cần phối hợp hành động để đảm bảo rằng dữ liệu này sẽ phục vụ cho các cá nhân và cộng đồng, những người đã tạo ra nó.

Đã có rất nhiều dự án Big Data nhằm mục đích phục vụ cộng đồng:

  • dự đoán sự thiếu hụt thực phẩm dựa trên dữ liệu về sự biến động giá cả thị trường, hạn hán, di cư..
  • cải thiện kết quả học tập trong trường học
  • mô hình dự báo phục vụ người dân sống ở các khu định cư và khu ổ chuột
  • quy hoạch giao thông
  • kết nối mối quan hệ giữa tội phạm và các địa điểm trong thành phố

... và rất nhiều nữa (https://www.hsph.harvard.edu/ess/bigdata.html)

4. Tổng kết

Tóm lại, Big Data là thách thức đặt ra cho các tổ chức, doanh nghiệp trong thời đại số hiện nay. Một khi làm chủ được dữ liệu lớn thì họ sẽ có cơ hội thành công lớn hơn trong bối cảnh cạnh tranh ngày nay, thế giới thì sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách chính xác hơn, hữu ích hơn với chi phí thấp hơn. Vẫn còn đó những chỉ trích xoay quanh Big Data, tuy nhiên lĩnh vực này vẫn còn rất mới và chúng ta hãy chờ xem trong tương lai Big Data sẽ tiến hóa như thế nào.

Tài liệu tham khảo

[1]. Rajendra Akerkar, Big Data Computing, Chapman and Hall/CRC, 2013.

[2]. https://www.ibm.com/big-data/us/en/

[3]. http://www.unglobalpulse.org/bigdatabigimpactpaper

[4]. https://www.thenorthface.com/xps - Website sử dụng IBM Watson

[5]. https://adeptia.com/blog/surprising-things-you-dont-know-about-big-data