Phân Tích Dữ Liệu - Sharing About The Data Analysis Industry
1. Lời nói đầu
Trong thời đại số hóa, dữ liệu trở thành tài sản quý giá mà mọi tổ chức và cá nhân đều có thể tận dụng để đưa ra quyết định thông minh và phát triển. Tuy nhiên, để khai thác triệt hạng tiềm năng của dữ liệu, bạn cần hiểu cách thức hiện phân tích dữ liệu một cách hiệu quả. Là một người Data Analyst, bạn sẽ bước vào một cuộc hành trình thú vị và đầy tiềm năng trong thế giới dữ liệu đang phát triển vượt bậc. Vai trò này không chỉ đòi hỏi sự hiểu biết về con số mà còn đòi hỏi sự sáng tạo và khả năng giải quyết vấn đề. Trong thời đại số hóa nhanh chóng, Data Analyst là những người thám hiểm dữ liệu, chuyển đổi thông tin vô hình thành kiến thức có giá trị. Bài viết này sẽ là hướng dẫn chi tiết cho những người mới bắt đầu trong lĩnh vực phân tích dữ liệu và cả những ai muốn nâng cao kiến thức của mình. Chúng ta sẽ bắt đầu bằng việc hiểu về cơ bản của phân tích dữ liệu, sau đó tiến xa hơn vào các phương pháp và công cụ phức tạp hơn.
2. Phân biệt Data Analyst, Data Analysis và Data Analytics
a. Data analyst
Đầu tiên Data Analyst là một người làm việc trong lĩnh vực phân tích dữ liệu. Nhiệm vụ chính của họ là tập trung vào việc xác định và hiểu thông tin từ dữ liệu hiện có. Họ thường tập trung vào báo cáo, biểu đồ, và phân tích thống kê để trình bày thông tin một cách rõ ràng và dễ hiểu. Bên cạnh đó họ còn có nhiệm vụ thu thập, xử lý trước khi phân tích. Với một nhà phân tích dữ liệu thì mục tiêu chính của họ là cung cấp thông tin thực sự từ dữ liệu để hỗ trợ quyết định kinh doanh.
b. Data Analysis và Data Analytics
Đây có lẽ là hai khái niệm khiến nhiều bạn khi bắt đầu vào lĩnh vực DA sẽ gặp khó khăn nhất - khi mà cả hai đều được dịch là 'Phân tích dữ liệu'. Tuy nhiên vai trò và nhiệm vụ của hai khái niệm này lại có một số điểm khác nhau. Thông thường mình thấy khi đi học và phỏng vấn thì doanh nghiệp sẽ không quá khắt khe về điều này. Tuy nhiên nếu bạn có nhu cầu ứng tuyển vào những doanh nghiệp lớn hay đa quốc gia thì việc phân biệt được hai khái niệm này có thể sẽ giúp ích được cho bạn đấy.
Yếu tố | Data Analysis | Data Analytics |
---|---|---|
Phạm vi công việc | Data Analysis là quá trình xử lý dữ liệu để tìm hiểu, đánh giá, và trích xuất thông tin từ dữ liệu. Nó liên quan đến việc sử dụng các kỹ thuật phân tích dữ liệu để tìm ra mẫu, xu hướng, và thông tin hữu ích. | Data Analytics là một thuật ngữ phức tạp hơn, bao gồm cả Data Analysis. Nó bao gồm cả việc xử lý và phân tích dữ liệu, nhưng cũng liên quan đến việc sử dụng dữ liệu để đưa ra dự đoán, dự đoán xu hướng tương lai, và tạo ra giá trị cho doanh nghiệp. |
Mục tiêu chính | Tìm ra câu trả lời cho các câu hỏi cụ thể, đưa ra dự đoán, và cung cấp thông tin chi tiết từ dữ liệu đã thu thập. | Mục tiêu của Data Analytics không chỉ giới hạn trong việc cung cấp thông tin thời gian thực, mà còn trong việc đưa ra chiến lược dựa trên dữ liệu để tối ưu hóa hiệu suất doanh nghiệp. |
Kỹ năng chính | Phân tích thống kê, biểu đồ | Dự đoán, Machine Learning |
Thời gian | Tập trung vào dữ liệu đã có | Có thể dự đoán xu hướng tương lai |
Đối tượng | Câu hỏi cụ thể và thông tin chi tiết | Chiến lược và quyết định kinh doanh |
3. Report và Dashboard
Với trải nghiệm của bản thân khi làm việc trong lĩnh vực dữ liệu, cụ thể là phân tích dữ liệu. Mình thường xuyên làm việc với report và dashboard. Mặc dù cả hai là công cụ phân tích dữ liệu phổ biến, được sử dụng để cung cấp thông tin và hỗ trợ ra quyết định. Tuy nhiên, giữa hai công cụ này cũng có một số điểm khác biệt cơ bản. Report thường được sử dụng để trình bày dữ liệu theo một cách tổng quan, truyền tải thông tin một cách có hệ thống và logic. Dashboard, mặt khác, thường được sử dụng để theo dõi dữ liệu theo thời gian thực, cung cấp cái nhìn tổng quan về các xu hướng và biến động.
3.1. Công cụ report
Report thường được sử dụng để trình bày dữ liệu theo một cách tổng quan, truyền tải thông tin một cách có hệ thống và logic. Khi sử report sẽ mang lại một số ưu điểm và gặp phải những nhược điểm như sau:
Ưu điểm:
- Dữ liệu hướng lịch sử cao
- Dễ dàng thiết kế
- Dữ liệu đã được tiền xử lý và sắp xếp
Nhược điểm:
- Bảo trì liên tục
- Ít hấp dẫn và kém trực quan
- Dữ liệu tĩnh
3.2. Công cụ dashboard
Dashboard thường được sử dụng để theo dõi dữ liệu theo thời gian thực, cung cấp cái nhìn tổng quan về các xu hướng và biến động. Khi sử dashboard sẽ mang lại một số ưu điểm và gặp phải những nhược điểm như sau:
Ưu điểm:
- Có khả năng tương tác, động, tự động
- Cho phép các bên liên quan có thể truy cập
- Ít bảo trì hơn report
Nhược điểm:
- Có thể gây nhầm lẫn
- Chuyên môn thiết kế cao
- Dữ liệu có khả năng chưa thực sự 'sạch'
4. Chuẩn bị dữ liệu
4.1. ROCCC Data
Một nguồn dữ liệu được đánh giá là tốt nếu nó đáp ứng được lần lượt 5 khía cạnh: Reliable (đáng tin cậy), Original (nguyên bản), Comprehensive (toàn diện), Current (hiện tại), Cited (được trích dẫn). Tập dữ liệu không đáp ứng được các tiêu chí này được xem là một tập dữ liệu 'tồi'.
-
Reliable: Dữ liệu phải chính xác và đáng tin cậy. Điều này có nghĩa là dữ liệu phải được thu thập và xử lý một cách cẩn thận, tránh các sai sót hoặc thiên vị.
-
Original: Dữ liệu phải là nguyên bản và không bị trùng lặp. Điều này có nghĩa là dữ liệu không được lấy từ các nguồn khác mà phải được thu thập hoặc tạo ra độc lập.
-
Comprehensive: Dữ liệu phải đầy đủ và bao quát. Điều này có nghĩa là dữ liệu phải bao gồm tất cả các thông tin cần thiết để trả lời các câu hỏi hoặc mục tiêu của dự án.
-
Current: Dữ liệu phải cập nhật và phản ánh thông tin mới nhất. Điều này có nghĩa là dữ liệu phải được thu thập và cập nhật thường xuyên để đảm bảo tính chính xác và phù hợp.
-
Cited: Dữ liệu phải được trích dẫn theo đúng quy định. Điều này có nghĩa là nguồn gốc của dữ liệu phải được ghi rõ để người dùng có thể xác minh tính chính xác và tính hợp lệ của dữ liệu.
4.2. SMART Data
Bên cạnh chuẩn ROCCC thì SMART data là một khái niệm quan trọng trong phân tích dữ liệu. Việc sử dụng SMART data giúp đảm bảo rằng dữ liệu được thu thập và phân tích một cách hiệu quả, để có thể hỗ trợ ra quyết định một cách chính xác và phù hợp.
- Specific: Dữ liệu phải cụ thể và rõ ràng, không mơ hồ hoặc chung chung.
- Measurable: Dữ liệu phải có thể đo lường được, để có thể đánh giá và phân tích.
- Attainable: Dữ liệu phải có thể đạt được, không quá xa vời hoặc bất khả thi.
- Relevant: Dữ liệu phải liên quan đến mục tiêu của dự án hoặc nhiệm vụ.
- Time-bound: Dữ liệu phải có thời hạn cụ thể, để có thể đo lường hiệu quả.
4.3. Data bias
Data bias là hiện tượng dữ liệu bị thiên lệch, không phản ánh đúng thực tế. Data bias có thể xảy ra ở bất kỳ giai đoạn nào trong vòng đời dữ liệu, từ khi được tạo ra cho đến khi được sử dụng. Nó có thể đến từ việc thu thập, xử lý và bao gồm cả phân tích. Thông thường data bias sẽ gồm 4 loại:
-
Sampling bias: Thiên vị trong thu thập dữ liệu, xảy ra khi dữ liệu không được thu thập một cách ngẫu nhiên từ toàn bộ dân số. Điều này có thể dẫn đến kết quả phân tích không phản ánh chính xác thực tế.
-
Observer bias: Thiên vị của người quan sát, xảy ra khi người thu thập hoặc phân tích dữ liệu bị ảnh hưởng bởi những thành kiến cá nhân của họ. Điều này có thể dẫn đến kết quả phân tích không khách quan.
-
Interpretation bias: Thiên vị trong giải thích dữ liệu, xảy ra khi người phân tích dữ liệu giải thích dữ liệu theo cách phù hợp với kỳ vọng của họ (có thể là tiêu cực hoặc tích cực). Điều này có thể dẫn đến kết luận sai lệch về dữ liệu.
-
Confirmation bias: Thiên vị xác nhận, xảy ra khi người ta chỉ chú ý đến những thông tin phù hợp với niềm tin hoặc giả thuyết của họ. Điều này có thể dẫn đến việc bỏ qua những thông tin mâu thuẫn với niềm tin hoặc giả thuyết của họ.
4.4. Lưu ý
Có bao giờ các bạn từng nghĩ rằng, chỉ cần chúng ta có được một tập dữ liệu có kích thước đủ lớn và được làm sạch một cách gọi là hoàn hảo nhất thì kết quả phân tích của chúng ta sẽ đưa ra được những insight và chiến lược một cách toàn vẹn chưa? Điều này không hoàn toàn đúng và không hoàn toàn sai. Một bộ dữ liệu 'đẹp' và 'đầy đủ' sẽ giúp ta nhìn nhận được sâu và đúng đắn hơn về dữ liệu. Nhưng hãy nhớ rằng có thể có dữ liệu vững chắc nhưng vẫn đưa ra những lựa chọn sai lầm. Tùy thuộc vào các nhà phân tích dữ liệu để diễn giải dữ liệu một cách chính xác. Khi dữ liệu được giải thích không chính xác, nó có thể dẫn đến tổn thất lớn.
Ví dụ: Một công ty kem tung ra thị trường hương vị dâu tây. Họ tiến hành thu thập dữ liệu trên 30 người và tất cả đều yêu thích hương vị này. Với kết quả đó họ tiến hành loại bỏ sản phẩm cũ tương tự và thay thế hoàn toàn bằng sản phẩm có hương vị dâu tây mới để giành lại thị phần so với đối thủ cạnh tranh. Kết quả là họ đã thất bại với chiến lược của mình, vì họ đã thiếu xót khi đánh giá, khảo sát khách hàng về việc thay thế hương vị mới mà chỉ quan tâm đến sản phẩm mới có được yeu thích hay không.
5. Các loại dữ liệu
Dữ liệu của chúng ta thông thường sẽ ở hai dạng là định lượng và định tính. Dựa vào feature thì ta có thể xác định được loại dữ liệu nào là phù hợp để có thể xử lý (processing), chuyển đổi (transform) phù hợp với nhu cầu sử dụng.
Yếu tố | Dữ liệu định tính | Dữ liệu định lượng |
---|---|---|
Định nghĩa | Dữ liệu mô tả tính chất, loại, hoặc phân loại của các đối tượng hoặc sự kiện. | Dữ liệu mô tả số lượng hoặc mức độ của các đối tượng hoặc sự kiện. |
Ví dụ | Màu sắc (đỏ, xanh, vàng), giới tính (nam, nữ), loại sản phẩm (A, B, C). | Tuổi, trọng lượng, doanh thu, số lượng sản phẩm. |
Biểu đồ thông dụng | Biểu đồ cột, biểu đồ tròn, bảng tần số. | Biểu đồ đường, biểu đồ phân phối, biểu đồ hộp. |
Đo lường thống kê | Thường được đo lường bằng tần suất hoặc phần trăm. | Được đo lường bằng các giá trị số như trung bình, trung vị, độ lệch chuẩn. |
Phân tích thống kê | Phân tích tần số, kiểm định chi-squared. | Phân tích t-test, ANOVA, hồi quy. |
Ưu điểm | Dễ hiểu, phù hợp cho việc phân loại và so sánh các loại. | Cho phép tính toán số liệu thống kê chi tiết, phân tích mối quan hệ. |
Hạn chế | Không thể thực hiện các phép toán số học, thống kê trung bình. | Không phù hợp cho việc phân loại, không hiển thị các sự khác biệt nhỏ. |
Tuy vậy, trong một số nhu cầu nhất định - ta thường kết hợp phân tích cả hai loại dữ liệu này để đạt được insight mong muốn. Việc kết hợp này giúp nhà phân tích có cái nhìn toàn diện hơn về tình hình và làm rõ được mức độ phức tạp giữa các yếu tố. Giả sử, một doanh nghiệp muốn tìm xem cửa hàng nào là mang lại cho giá trị cao thì họ sẽ đánh giá thông qua nhiều yếu tố như:
- Định tính: vị trí địa lý của cửa hàng (nông thôn, thành thị), chương tình khuyến mãi, ...
- Định lượng: doanh thu, chi phí, số lượng nhân viên, ... => Lúc này nhà phân tích cần căn nhác tính quan trọng của từng yếu tố thông qua phân tích tương quan, phân tích đa biến hay thậm chí là dựa trên domain knowledge của họ và các nhà quản trị cấp cao. Từ đó mang lại một kết quả có tính khách quan và có tính công bằng hơn khi đánh giá tối thiểu được tình trạng bias trong dữ liệu.
6. Quy trình phân tích dữ liệu
-
Ask: Bước đầu tiên là xác định câu hỏi hoặc mục tiêu của phân tích. Điều này giúp nhà phân tích dữ liệu xác định loại dữ liệu cần thu thập và các phương pháp phân tích cần sử dụng.
-
Prepare: Bước thứ hai là thu thập dữ liệu cần thiết để trả lời câu hỏi hoặc đạt được mục tiêu của phân tích. Dữ liệu có thể được thu thập từ nhiều nguồn khác nhau, chẳng hạn như khảo sát, bảng câu hỏi, cơ sở dữ liệu, hoặc các nguồn dữ liệu mở.
-
Process: Bước thứ ba là làm sạch dữ liệu để loại bỏ các lỗi hoặc sai sót. Điều này giúp đảm bảo rằng dữ liệu được phân tích là chính xác và đáng tin cậy.
-
Analyze: Bước thứ tư là sử dụng các kỹ thuật phân tích dữ liệu để tìm hiểu thông tin từ dữ liệu. Các kỹ thuật phân tích dữ liệu có thể bao gồm thống kê, mô hình hóa, và học máy.
-
Share: Bước thứ năm là chia sẻ kết quả phân tích với các bên liên quan để thu thập phản hồi và cải thiện kết quả phân tích.
-
Act: Bước cuối cùng là sử dụng kết quả phân tích để đưa ra quyết định hoặc cải thiện hoạt động.
Để hiểu rõ hơn về quy trình bạn có thể tham khảo thêm tại đây
7. Phương pháp phân tích 5 WHY
5 why là một kỹ thuật đơn giản nhưng hiệu quả để tìm ra nguyên nhân gốc rễ của một vấn đề. Phương pháp này được thực hiện bằng cách đặt câu hỏi "Tại sao?" 5 lần liên tiếp, bắt đầu từ một vấn đề cụ thể.
Cách thực hiện phương pháp phân tích 5 why:
- Xác định vấn đề cần giải quyết.
- Đặt câu hỏi "Tại sao?" cho vấn đề đã xác định.
- Trả lời câu hỏi bằng cách giải thích nguyên nhân của vấn đề.
- Lặp lại bước 2 và 3 cho đến khi tìm ra nguyên nhân gốc rễ của vấn đề.
Ví dụ: Một thanh tra nhà máy khi thực hiện kiểm tra trang thiết bị theo định kì thì gặp phải vấn đề 'máy móc bị hỏng'
Why 1: Tại sao máy móc bị hỏng? => Máy móc bị quá tải
Why 2: Tại sao máy móc bị quá tải? => Máy móc không được bảo trì đúng cách
Why 3: Tại sao máy móc không được bảo trì đúng cách? => Nhân viên bảo trì không được đào tạo đầy đủ
Why 4: Tại sao nhân viên bảo trì không được đào tạo đầy đủ? => Công ty không có quy trình bảo trì tiêu chuẩn
Why 5: Tại sao công ty không có quy trình bảo trì tiêu chuẩn? => Công ty không coi trọng việc bảo trì máy móc.
Ưu điểm:
- Đơn giản và dễ thực hiện.
- Hiệu quả trong việc tìm ra nguyên nhân gốc rễ của vấn đề.
- Có thể được sử dụng cho nhiều loại vấn đề khác nhau.
Nhược điểm:
- Có thể không phù hợp với các vấn đề phức tạp.
- Có thể dẫn đến việc bỏ qua các nguyên nhân gốc rễ quan trọng. - Điều này cần được thực hiện kỹ lưỡng với sự tham gia của các bên liên quan để tránh bỏ qua các nguyên nhân gốc rễ quan trọng ngay từ ban đầu.
Hy vọng bài viết của mình sẽ giúp ích cho các bạn. Các bạn có câu hỏi hay thắc mắc gì thì hãy comment cho mình nhé. Để tạo thêm động lực cho mình các bạn có thể giúp mình upvote bài viết nhé!!
All rights reserved