+4

Thống kê trong cuộc sống

Chắc rằng trong số mỗi người chúng ta đều đã từng nghe nói về những con số lương khủng trong ngành công nghệ thông tin nói chung và ngành lập trình nói riêng. Chẳng hạn như: Lương của nhân viên lập trình là cao nhất Việt Nam, Choáng váng với mức lương của ngành lập trình, hay lương trung bình của nhân viên lập trình là 200,000$ một năm, mới ra trường sinh viên CNTT có thu nhập khoảng 1,000$ Trump mỗi tháng,.... Dường như ta có thể thấy được rằng các developer là những người có mức thu nhập rất tốt nhưng liệu rằng sự thật có phải như thế không? Bài viết này sẽ cho mọi người thấy được cái nhìn hoàn toàn khác về vấn đề này.....

Hằng ngày mỗi người chúng ta đều nhận được hàng tá các thông tin đến từ nhiều nguồn khác nhau, nhưng không phải thông tin nào cũng đúng với sự thật. Thậm chí một vài thông tin được đưa ra có thể là chính xác nhưng lại không thể giải thích được toàn bộ bản chất của vấn đề nên có thể gây ra hiều lẩm cho người đọc.

Quay trở lại ví dụ ban đầu, giả sử một ngày đẹp trời bạn đọc được bài báo có dòng title "Lương trung bình của nhân viên lập trình là 30 triệu đồng/tháng".

Lúc này bạn sẽ nghĩ: "Ồ cao quá" và cảm thấy bị chạnh lòng vì lương của mình chỉ là 8 triệu. Bạn nảy ra một ý tưởng hãy thử tìm hiểu lương của đồng nghiệp quanh mình xem sao. Bạn dò hỏi được lương của người số 2, 3, 4, 5 lần lượt là 8 triệu, 20 triệu và 14 triệu.

Bạn cảm thấy vô cùng ngạc nhiên vì cả 4 người (bao gồm cả bạn) đều có mức lương nhỏ hơn mức lương trung bình trong bài báo (phải chăng lều báo vô học). Nhưng đến khi bạn biết được mức lương của anh D là 100 triệu thì bạn đã trách sai lều báo kia rồi, bởi lẽ nếu cộng lại và chia trung bình lương của 5 người ra thì sẽ được mức lương bằng đúng với mức lương mà lều báo đề cập đến.

(8 + 8 + 14 + 20 + 100) / 5 = 30 (triệu)

Hãy vẽ ra các con số này nhé:

Bạn thấy có điều gì đó không ổn ở đây không? Có tới 4 người có mức lương thấp hơn giá trị trung bình và chỉ có 1 người có mức lương cao hơn trung bình . Như vậy mặc dù lương trung bình của nhân viên có thể là 30 triệu thật đấy nhưng hầu hết (~90%) số nhân viên sẽ có mức thu nhập dưới giá trị trung bình và chỉ có một số ít người sẽ có mức thu nhập khủng cao hơn giá trị trung bình này.

Chính mức lương khủng này làm cho mức lương trung bình cao hơn so với lương thực tế của hầu hết những người còn lại. Bạn hãy hình dung việc tính giá trị trung bình này giống như việc ta xóa bỏ đi hết lương thực tế của mọi người, sau đó cộng thu nhập lại, tiếp đó chia đều tổng này cho mọi người, cuối cùng ta sẽ có được một mức lương trong mơ....Lều báo kết luận lương của dev cao bằng việc chia đều mức lương đầu người ra như vậy thật là lố bịch và dễ gây hiểu nhầm!!! Vậy thì có cách nào tốt hơn không???

Câu trả lời là có nhé!! Nếu số trung bình đã gây hiểu nhầm, thì ta cần tìm một cách khác để có thể thể hiện giá trị bình quân. Đó là sử dụng số Trung vị. Vẫn là bài toán lương lúc nãy, lúc này ta có thể thấy được mặc dù lương trung bình của 5 người là 30 triệu nhưng lại có 50% số nhân viên (nhân viên số 1 và 2) có mức lương nhỏ hơn 14 triệu và 50% số nhân viên có mức lương lớn hơn 14 triệu (nhân viên số 4 và 5). Và con số 14 triệu này thì được gọi là số trung vị.

Hãy nhìn lại các mức lương một lần nữa, giả sử trong năm tiếp theo lương của nhân viên số 5 tăng thêm gấp đôi (lúc này là 200 triệu), lương của 4 người còn lại vẫn giữ nguyên không đổi, thì lúc này giá trị lương trung bình sẽ tăng lên, nó sẽ không còn là 30 triệu nữa mà sẽ thành 50 triệu nhưng phần lương tăng thêm đó (100 triệu) lại không hề được chia đều cho 4 người còn lại, vậy mà giá trị trung bình lại tăng cao!!!!

Trong khi đó nhìn vào giá trị trung vị, nó vẫn không hề thay đổi vẫn bằng 14 triệu, đó là vì vẫn có 50% số quan sát nhỏ hơn 14 triệu và 50% số quan sát lớn hơn 14 triệu. Như vậy ta có thể kết luận được rằng giá trị trung bình chịu ảnh hưởng lớn đến từ các giá trị ngoại biên(đó là những giá trị rất lớn hoặc rất nhỏ khác với giá trị thông thường) , còn giá trị trung vị thì ít chịu ảnh hưởng của các giá trị ngoại biên.

Nhưng nếu mà như thế thì liệu rằng số trung vị có tốt hơn số trung bình??? Trả lời bạn luôn là Không. Ví dụ nhé: Giả sử một người A mắc phải một căn bệnh X, trong quá trình điều trị người ta phát hiện ra 1 loại thuốc Z có khả năng chửa được căn bênh X, A tự hỏi rẳng nó có hiệu quả hay không và vị bác sĩ trả lời rằng: "Nó có thể làm tăng giá trị trung vị của tuổi thọ thêm 2 tuần". Thật đáng buồn cho A và A biết rằng số trung vị sẽ không bị chịu ảnh hưởng của giá trị ngoại biên, nhưng khi tìm hiểu rõ hơn thì A lại thấy đúng là có:

  • 50% số người dùng thuốc Z sẽ sống ít hơn hai tuần (tạm gọi là L1)
  • 50% số người dùng thuốc Z sẽ sống được nhiều hơn hai tuần, trong số này có 60% số người sẽ khỏi hoàn toàn và sống được thêm vài chục năm nữa (tạm gọi là L2).

Trong trường này thì rõ ràng số trung vị không thể hiện rõ được toàn bộ bức tranh, vì lúc này rõ ràng các giá trị ngoại biên L2 có số ngày sống lớn hơn L1 rất rất nhiều. Do đó trong trường hợp này số trung bình sẽ có giá trị hơn nhiều so với số trung vị.

Đến lúc này có thể bạn sẽ rất băn khoăn, khi thì số trung bình lại có giá trị hơn số trung vị và ngược lại, vậy thì ta nên tin vào con số nào? Câu trả lời sẽ là chỉ nên tin khi mà có cả hai con số và thêm cả giá trị mốt nữa. Các con số này, số trung bình, số trung vị được gọi là các Thống kê mô tả của số liệu, đây là các con số rất hữu ích để tổng hợp và tóm tắt số liệu. Trung bình, trung vị và mốt là 3 con số quan trọng giúp chúng ta tổng hợp số liệu.

Hy vọng là bài bài viết này sẽ không làm cho các bạn cảm thấy từ trước đến giờ mình toàn bị lừa dối. Bạn thấy rằng báo đài luôn đưa ra các con số trung bình cho bạn, chẳng hạn như là: trung bình số tai nạn giao thông trong năm là XXX vụ, trung bình người Việt uống hết XXX lít bia, ..... và bản thân thì tin vào các con số đó. Việc lạm dụng các con số trung bình, trung vị và mốt không chỉ ở trong mỗi truyền thông mà còn cả trong các báo cáo, họ sẽ lựa chọn ra con số nào đẹp nhất để dùng cho báo cáo chứ không bao giờ dùng cả 3 con số cả.


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí