Đã đăng vào Jun 17th, 2021 8:10 a.m. 6 phút đọc

4.8K

[Series Pandas DataFrame] Phân tích dữ liệu cùng Pandas (Phần 6)

Bài đăng này đã không được cập nhật trong 5 năm

Thống kê dữ liệu trong Pandas

Pandas cung cấp nhiều phương pháp thống kê cho DataFrames. Bạn có thể sử dụng thống kê cơ bản cho các cột số của Pandas DataFrame bằng .describe():

>>> df
     name     city  age  py-core    php-score
6    Hoc      HCM   41     88.0       86.0
7   Tuan   Ha Noi   28     79.0       81.0
8    Nam  Da Nang   33     81.0       78.0
9    Huy  Long An   34     80.0       88.0
10  Luan      HCM   38     68.0       74.0

>>> df.describe()
            age    py-core  php-score
count   5.000000   5.000000   5.000000
mean   34.800000  79.200000  81.400000
std     4.969909   7.190271   5.727128
min    28.000000  68.000000  74.000000
25%    33.000000  79.000000  78.000000
50%    34.000000  80.000000  81.000000
75%    38.000000  81.000000  86.000000
max    41.000000  88.000000  88.000000

Bạn có thể thấy, .describe() trả về một DataFrame mới với số hàng được hiển thị ra các thông số như giá trị trung bình, độ lệch chuẩn, min, max và tỷ lệ phần trăm của các cột.

Nếu bạn muốn nhận thống kê cụ thể cho một hoặc tất cả các cột của mình, thì bạn có thể gọi các phương thức như .mean() hoặc .std():

>>> df.mean()
age          34.8
py-core      79.2
php-score    81.4
dtype: float64

>>> df['php-score'].mean()
81.4

>>> df.std()
age          4.969909
py-core      7.190271
php-score    5.727128
dtype: float64

>>> df['php-score'].std()
5.727128425310541

Khi được áp dụng cho Pandas DataFrame, các methods này trả về Series với kết quả cho mỗi cột. Khi được áp dụng cho một Series object hoặc một cột của DataFrame, các methods sẽ trả về scalars.

Handling Missing Data

Missing data rất phổ biến trong data science và machine learning. Nhưng đừng bao giờ ngại điều đó! Pandas có các tính năng rất mạnh mẽ để làm việc với missing data.

Pandas thường đại diện cho missing data bằng giá trị NaN (not a number). Trong Python, bạn có thể lấy NaN bằng float ('nan'), math.nan hoặc numpy.nan. Từ Pandas 1.0, có những cách mới hơn như BooleanDtype, Int8Dtype, Int16Dtype, Int32Dtype và Int64Dtype sử dụng pandas .NA làm missing data.

df_ = pd.DataFrame({'b': [1, 2, np.nan, 4]})
>>> df_
     b
0  1.0
1  2.0
2  NaN
3  4.0

Bạn có thể thấy df_ tham chiếu đến DataFrame với một cột, b và bốn giá trị. Giá trị thứ ba là nan và được coi là missing theo mặc định.

Tính toán với missing data

Nhiều phương thức Pandas bỏ qua các giá trị nan khi thực hiện các phép tính trừ khi chúng được định nghĩa rõ ràng:

>>> df_.mean()
b    2.333333
dtype: float64

>>> df_.mean(skipna=False)
b   NaN
dtype: float64

Trong ví dụ đầu tiên, df_.mean() tính giá trị trung bình và loại bỏ giá trị NaN (giá trị thứ ba) khi tính toán. Nó chỉ lấy 1, 2, 4 và trả về mức trung bình là 2,33.

Ví dụ thứ hai, nếu bạn định nghĩ .mean() với giá trị skipna=False để không bỏ qua các giá trị nan thì nó sẽ kiểm tra và trả về nan nếu có bất kỳ giá trị nào bị missing trong dữ liệu.

Filling Missing Data

Pandas có một số tùy chọn để điền hoặc thay thế missing data bằng các giá trị khác. Một trong những phương thức thuận tiện nhất là .fillna(). Bạn có thể sử dụng nó để thay thế missing data bằng:

Các giá trị được chỉ định
Các giá trị trên giá trị bị thiếu
Các giá trị dưới giá trị bị thiếu

Bạn có thể áp dụng với các tùy chọn được đề cập ở trên:

>>> df_.fillna(value=0)
     b
0  1.0
1  2.0
2  0.0
3  4.0

>>> df_.fillna(method='ffill')
     b
0  1.0
1  2.0
2  2.0
3  4.0

>>> df_.fillna(method='bfill')
     b
0  1.0
1  2.0
2  4.0
3  4.0

Trong ví dụ đầu tiên, .fillna(value=0) thay thế giá trị bị thiếu bằng 0.0, mà bạn đã chỉ định giá trị. Trong ví dụ thứ hai, .fillna(method='ffill') thay thế giá trị bị thiếu bằng giá trị ở trên nó, là 2.0. Trong ví dụ thứ ba, .fillna(method='bfill') sử dụng giá trị bên dưới giá trị bị thiếu, là 4,0.

Một cách phổ biến khác là áp dụng phép nội suy và thay thế các giá trị bị thiếu bằng các giá trị được nội suy. Bạn có thể làm điều này với .interpolate():

>>> df_.interpolate()
     b
0  1.0
1  2.0
2  3.0
3  4.0

Như bạn có thể thấy, .interpolate() thay thế giá trị bị thiếu bằng một giá trị nội suy.

Bạn cũng có thể sử dụng tham số tùy chọn thay thế bằng .fillna(). Như vậy sẽ:

Tạo và trả về DataFrame mới khi inplace=False
Sửa đổi DataFrame hiện có và trả về None có khi inplace=True

Mặc định inplace là False. Tuy nhiên, inplace=True có thể rất hữu ích khi bạn đang làm việc với lượng lớn dữ liệu và muốn ngăn việc sao chép không cần thiết và không hiệu quả.

Xóa hàng và cột có dữ liệu bị thiếu (missing data)

Trong một số trường hợp nhất định, bạn có thể muốn xóa các hàng hoặc các cột có giá trị bị thiếu. Bạn có thể làm điều này với .dropna():

>>> df_.dropna()
     b
0  1.0
1  2.0
3  4.0

Trong trường hợp này, .dropna() chỉ cần xóa hàng có giá trị nan. Nó cũng có tham số tùy chọn inplace, cách thức hoạt động giống như với .fillna() và .interpolate().

Iterating Over một Pandas DataFrame

Như bạn đã biết, các label hàng và cột của DataFrame có thể được truy xuất dưới dạng chuỗi là .index và .columns. Bạn có thể sử dụng tính năng này để iterate over các label và lấy hoặc gắn các giá trị mong muốn. Tuy nhiên, Pandas cung cấp một số phương pháp thuận tiện hơn để iteration:

.items() và .iteritems() để iterate qua các cột
.iterrows() để iterate qua các hàng
.itertuples() để iterate qua các hàng và lấy các bộ giá trị được named-tuple

Với .items() và .iteritems(), bạn sẽ iterate qua các cột của Pandas DataFrame. Mỗi lần iterate tạo ra một bộ giá trị với tên của cột và dữ liệu cột dưới dạng Series object:

>>> for col_label, col in df.iteritems():
...     print(col_label, col, sep='\n', end='\n\n')
...
      name
6      Hoc
7     Tuan
8      Nam
9      Huy
10    Luan
Name: name, dtype: object

      city
6         HCM
7      Ha Noi
8     Da Nang
9     Long An
10        HCM
Name: city, dtype: object

      age
6     41
7     28
8     33
9     34
10    38
Name: age, dtype: int64

      py-core
6     88.0
7     79.0
8     81.0
9     80.0
10    68.0
Name: py-core, dtype: float64

      php-score
6     86.0
7     81.0
8     78.0
9     88.0
10    74.0
Name: php-score, dtype: float64

Với .iterrows(), bạn iterate qua các hàng của Pandas DataFrame. Mỗi lần iterate lại tạo ra một tuple với tên của hàng và dữ liệu hàng dưới dạng Series object:

>>> for row_label, row in df.iterrows():
...    print(row_label, row, sep='\n', end='\n\n')
...
6
name          Hoc
city          HCM
age            41
py-core      88.0
php-score    86.0
Name: 6, dtype: object

7
name           Tuan
city         Ha Noi
age              28
py-core        79.0
php-score      81.0
Name: 7, dtype: object

8
name             Nam
city         Da Nang
age               33
py-core         81.0
php-score       78.0
Name: 8, dtype: object

9
name             Huy
city         Long An
age               34
py-core         80.0
php-score       88.0
Name: 9, dtype: object

10
name         Luan
city          HCM
age            38
py-core      68.0
php-score    74.0
Name: 10, dtype: object

Tương tự, với .itertuples(), nó sẽ iterate qua các hàng và trong mỗi lần iterate tạo ra một named tuple với (optionally) index và data:

>>> for row in df.loc[:, ['name', 'city', 'age']].itertuples():
...     print(row)
...
Pandas(Index=6, name='Hoc', city='HCM', age=41)
Pandas(Index=7, name='Tuan', city='Ha Noi', age=28)
Pandas(Index=8, name='Nam', city='Da Nang', age=33)
Pandas(Index=9, name='Huy', city='Long An', age=34)
Pandas(Index=10, name='Luan', city='HCM', age=38)

Bạn có thể chỉ định tên của tuple bằng tham số name, 'Pandas' là giá trị default. Bạn cũng có thể chỉ định label hàng với index, với giá trị default là True.

>>> for row in df.loc[:, ['name', 'city', 'age']].(name='JunVu2VN', index=False):
...     print(row)
...
JunVu2VN(name='Hoc', city='HCM', age=41)
JunVu2VN(name='Tuan', city='Ha Noi', age=28)
JunVu2VN(name='Nam', city='Da Nang', age=33)
JunVu2VN(name='Huy', city='Long An', age=34)
JunVu2VN(name='Luan', city='HCM', age=38)

Phần 6 đến đây là kết thúc rồi. Xin chào và hẹn gặp các bạn ở phần tiếp theo nhé!!!