4.5K 238 63

Đã đăng vào thg 5 10, 2022 10:20 SA

trong

3 phút đọc

962

Cleaning dữ liệu với một số package có sẵn, tại sao không nhỉ?

MayFest2022

Bài đăng này đã không được cập nhật trong 4 năm

Xin chào các bạn, hôm nay mình sẽ chia sẻ một bài viết về chủ đề làm sạch dữ liệu, như mọi người cũng biết bước làm sạch dữ liệu cực kì quan trọng trước khi đưa vào phân tích dữ liệu hoặc huấn luyện mô hình. Mình tình cờ đọc được bài viết sử dụng thư viện có sẵn để làm sạch dữ liệu và mình thấy nó khá là hay và còn rút ngắn được thời gian làm sạch dữ liệu. Bây giờ chúng ta cùng nhau tìm hiểu nhé.

Pyjanitor

Pyjanitor là một triển khai của gói Janitor R để làm sạch dữ liệu bằng các phương pháp chuỗi trên môi trường Python. Pyjanitor dễ sử dụng với một API trực quan được kết nối trực tiếp với Pandas. Trên thực tế, chúng ta cũng đều biết pandas cung cấp rất nhiều tính năng làm sạch dữ liệu hữu ích như, dropna() để giảm giá trị null và todummies để mã hóa phân lọai. Pyjanitor nâng cao tính năng đó của Pandas như thế nào mình cùng xem nhé..

Import and Install

Để sử dụng được Pyjanitor chúng ta tiến hành cài đặt và gọi đến Pyjanitor:

pip install pyjanitor

import và check version

import janitor
janitor.__version__!

Hình: pyjanitor version

Ở đây mình dùng pyjanitor version 0.23.1. Tiếp theo chúng ta sẽ dùng thử package này xem như thế nào nhé. Đầu tiên mình sẽ tạo data sau đó sẽ thử với pandas và janitor

stocks = {"CompanyName":["Roku","Google",pd.NA],
         "DATE":["20202912","20202912",pd.NA],
         "STOCK Price":["300","1700",pd.NA],
          "DIvidend":[pd.NA,pd.NA,pd.NA]}

Convert data sang dạng dataFrame :

stocks_df = pd.DataFrame.from_dict(stocks)
stocks_df

Hình 2: dataframe

làm sạch dữ liệu với Pandas:

# Delete a column from the DataFrame. Say 'DIvidend'
del stocks_df['DIvidend']

# Drop rows that have empty values in columns 
stocks_df = stocks_df.dropna(subset=['DATE', 'STOCK Price'])

Hoặc sử dụng với api

stocks_df = (
    pd.DataFrame(stocks)
    .drop(columns="DIvidend")
    .dropna(subset=['DATE', 'STOCK Price'])
)

Kết quả của cả 2 cách trên sẽ được như dưới đây

Hình: kết quả với pandas

Bây giờ chúng ta sẽ thực hành với pyjanitor

stocks_df.clean_names().remove_empty()

Kết quả như sau:

Hình: pyjanitor

Đổi tên columns trong pyjanitor, ở đây mình đổi companyname thành company:

(stocks_df
 .clean_names()
 .remove_empty()
 .rename_column('companyname',"company"))

Hình: đổi tên columns

Pyjanitor sử dụng api của pandas nên mình thấy nó khá tương tương nhau, nhưng mình thấy pyjanitor code sẽ gọn hơn và nhanh hơn.

Klib

Với Klib chúng ta có thể làm sạch dữ liệu một cách nhanh chóng và rất dễ áp dụng với giá trị mặc định hợp lý có thể được sử dụng trên hầu hết DataFrame, bên cạnh đó còn có thể lấy được thông tin chi tiết của dữ liệu và trực quan hóa dữ liệu.

Đầu tiên mình sẽ sử dụng với data stocks_df như ở trên để làm sạch dữ liệu nhé:

# install klib
!pip install -U klib

# import klib
import klib 
# clean stocks_data
klib.data_cleaning(stocks_df)

Code clean đơn giản đúng không ạ. chúng ta cùng xem kết quả nhé:

Hình: clean dữ liệu với Klib

Ở hình trên chúng ta còn thấy thông xin số columns bị drop , số lượng missing values bị drop nữa.

Tiếp theo chúng ta sử dụng thêm một số tính năng của gói Klib này nha, mình sẽ sử dụng data này nhé

Đầu tiên sẽ đọc dữ liệu ở trên đã nhé:

import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/akanz1/klib/main/examples/NFL_DATASET.csv

Hình: NFL dataset

Plot missing value:

klib.missingval_plot(df)

Hình: plot missing value

Dựa vào hình này chúng ta có thể thấy được data này rất nhiều dữ liệu missing, vì vậy chúng ta cần clean dữ liệu luôn.

df_cleaned = klib.data_cleaning(df)

Kết quả:

Hình: clean dữ liệu

Chúng ta cũng có thể vẽ biểu đồ Correlation:

klib.corr_plot(df_cleaned, annot=False, figsize=(15,12))
klib.corr_plot(df_cleaned, split='pos', annot=False, figsize=(15,12))
klib.corr_plot(df_cleaned, split='neg', annot=False, figsize=(15,12))

Với Klib chúng ta có thể làm rất nhiều việc vừa dễ dàng vừa nhanh chóng.

DataPrep

DataPrep dùng để: làm sạch dữ liệu, phân tích dữ liệu và thu thập dữ liệu. Tuy nhiên trong bài này chúng ta chỉ đề cập đến vấn đề làm sạch dữ liệu thôi.

#  install
pip install dataprep

Ở đây mình cũng sử dụng dữ liệu titanic nha mn

from dataprep.datasets import load_dataset
from dataprep.eda import create_report
df = load_dataset("titanic")
df.head()

Với dataprep chúng ta có thể xuất ra 1 report hoàn chỉnh như sau:

create_report(df).show_browser()

Hình: report

Như ở hình trên chúng ta có thể thấy một báo cáo hoàn chỉnh và chúng ta có thể tương tác trực tiếp trên báo cáo này luôn. Phân tích dữ liệu game là dễ =))) mình đùa thôi nhưng package này đúng là support tận răng luôn á. Tiếp theo chúng ta sẽ thử xem tính răng clean_headers của package dataprep này nhé:

from dataprep.clean import clean_headers
clean_headers(df, case = 'const').head()

Hình: clean_headers

Và khi chúng ta muốn chuyển tên cột thành chữ thường thay vì chữ in hoa.

clean_headers(df, case = 'camel').head()

Hình: clean_headers với tên columns là chữ thường

Khi muốn có một DataFrame sạch hoàn chỉnh, chúng ta có thể sử dụng API clean_df từ DataPrep. API này sẽ có hai đầu ra - kiểu dữ liệu và DataFrame đã được làm sạch.

from dataprep.clean import clean_df
inferred_dtypes, cleaned_df = clean_df(df)

Hình: làm sạch toàn bộ dữ liệu

Bên cạnh việc phân tích dữ liệu gói dataprep còn cung cấp thêm tính năng thu thập dữ liệu nữa các bạn cùng tìm hiểu ở đây nhé.

scrubadub

Scrubadub là một gói Python mã nguồn mở để xóa thông tin nhận dạng cá nhân khỏi dữ liệu văn bản. Scrubadub hoạt động bằng cách xóa dữ liệu cá nhân được phát hiện và thay thế nó bằng một số nhận dạng văn bản như {{EMAIL}} hoặc {{NAME}}.

Đầu tiên chúng ta cùng cài đặt scrubadub

!pip install scrubadub

import scrubadub

text = "My cat can be contacted on example@example.com, or 1800 555-5555"
scrubadub.clean(text)

Kết quả:

Hình: kết qủa

Kết Luận

Ở bài viết này mình đã sử dụng một số package để làm sạch dữ liệu giúp cho công việc làm sạch dữ liệu thuận tiện, nhanh chóng và đơn giản hơn. Cảm ơn mọi người đã đọc bài viết của mình, mong nhận được sự góp ý của mọi người.