Order data feature Help improve accuracy ?
Chào mọi người
Em là một người mới bắt đầu làm về mảng "Phân tích dữ liệu" nói là phân tích nhưng em lại không hiểu nhiều về lĩnh vực này mà chủ yếu làm về ML engineer. Trong lúc tập tành phân tích thì em vô tính phát hiện ra 1 trong các phương pháp tăng độ chính xác mô hình đó là "Features Selection" em được tiếp cận với phương pháp này thông qua SelectKBest của sklearn thì với một người không "hiểu" các features trên bộ data nói lên hay ảnh hưởng gì thì SelectionKBest là một vị cứu tinh không hể nhỏ. Nhưng lại xảy ra một số vấn đề như sau em mong được mọi người giúp đỡ
Vấn đề: Em chia bộ dữ liệu mình ra thành train vs test (không thay đổi gồm 48 features) sau đó em chạy SelectKBest để chọn ra K best feature tuy thế em không chọn top 10 hay top 20 mà em làm 1 việc táo bạo đó là em chọn hết số features em hiện có là 48 ở đây chúng chỉ khác nhau về thứ tự giảm dần của variance lên output (VD: ban đầu: 1 2 3, ... thì bây giờ SelectkBest: 3, 1 , 2, ... lưu ý: em không bỏ bất cứ feature nào mà chỉ là khác về "Mặt sắp xếp thứ tự") sau đó em cho đi train qua các mô hình lớn như Deep learning, ... thì kết quả trên 2 lần chạy này là hoàn toàn khác nhau Vì: theo em Deep learning có equation tông quát là Y = Wx + c (Y chính xác hay không không phụ thuộc vào thứ tự của x). vì thế khi em ra kq như thế em thực sự rất shock và ko biết do thế lực hay bản thân ko hiểu hết về ML/DL nên lên đây để hỏi các ý kiến của các anh chị
Mong được sự giúp đỡ từ phía mọi người
ps: em có đính kèm 2 ảnh em thực hiện trên cùng 1 bộ train và test set trên Linear Regression nhưng lại cho ra 2 kq khác nhau của
- 1 cái là data có sắp xếp sẽ có loss rất nhỏ
- 1 cái là data không có sắp xếp sẽ bự
em đã kiểm tra dữ liệu cho đến khi đưa vào mô hình và hoàn toàn giống nhau.
Em xin cảm ơn Thái Học