0

Áp dụng nhiều thuật toán Machine Learning (ML) để giải quyết các bài toán như: dự đoán giá xe, dự đoán lượng xe tồn kho, thời gian bán xe, hoặc xác định tính năng nào ảnh hưởng mạnh đến giá bán.

1. Bài toán & thuật toán phù hợp

Bài toán ML Mô tả Thuật toán phù hợp
🔮 Dự đoán giá bán xe (pred) Dựa vào đặc điểm xe, tính năng, thời gian đăng bán - Linear Regression (cơ bản)
- XGBoost / LightGBM (mạnh mẽ, cho structured data)
- Random Forest Regression
- Neural Network (MLP)
📦 Dự đoán số lượng xe còn tồn kho (mov_ave_xx_predict_car) Cho biết có bao nhiêu xe sẽ tồn trong 30/60/90 ngày tới - Time Series Regression (ARIMA, Prophet)
- Gradient Boosted Trees
- LSTM (nếu dữ liệu có chuỗi thời gian dài)
Dự đoán số ngày để bán xe (days) Hỗ trợ người bán biết khi nào xe sẽ bán được - Survival Analysis (Cox Regression)
- Regression
🎯 Phân loại xe dễ bán / khó bán (judg_pm5, judg_pm10) Phân nhóm xe có sai số giá bán lớn/nhỏ - Classification (Binary/Multiclass)
→ Logistic Regression, XGBoost, Random Forest
🧠 Feature Importance Biết tính năng nào ảnh hưởng đến giá bán - Tree-based models (XGBoost, RF)
- SHAP / Permutation Importance
🧪 Đánh giá độ chính xác mô hình (abs, true, pred) Đo lường sai số - MAE, RMSE, MAPE, R² Score

📊 Đặc điểm dữ liệu gợi ý model:

  • Tabular data (structured): phù hợp với XGBoost, LightGBM, CatBoost.
  • Có nhiều cột categorical: cần encode (Label/One-hot), hoặc dùng CatBoost (xử lý trực tiếp categorical).
  • Có nhiều cột boolean (0/1): là dữ liệu input quan trọng cho tree-based model.
  • Dữ liệu dạng chuỗi thời gian (StartPublished, days, Reference_date) → phù hợp với mô hình time series.

🧰 Pipeline gợi ý:

Raw Data →
  Data Cleaning →
    Feature Engineering (encode categorical, normalize, extract features from date) →
      Train/Test Split →
        Model Training (XGBoost / RandomForest / etc.) →
          Evaluation (MAE, RMSE, R²) →
            Model Deployment

🔧 Gợi ý công cụ triển khai:

  • Python + scikit-learn (cho baseline model)
  • XGBoost / LightGBM cho hiệu quả cao
  • TensorFlow/Keras nếu dùng MLP hoặc RNN
  • SHAP để giải thích mô hình

All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí