Kaggleの初心者向けプログラム「30 Days of ML」に挑戦中。

Day14の課題

  1. the Intermediate ML CourseのLesson 6のチュートリアルを読む
  2. the Intermediate ML CourseのLesson 6のexerciseを実施する
  3. the Intermediate ML CourseのLesson 7のチュートリアルを読む
  4. the Intermediate ML CourseのLesson 7のexerciseを実施する

the Intermediate ML CourseのLesson 6の内容

  • XGBoost(= eXtreme Gradient Boosting)

覚えておきたいと思った点

  • XGBRegressorを使う
    • Early Stoppingもできる
    • n_jobsで使用するコア数を指定できる
      • データが多い場合に有効
  • パラメータのチューニング
    • n_estimators: 100~1000くらい
    • early_stopping_rounds: 5くらい?
    • learning_rate: デフォルトは0.1

the Intermediate ML CourseのLesson 7の内容

  • data leakage

覚えておきたいと思った点

  • Target Leakage
    • 予測を行う時点で知り得ないデータが混入
  • Train-Test Contamination (Contamination = 汚染)
    • 訓練データとテストデータを分割する前に前処理をしてしまうことにより、精度が落ちる
    • 検証データやテストデータを学習に使用してしまうことにより、ある特定のデータに対してのみ精度が上がり、未知のデータに対する精度が落ちる