Kaggle's 30 Days of ML - Day14
Kaggleの初心者向けプログラム「30 Days of ML」に挑戦中。
Day14の課題
- the Intermediate ML CourseのLesson 6のチュートリアルを読む
- the Intermediate ML CourseのLesson 6のexerciseを実施する
- the Intermediate ML CourseのLesson 7のチュートリアルを読む
- the Intermediate ML CourseのLesson 7のexerciseを実施する
the Intermediate ML CourseのLesson 6の内容
- XGBoost(= eXtreme Gradient Boosting)
覚えておきたいと思った点
XGBRegressor
を使う- Early Stoppingもできる
n_jobs
で使用するコア数を指定できる- データが多い場合に有効
- パラメータのチューニング
n_estimators
: 100~1000くらいearly_stopping_rounds
: 5くらい?learning_rate
: デフォルトは0.1
the Intermediate ML CourseのLesson 7の内容
- data leakage
覚えておきたいと思った点
- Target Leakage
- 予測を行う時点で知り得ないデータが混入
- Train-Test Contamination (Contamination = 汚染)
- 訓練データとテストデータを分割する前に前処理をしてしまうことにより、精度が落ちる
- 検証データやテストデータを学習に使用してしまうことにより、ある特定のデータに対してのみ精度が上がり、未知のデータに対する精度が落ちる