検索

僕たちのKaggle挑戦記

僕たちのKaggle挑戦記

Kaggle初心者がKaggleに挑戦した過程や得られた知見などを記事化していく連載。執筆者と読者が初心者レベル同士だからこそできる意見効果/悩み共有/情報提供を行っていきます。

■ 一色パート ■

I-第1回 Kaggle初心者のためのコンペガイド ― Titanicの先へ(2021/08/30)

  • 本連載の目的
  • 初心者のためのコンペガイド
    ・構造化データ
     - 表形式データ
    ・非構造化データ
     - 画像/動画
     - 音声
     - テキスト/言語
     - ゲーム/ロボット
  • Kaggleを始めるのに役に立ったこと
    ・1. 「30 Days of ML」プログラム
    ・2. 英語は何とかなる
    ・3. 世界中の人はもっと気楽にコミュニケーションしている
    ・4. 世の中は良コンテンツであふれている
    ・5. Kaggle日記というアイデア

I-第2回 「無料のKaggle公式講座×コンペ初参戦」で機械学習を始めよう(2021/09/13)

  • 壁「Titanicの次」を突き破る! オススメの方法
  • Kaggle公式講座の入門〜中級で描ける成長曲線
  • 住宅価格コンペに参戦するまでにするべきこと
  • 1日目(Top 90%): ベースラインを作る
  • 2日目(Top 67%):ランダムフォレストのパラメーター調整(チューニング)
  • 3日目(Top 49%): 欠損値(Missing Values)の前処理
  • 4日目(ランクアップせず): カテゴリー変数(Categorical Variables)の前処理
  • 5日目(ランクアップせず): パイプライン(Pipelines)の作成と利用
  • 6日目(Top 8%): 交差検証(Cross-Validation)の採用
  • 7日目(Top 3%): XGBoostの利用
  • 8日目(Top 1%): AutoMLの利用

I-第3回 Kaggleで学ぶ、k-fold交差検証と、特徴量エンジニアリング(2021/10/25)

  • 壁「Titanicの次」を突き破る! オススメの方法【第二弾】
  • 上記のYouTube動画で描ける成長曲線と、1位の解法との比較
  • 0日目(Top 90%): ベースライン
    ・バージョン管理の必要性
    ・コードのバージョン管理
    ・モデルのバージョン管理
    ・データのバージョン管理
  • 番外編(Top 45%):AutoML
  • 1日目(Top 42%):交差検証
    ・前半:交差検証を行うための準備
    ・後半:XGBoostによるモデルの作成
  • 2日目(ランクアップせず):特徴量エンジニアリング
    ・[カテゴリー変数]序数エンコーディング
    ・[カテゴリー変数]ワンホットエンコーディング
    ・数値変数のエンコーディングについて
    ・[数値変数]標準化
    ・[数値変数]正規化(Min-Max法)
    ・[数値変数]対数変換
    ・[数値変数]多項式と交互作用の特徴量
  • 2日目(ランクアップせず):ターゲットエンコーディング
    ・[カテゴリー変数]ターゲットエンコーディング

I-第4回 Kaggleで学ぶ、Optunaによるハイパーパラメーター自動チューニング(2021/12/01)

  • 3日目(Top 23%):ハイパーパラメーターの自動チューニング

I-第5回 Kaggleで学ぶ、モデルのブレンディングとスタッキング(2021/12/02)

  • 4日目(Top 20%):モデルブレンディング
    ・ブレンディング/スタッキングとは
    ・モデルブレンディングの構成について
    ・[Level 0]ベースとなる、複数の機械学習モデルを作る
    ・[Level 0→1]予測結果から新たなデータセットを作る
    ・[Level 1]最終となる、1つのメタモデルを作る
    ・ホールドアウト法を用いたモデルブレンディングについて
  • 4日目(ランクアップせず):モデルスタッキング
    ・モデルスタッキングの構成について
    ・[Level 0]ベースとなる、複数の機械学習モデルを作る
    ・[Level 0→1]予測結果から新たなデータセットを作る
    ・[Level 1]中間となる、複数のメタモデルを作る
    ・[Level 1→2]予測結果から新たなデータセットを作る
    ・[Level 2]最終となる、1つのメタモデルを作る

■ かわさきパート ■

K-第1回 Titanicから始めよう:ベースラインの作成とユーティリティースクリプトの記述(2021/11/26)

  • ご挨拶
  • 今回やったこと
  • バージョン0
  • バージョン2
  • バージョン4
  • だが、しかし

K-第2回 Titanicから始めよう:データを可視化して、EDAのまねごとをしてみた(2021/12/10)

  • 探索的データ分析とは
  • 各列の相関とヒートマップの表示
  • 性別による生死の違い
  • 旅客運賃
  • おまけ:random_split関数を使ってK-fold交差検証するためのコード

K-第3回 Titanicから始めよう:特徴量エンジニアリングのまねごとをしてみた(2021/12/24)

  • one-hotエンコーディングしてみる
  • 複数の特徴量から1つの特徴量を作ってみる
  • ビニングしてみる
  • 特徴量エンジニアリングの結果

K-第4回 Titanicから始めよう:ハイパーパラメーターチューニングのまねごとをしてみた(2022/01/24)

  • でも、その前に
  • ハイパーパラメーターチューニング
    ・学習と検証を行うコード
    ・チューンで使用する学習用関数を呼び出すコード
  • チューン後のモデルの検証とテストデータから生死を推定

K-第5回 Titanicから始めよう:GridSearchCVクラスを使ってハイパーパラメーターチューニングしてみた(2022/02/04)

  • scikit-learnのMLPClassifierクラス
  • GridSearchCVクラスを使ってハイパーパラメーターチューニングを行う

■ 作業環境編 ■

E-第1回 環境編:VS CodeでKaggleしよう!(2022/02/18)

  • Kaggle API
  • kaggleパッケージのインストール
  • クレデンシャルの取得
  • kaggleパッケージの基本的な使い方
  • コンペに関する処理
  • データセットに関する処理
  • カーネルに関する処理
  • ノートブックをローカル環境で実行し、結果をサブミットする

E-第2回 環境編:VS CodeからPythonでKaggle APIを呼び出してみよう(2022/03/04)

  • Kaggle API
  • Pythonのコードからkaggle APIにアクセスするには
  • コンペ一覧とデータセットの取得
  • データセットの検索とダウンロード
  • カーネル
ページトップに戻る