僕たちのKaggle挑戦記

僕たちのKaggle挑戦記

Kaggle初心者がKaggleに挑戦した過程や得られた知見などを記事化していく連載。執筆者と読者が初心者レベル同士だからこそできる意見効果／悩み共有／情報提供を行っていきます。

■ 一色パート ■

I-第1回　Kaggle初心者のためのコンペガイド ― Titanicの先へ（2021/08/30）

本連載の目的
初心者のためのコンペガイド
・構造化データ
　- 表形式データ
・非構造化データ
　- 画像／動画
　- 音声
　- テキスト／言語
　- ゲーム／ロボット
Kaggleを始めるのに役に立ったこと
・1. 「30 Days of ML」プログラム
・2. 英語は何とかなる
・3. 世界中の人はもっと気楽にコミュニケーションしている
・4. 世の中は良コンテンツであふれている
・5. Kaggle日記というアイデア

I-第2回　「無料のKaggle公式講座×コンペ初参戦」で機械学習を始めよう（2021/09/13）

壁「Titanicの次」を突き破る！　オススメの方法
Kaggle公式講座の入門～中級で描ける成長曲線
住宅価格コンペに参戦するまでにするべきこと
1日目（Top 90％）：ベースラインを作る
2日目（Top 67％）：ランダムフォレストのパラメーター調整（チューニング）
3日目（Top 49％）：欠損値（Missing Values）の前処理
4日目（ランクアップせず）：カテゴリー変数（Categorical Variables）の前処理
5日目（ランクアップせず）：パイプライン（Pipelines）の作成と利用
6日目（Top 8％）：交差検証（Cross-Validation）の採用
7日目（Top 3％）： XGBoostの利用
8日目（Top 1％）： AutoMLの利用

I-第3回　Kaggleで学ぶ、k-fold交差検証と、特徴量エンジニアリング（2021/10/25）

壁「Titanicの次」を突き破る！　オススメの方法【第二弾】
上記のYouTube動画で描ける成長曲線と、1位の解法との比較
0日目（Top 90％）：ベースライン
・バージョン管理の必要性
・コードのバージョン管理
・モデルのバージョン管理
・データのバージョン管理
番外編（Top 45％）：AutoML
1日目（Top 42％）：交差検証
・前半：交差検証を行うための準備
・後半：XGBoostによるモデルの作成
2日目（ランクアップせず）：特徴量エンジニアリング
・［カテゴリー変数］序数エンコーディング
・［カテゴリー変数］ワンホットエンコーディング
・数値変数のエンコーディングについて
・［数値変数］標準化
・［数値変数］正規化（Min-Max法）
・［数値変数］対数変換
・［数値変数］多項式と交互作用の特徴量
2日目（ランクアップせず）：ターゲットエンコーディング
・［カテゴリー変数］ターゲットエンコーディング

I-第4回　Kaggleで学ぶ、Optunaによるハイパーパラメーター自動チューニング（2021/12/01）

3日目（Top 23％）：ハイパーパラメーターの自動チューニング

I-第5回　Kaggleで学ぶ、モデルのブレンディングとスタッキング（2021/12/02）

4日目（Top 20％）：モデルブレンディング
・ブレンディング／スタッキングとは
・モデルブレンディングの構成について
・［Level 0］ベースとなる、複数の機械学習モデルを作る
・［Level 0→1］予測結果から新たなデータセットを作る
・［Level 1］最終となる、1つのメタモデルを作る
・ホールドアウト法を用いたモデルブレンディングについて
4日目（ランクアップせず）：モデルスタッキング
・モデルスタッキングの構成について
・［Level 0］ベースとなる、複数の機械学習モデルを作る
・［Level 0→1］予測結果から新たなデータセットを作る
・［Level 1］中間となる、複数のメタモデルを作る
・［Level 1→2］予測結果から新たなデータセットを作る
・［Level 2］最終となる、1つのメタモデルを作る

■ かわさきパート ■

K-第1回　Titanicから始めよう：ベースラインの作成とユーティリティースクリプトの記述（2021/11/26）

ご挨拶
今回やったこと
バージョン0
バージョン2
バージョン4
だが、しかし

K-第2回　Titanicから始めよう：データを可視化して、EDAのまねごとをしてみた（2021/12/10）

探索的データ分析とは
各列の相関とヒートマップの表示
性別による生死の違い
旅客運賃
おまけ：random_split関数を使ってK-fold交差検証するためのコード

K-第3回　Titanicから始めよう：特徴量エンジニアリングのまねごとをしてみた（2021/12/24）

one-hotエンコーディングしてみる
複数の特徴量から1つの特徴量を作ってみる
ビニングしてみる
特徴量エンジニアリングの結果

K-第4回　Titanicから始めよう：ハイパーパラメーターチューニングのまねごとをしてみた（2022/01/24）

でも、その前に
ハイパーパラメーターチューニング
・学習と検証を行うコード
・チューンで使用する学習用関数を呼び出すコード
チューン後のモデルの検証とテストデータから生死を推定

K-第5回　Titanicから始めよう：GridSearchCVクラスを使ってハイパーパラメーターチューニングしてみた（2022/02/04）

scikit-learnのMLPClassifierクラス
GridSearchCVクラスを使ってハイパーパラメーターチューニングを行う

■ 作業環境編 ■

E-第1回　環境編：VS CodeでKaggleしよう！（2022/02/18）

Kaggle API
kaggleパッケージのインストール
クレデンシャルの取得
kaggleパッケージの基本的な使い方
コンペに関する処理
データセットに関する処理
カーネルに関する処理
ノートブックをローカル環境で実行し、結果をサブミットする

E-第2回　環境編：VS CodeからPythonでKaggle APIを呼び出してみよう（2022/03/04）

Kaggle API
Pythonのコードからkaggle APIにアクセスするには
コンペ一覧とデータセットの取得
データセットの検索とダウンロード
カーネル

スポンサーからのお知らせPR

SpecialPR

注目のテーマ

あなたにおすすめの記事PR

@ITについて

RSSについて

＠ITのRSS一覧

アイティメディアIDについて

アイティメディアIDとは

メールマガジン登録

＠ITのメールマガジンは、もちろん、すべて無料です。ぜひメールマガジンをご購読ください。

申し込みページへ

ITmediaはアイティメディア株式会社の登録商標です。

メディア一覧 | 公式SNS | 広告案内 | お問い合わせ | プライバシーポリシー | RSS | 運営会社 | 採用情報 | 推奨環境