検索
TOP
AIを作り動かし守り生かす
ロー/ノーコード
クラウドネイティブ
MS&Windows
僕たちのKaggle挑戦記
僕たちのKaggle挑戦記
Kaggle初心者がKaggleに挑戦した過程や得られた知見などを記事化していく連載。執筆者と読者が初心者レベル同士だからこそできる意見効果/悩み共有/情報提供を行っていきます。
■ 一色パート ■
I-第1回
Kaggle初心者のためのコンペガイド ― Titanicの先へ
(2021/08/30)
本連載の目的
初心者のためのコンペガイド
・構造化データ
- 表形式データ
・非構造化データ
- 画像/動画
- 音声
- テキスト/言語
- ゲーム/ロボット
Kaggleを始めるのに役に立ったこと
・1. 「30 Days of ML」プログラム
・2. 英語は何とかなる
・3. 世界中の人はもっと気楽にコミュニケーションしている
・4. 世の中は良コンテンツであふれている
・5. Kaggle日記というアイデア
I-第2回
「無料のKaggle公式講座×コンペ初参戦」で機械学習を始めよう
(2021/09/13)
壁「Titanicの次」を突き破る! オススメの方法
Kaggle公式講座の入門〜中級で描ける成長曲線
住宅価格コンペに参戦するまでにするべきこと
1日目(Top 90%): ベースラインを作る
2日目(Top 67%):ランダムフォレストのパラメーター調整(チューニング)
3日目(Top 49%): 欠損値(Missing Values)の前処理
4日目(ランクアップせず): カテゴリー変数(Categorical Variables)の前処理
5日目(ランクアップせず): パイプライン(Pipelines)の作成と利用
6日目(Top 8%): 交差検証(Cross-Validation)の採用
7日目(Top 3%): XGBoostの利用
8日目(Top 1%): AutoMLの利用
I-第3回
Kaggleで学ぶ、k-fold交差検証と、特徴量エンジニアリング
(2021/10/25)
壁「Titanicの次」を突き破る! オススメの方法【第二弾】
上記のYouTube動画で描ける成長曲線と、1位の解法との比較
0日目(Top 90%): ベースライン
・バージョン管理の必要性
・コードのバージョン管理
・モデルのバージョン管理
・データのバージョン管理
番外編(Top 45%):AutoML
1日目(Top 42%):交差検証
・前半:交差検証を行うための準備
・後半:XGBoostによるモデルの作成
2日目(ランクアップせず):特徴量エンジニアリング
・[カテゴリー変数]序数エンコーディング
・[カテゴリー変数]ワンホットエンコーディング
・数値変数のエンコーディングについて
・[数値変数]標準化
・[数値変数]正規化(Min-Max法)
・[数値変数]対数変換
・[数値変数]多項式と交互作用の特徴量
2日目(ランクアップせず):ターゲットエンコーディング
・[カテゴリー変数]ターゲットエンコーディング
I-第4回
Kaggleで学ぶ、Optunaによるハイパーパラメーター自動チューニング
(2021/12/01)
3日目(Top 23%):ハイパーパラメーターの自動チューニング
I-第5回
Kaggleで学ぶ、モデルのブレンディングとスタッキング
(2021/12/02)
4日目(Top 20%):モデルブレンディング
・ブレンディング/スタッキングとは
・モデルブレンディングの構成について
・[Level 0]ベースとなる、複数の機械学習モデルを作る
・[Level 0→1]予測結果から新たなデータセットを作る
・[Level 1]最終となる、1つのメタモデルを作る
・ホールドアウト法を用いたモデルブレンディングについて
4日目(ランクアップせず):モデルスタッキング
・モデルスタッキングの構成について
・[Level 0]ベースとなる、複数の機械学習モデルを作る
・[Level 0→1]予測結果から新たなデータセットを作る
・[Level 1]中間となる、複数のメタモデルを作る
・[Level 1→2]予測結果から新たなデータセットを作る
・[Level 2]最終となる、1つのメタモデルを作る
■ かわさきパート ■
K-第1回
Titanicから始めよう:ベースラインの作成とユーティリティースクリプトの記述
(2021/11/26)
ご挨拶
今回やったこと
バージョン0
バージョン2
バージョン4
だが、しかし
K-第2回
Titanicから始めよう:データを可視化して、EDAのまねごとをしてみた
(2021/12/10)
探索的データ分析とは
各列の相関とヒートマップの表示
性別による生死の違い
旅客運賃
おまけ:random_split関数を使ってK-fold交差検証するためのコード
K-第3回
Titanicから始めよう:特徴量エンジニアリングのまねごとをしてみた
(2021/12/24)
one-hotエンコーディングしてみる
複数の特徴量から1つの特徴量を作ってみる
ビニングしてみる
特徴量エンジニアリングの結果
K-第4回
Titanicから始めよう:ハイパーパラメーターチューニングのまねごとをしてみた
(2022/01/24)
でも、その前に
ハイパーパラメーターチューニング
・学習と検証を行うコード
・チューンで使用する学習用関数を呼び出すコード
チューン後のモデルの検証とテストデータから生死を推定
K-第5回
Titanicから始めよう:GridSearchCVクラスを使ってハイパーパラメーターチューニングしてみた
(2022/02/04)
scikit-learnのMLPClassifierクラス
GridSearchCVクラスを使ってハイパーパラメーターチューニングを行う
■ 作業環境編 ■
E-第1回
環境編:VS CodeでKaggleしよう!
(2022/02/18)
Kaggle API
kaggleパッケージのインストール
クレデンシャルの取得
kaggleパッケージの基本的な使い方
コンペに関する処理
データセットに関する処理
カーネルに関する処理
ノートブックをローカル環境で実行し、結果をサブミットする
E-第2回
環境編:VS CodeからPythonでKaggle APIを呼び出してみよう
(2022/03/04)
Kaggle API
Pythonのコードからkaggle APIにアクセスするには
コンペ一覧とデータセットの取得
データセットの検索とダウンロード
カーネル
総合記事ランキング
【保存版】非対応PCでもOK? Windows 10をWindows 11最新版にアップグレードする裏技
「Windows 10」はサポート終了直前でもシェア40% “Windows 11未移行”PCの行方は
“世界最高のコーディングモデル”をうたう「Claude Sonnet 4.5」登場 長時間タスク対応と安全設計
Googleスプレッドシート←→Excelの相互利用ガイド:関数やマクロの互換性に注意せよ
【Windows 10】すぐにWindows 11に移行できない人の救済措置「拡張セキュリティ更新プログラム」への登録方法教えます
【Windows 10/11】画面外に消えたウィンドウ問題はこれで完璧、あらゆるケースに対応する対処法
Windows 10のサポート終了後も使い続けたい人に贈る 拡張セキュリティ更新プログラムを1年だけ無料にする条件と登録方法
【Windows 10→11アップグレード最終案内】スムーズな移行を実現するための完全ガイド
国内VMwareクラウド事業者を大量切り捨て 残るのは数社のみ
「Python 3.14」で公式サポートに移行したフリースレッド版Pythonとは? その進化の道筋