検索
TOP
AIを作り動かし守り生かす
ロー/ノーコード
クラウドネイティブ
MS&Windows
僕たちのKaggle挑戦記
僕たちのKaggle挑戦記
Kaggle初心者がKaggleに挑戦した過程や得られた知見などを記事化していく連載。執筆者と読者が初心者レベル同士だからこそできる意見効果/悩み共有/情報提供を行っていきます。
■ 一色パート ■
I-第1回
Kaggle初心者のためのコンペガイド ― Titanicの先へ
(2021/08/30)
本連載の目的
初心者のためのコンペガイド
・構造化データ
- 表形式データ
・非構造化データ
- 画像/動画
- 音声
- テキスト/言語
- ゲーム/ロボット
Kaggleを始めるのに役に立ったこと
・1. 「30 Days of ML」プログラム
・2. 英語は何とかなる
・3. 世界中の人はもっと気楽にコミュニケーションしている
・4. 世の中は良コンテンツであふれている
・5. Kaggle日記というアイデア
I-第2回
「無料のKaggle公式講座×コンペ初参戦」で機械学習を始めよう
(2021/09/13)
壁「Titanicの次」を突き破る! オススメの方法
Kaggle公式講座の入門〜中級で描ける成長曲線
住宅価格コンペに参戦するまでにするべきこと
1日目(Top 90%): ベースラインを作る
2日目(Top 67%):ランダムフォレストのパラメーター調整(チューニング)
3日目(Top 49%): 欠損値(Missing Values)の前処理
4日目(ランクアップせず): カテゴリー変数(Categorical Variables)の前処理
5日目(ランクアップせず): パイプライン(Pipelines)の作成と利用
6日目(Top 8%): 交差検証(Cross-Validation)の採用
7日目(Top 3%): XGBoostの利用
8日目(Top 1%): AutoMLの利用
I-第3回
Kaggleで学ぶ、k-fold交差検証と、特徴量エンジニアリング
(2021/10/25)
壁「Titanicの次」を突き破る! オススメの方法【第二弾】
上記のYouTube動画で描ける成長曲線と、1位の解法との比較
0日目(Top 90%): ベースライン
・バージョン管理の必要性
・コードのバージョン管理
・モデルのバージョン管理
・データのバージョン管理
番外編(Top 45%):AutoML
1日目(Top 42%):交差検証
・前半:交差検証を行うための準備
・後半:XGBoostによるモデルの作成
2日目(ランクアップせず):特徴量エンジニアリング
・[カテゴリー変数]序数エンコーディング
・[カテゴリー変数]ワンホットエンコーディング
・数値変数のエンコーディングについて
・[数値変数]標準化
・[数値変数]正規化(Min-Max法)
・[数値変数]対数変換
・[数値変数]多項式と交互作用の特徴量
2日目(ランクアップせず):ターゲットエンコーディング
・[カテゴリー変数]ターゲットエンコーディング
I-第4回
Kaggleで学ぶ、Optunaによるハイパーパラメーター自動チューニング
(2021/12/01)
3日目(Top 23%):ハイパーパラメーターの自動チューニング
I-第5回
Kaggleで学ぶ、モデルのブレンディングとスタッキング
(2021/12/02)
4日目(Top 20%):モデルブレンディング
・ブレンディング/スタッキングとは
・モデルブレンディングの構成について
・[Level 0]ベースとなる、複数の機械学習モデルを作る
・[Level 0→1]予測結果から新たなデータセットを作る
・[Level 1]最終となる、1つのメタモデルを作る
・ホールドアウト法を用いたモデルブレンディングについて
4日目(ランクアップせず):モデルスタッキング
・モデルスタッキングの構成について
・[Level 0]ベースとなる、複数の機械学習モデルを作る
・[Level 0→1]予測結果から新たなデータセットを作る
・[Level 1]中間となる、複数のメタモデルを作る
・[Level 1→2]予測結果から新たなデータセットを作る
・[Level 2]最終となる、1つのメタモデルを作る
■ かわさきパート ■
K-第1回
Titanicから始めよう:ベースラインの作成とユーティリティースクリプトの記述
(2021/11/26)
ご挨拶
今回やったこと
バージョン0
バージョン2
バージョン4
だが、しかし
K-第2回
Titanicから始めよう:データを可視化して、EDAのまねごとをしてみた
(2021/12/10)
探索的データ分析とは
各列の相関とヒートマップの表示
性別による生死の違い
旅客運賃
おまけ:random_split関数を使ってK-fold交差検証するためのコード
K-第3回
Titanicから始めよう:特徴量エンジニアリングのまねごとをしてみた
(2021/12/24)
one-hotエンコーディングしてみる
複数の特徴量から1つの特徴量を作ってみる
ビニングしてみる
特徴量エンジニアリングの結果
K-第4回
Titanicから始めよう:ハイパーパラメーターチューニングのまねごとをしてみた
(2022/01/24)
でも、その前に
ハイパーパラメーターチューニング
・学習と検証を行うコード
・チューンで使用する学習用関数を呼び出すコード
チューン後のモデルの検証とテストデータから生死を推定
K-第5回
Titanicから始めよう:GridSearchCVクラスを使ってハイパーパラメーターチューニングしてみた
(2022/02/04)
scikit-learnのMLPClassifierクラス
GridSearchCVクラスを使ってハイパーパラメーターチューニングを行う
■ 作業環境編 ■
E-第1回
環境編:VS CodeでKaggleしよう!
(2022/02/18)
Kaggle API
kaggleパッケージのインストール
クレデンシャルの取得
kaggleパッケージの基本的な使い方
コンペに関する処理
データセットに関する処理
カーネルに関する処理
ノートブックをローカル環境で実行し、結果をサブミットする
E-第2回
環境編:VS CodeからPythonでKaggle APIを呼び出してみよう
(2022/03/04)
Kaggle API
Pythonのコードからkaggle APIにアクセスするには
コンペ一覧とデータセットの取得
データセットの検索とダウンロード
カーネル
総合記事ランキング
AIがバラバラなUIを作る問題、これで解決? Google提唱の新標準「DESIGN.md」とは
これなら分かる「LLM Wiki」 メモや資料をAIで整理し、使える知識に育てる新しい発想
【Excel新関数】もうオートフィルターはいらない? 「FILTER関数」でデータ抽出を完全自動化
2026年6月にWindows 11が起動不能に? 「セキュアブート証明書」期限切れリスクと対策
【実録】自社に届いたCEO詐欺メールを徹底解析 狙われる企業に共通する3つの「隙」
【Windows 11】仕事ができる人のPC設定。実務に効く5つのカスタマイズ
多要素認証をすり抜ける、あなたの「承認」が命取りに。AI時代のデバイスコード悪用攻撃の巧妙な手口
なぜ攻撃者はMSBuildが大好きなのか? 最新の攻撃手法を解説
Adobe製品に「緊急」の脆弱性 PDFファイルを開くだけで攻撃可能
「ソフトウェア産業は『未曾有の危機』に突入」 GMO Flatt Security米内氏に聞く“axios侵害”の教訓