検索
TOP
AIを作り動かし守り生かす
ロー/ノーコード
クラウドネイティブ
MS&Windows
僕たちのKaggle挑戦記
僕たちのKaggle挑戦記
Kaggle初心者がKaggleに挑戦した過程や得られた知見などを記事化していく連載。執筆者と読者が初心者レベル同士だからこそできる意見効果/悩み共有/情報提供を行っていきます。
■ 一色パート ■
I-第1回
Kaggle初心者のためのコンペガイド ― Titanicの先へ
(2021/08/30)
本連載の目的
初心者のためのコンペガイド
・構造化データ
- 表形式データ
・非構造化データ
- 画像/動画
- 音声
- テキスト/言語
- ゲーム/ロボット
Kaggleを始めるのに役に立ったこと
・1. 「30 Days of ML」プログラム
・2. 英語は何とかなる
・3. 世界中の人はもっと気楽にコミュニケーションしている
・4. 世の中は良コンテンツであふれている
・5. Kaggle日記というアイデア
I-第2回
「無料のKaggle公式講座×コンペ初参戦」で機械学習を始めよう
(2021/09/13)
壁「Titanicの次」を突き破る! オススメの方法
Kaggle公式講座の入門〜中級で描ける成長曲線
住宅価格コンペに参戦するまでにするべきこと
1日目(Top 90%): ベースラインを作る
2日目(Top 67%):ランダムフォレストのパラメーター調整(チューニング)
3日目(Top 49%): 欠損値(Missing Values)の前処理
4日目(ランクアップせず): カテゴリー変数(Categorical Variables)の前処理
5日目(ランクアップせず): パイプライン(Pipelines)の作成と利用
6日目(Top 8%): 交差検証(Cross-Validation)の採用
7日目(Top 3%): XGBoostの利用
8日目(Top 1%): AutoMLの利用
I-第3回
Kaggleで学ぶ、k-fold交差検証と、特徴量エンジニアリング
(2021/10/25)
壁「Titanicの次」を突き破る! オススメの方法【第二弾】
上記のYouTube動画で描ける成長曲線と、1位の解法との比較
0日目(Top 90%): ベースライン
・バージョン管理の必要性
・コードのバージョン管理
・モデルのバージョン管理
・データのバージョン管理
番外編(Top 45%):AutoML
1日目(Top 42%):交差検証
・前半:交差検証を行うための準備
・後半:XGBoostによるモデルの作成
2日目(ランクアップせず):特徴量エンジニアリング
・[カテゴリー変数]序数エンコーディング
・[カテゴリー変数]ワンホットエンコーディング
・数値変数のエンコーディングについて
・[数値変数]標準化
・[数値変数]正規化(Min-Max法)
・[数値変数]対数変換
・[数値変数]多項式と交互作用の特徴量
2日目(ランクアップせず):ターゲットエンコーディング
・[カテゴリー変数]ターゲットエンコーディング
I-第4回
Kaggleで学ぶ、Optunaによるハイパーパラメーター自動チューニング
(2021/12/01)
3日目(Top 23%):ハイパーパラメーターの自動チューニング
I-第5回
Kaggleで学ぶ、モデルのブレンディングとスタッキング
(2021/12/02)
4日目(Top 20%):モデルブレンディング
・ブレンディング/スタッキングとは
・モデルブレンディングの構成について
・[Level 0]ベースとなる、複数の機械学習モデルを作る
・[Level 0→1]予測結果から新たなデータセットを作る
・[Level 1]最終となる、1つのメタモデルを作る
・ホールドアウト法を用いたモデルブレンディングについて
4日目(ランクアップせず):モデルスタッキング
・モデルスタッキングの構成について
・[Level 0]ベースとなる、複数の機械学習モデルを作る
・[Level 0→1]予測結果から新たなデータセットを作る
・[Level 1]中間となる、複数のメタモデルを作る
・[Level 1→2]予測結果から新たなデータセットを作る
・[Level 2]最終となる、1つのメタモデルを作る
■ かわさきパート ■
K-第1回
Titanicから始めよう:ベースラインの作成とユーティリティースクリプトの記述
(2021/11/26)
ご挨拶
今回やったこと
バージョン0
バージョン2
バージョン4
だが、しかし
K-第2回
Titanicから始めよう:データを可視化して、EDAのまねごとをしてみた
(2021/12/10)
探索的データ分析とは
各列の相関とヒートマップの表示
性別による生死の違い
旅客運賃
おまけ:random_split関数を使ってK-fold交差検証するためのコード
K-第3回
Titanicから始めよう:特徴量エンジニアリングのまねごとをしてみた
(2021/12/24)
one-hotエンコーディングしてみる
複数の特徴量から1つの特徴量を作ってみる
ビニングしてみる
特徴量エンジニアリングの結果
K-第4回
Titanicから始めよう:ハイパーパラメーターチューニングのまねごとをしてみた
(2022/01/24)
でも、その前に
ハイパーパラメーターチューニング
・学習と検証を行うコード
・チューンで使用する学習用関数を呼び出すコード
チューン後のモデルの検証とテストデータから生死を推定
K-第5回
Titanicから始めよう:GridSearchCVクラスを使ってハイパーパラメーターチューニングしてみた
(2022/02/04)
scikit-learnのMLPClassifierクラス
GridSearchCVクラスを使ってハイパーパラメーターチューニングを行う
■ 作業環境編 ■
E-第1回
環境編:VS CodeでKaggleしよう!
(2022/02/18)
Kaggle API
kaggleパッケージのインストール
クレデンシャルの取得
kaggleパッケージの基本的な使い方
コンペに関する処理
データセットに関する処理
カーネルに関する処理
ノートブックをローカル環境で実行し、結果をサブミットする
E-第2回
環境編:VS CodeからPythonでKaggle APIを呼び出してみよう
(2022/03/04)
Kaggle API
Pythonのコードからkaggle APIにアクセスするには
コンペ一覧とデータセットの取得
データセットの検索とダウンロード
カーネル
総合記事ランキング
【Windows 10】すぐにWindows 11に移行できない人の救済措置「拡張セキュリティ更新プログラム」への登録方法教えます
第304回 「次のNVIDIA」はBroadcomか? “謎の半導体巨人”の知られざる正体
Google、「Gemini in Chrome」提供開始 セキュリティにも注力
【Windows 10/11】画面外に消えたウィンドウ問題はこれで完璧、あらゆるケースに対応する対処法
AI開発は減速しない? 「2030年まで進化は続く」 Epoch AIが予測
NVIDIA、新GPU「Rubin CPX」発表 数百万トークン規模のAI処理を可能に
【Windows 10/11】Path環境変数の設定で「あのコマンド、どこだっけ?」をなくす、Windows効率向上の最強テクニック
「C:ドライブがいっぱい」を回避、Windows 11の「隠れごみ」を根こそぎ削除する究極テク
アップデートでフォント変わった!? Chromeのフォント設定を確認、変更する方法
Google製の“軽量でも高性能”なオープン埋め込みモデル「EmbeddingGemma」登場 オフライン動作で、手元の文書検索に最適