検索
TOP
AI for SE
ローコード/ノーコード
クラウドネイティブ
MS&Windows
僕たちのKaggle挑戦記
僕たちのKaggle挑戦記
Kaggle初心者がKaggleに挑戦した過程や得られた知見などを記事化していく連載。執筆者と読者が初心者レベル同士だからこそできる意見効果/悩み共有/情報提供を行っていきます。
■ 一色パート ■
I-第1回
Kaggle初心者のためのコンペガイド ― Titanicの先へ
(2021/08/30)
本連載の目的
初心者のためのコンペガイド
・構造化データ
- 表形式データ
・非構造化データ
- 画像/動画
- 音声
- テキスト/言語
- ゲーム/ロボット
Kaggleを始めるのに役に立ったこと
・1. 「30 Days of ML」プログラム
・2. 英語は何とかなる
・3. 世界中の人はもっと気楽にコミュニケーションしている
・4. 世の中は良コンテンツであふれている
・5. Kaggle日記というアイデア
I-第2回
「無料のKaggle公式講座×コンペ初参戦」で機械学習を始めよう
(2021/09/13)
壁「Titanicの次」を突き破る! オススメの方法
Kaggle公式講座の入門〜中級で描ける成長曲線
住宅価格コンペに参戦するまでにするべきこと
1日目(Top 90%): ベースラインを作る
2日目(Top 67%):ランダムフォレストのパラメーター調整(チューニング)
3日目(Top 49%): 欠損値(Missing Values)の前処理
4日目(ランクアップせず): カテゴリー変数(Categorical Variables)の前処理
5日目(ランクアップせず): パイプライン(Pipelines)の作成と利用
6日目(Top 8%): 交差検証(Cross-Validation)の採用
7日目(Top 3%): XGBoostの利用
8日目(Top 1%): AutoMLの利用
I-第3回
Kaggleで学ぶ、k-fold交差検証と、特徴量エンジニアリング
(2021/10/25)
壁「Titanicの次」を突き破る! オススメの方法【第二弾】
上記のYouTube動画で描ける成長曲線と、1位の解法との比較
0日目(Top 90%): ベースライン
・バージョン管理の必要性
・コードのバージョン管理
・モデルのバージョン管理
・データのバージョン管理
番外編(Top 45%):AutoML
1日目(Top 42%):交差検証
・前半:交差検証を行うための準備
・後半:XGBoostによるモデルの作成
2日目(ランクアップせず):特徴量エンジニアリング
・[カテゴリー変数]序数エンコーディング
・[カテゴリー変数]ワンホットエンコーディング
・数値変数のエンコーディングについて
・[数値変数]標準化
・[数値変数]正規化(Min-Max法)
・[数値変数]対数変換
・[数値変数]多項式と交互作用の特徴量
2日目(ランクアップせず):ターゲットエンコーディング
・[カテゴリー変数]ターゲットエンコーディング
I-第4回
Kaggleで学ぶ、Optunaによるハイパーパラメーター自動チューニング
(2021/12/01)
3日目(Top 23%):ハイパーパラメーターの自動チューニング
I-第5回
Kaggleで学ぶ、モデルのブレンディングとスタッキング
(2021/12/02)
4日目(Top 20%):モデルブレンディング
・ブレンディング/スタッキングとは
・モデルブレンディングの構成について
・[Level 0]ベースとなる、複数の機械学習モデルを作る
・[Level 0→1]予測結果から新たなデータセットを作る
・[Level 1]最終となる、1つのメタモデルを作る
・ホールドアウト法を用いたモデルブレンディングについて
4日目(ランクアップせず):モデルスタッキング
・モデルスタッキングの構成について
・[Level 0]ベースとなる、複数の機械学習モデルを作る
・[Level 0→1]予測結果から新たなデータセットを作る
・[Level 1]中間となる、複数のメタモデルを作る
・[Level 1→2]予測結果から新たなデータセットを作る
・[Level 2]最終となる、1つのメタモデルを作る
■ かわさきパート ■
K-第1回
Titanicから始めよう:ベースラインの作成とユーティリティースクリプトの記述
(2021/11/26)
ご挨拶
今回やったこと
バージョン0
バージョン2
バージョン4
だが、しかし
K-第2回
Titanicから始めよう:データを可視化して、EDAのまねごとをしてみた
(2021/12/10)
探索的データ分析とは
各列の相関とヒートマップの表示
性別による生死の違い
旅客運賃
おまけ:random_split関数を使ってK-fold交差検証するためのコード
K-第3回
Titanicから始めよう:特徴量エンジニアリングのまねごとをしてみた
(2021/12/24)
one-hotエンコーディングしてみる
複数の特徴量から1つの特徴量を作ってみる
ビニングしてみる
特徴量エンジニアリングの結果
K-第4回
Titanicから始めよう:ハイパーパラメーターチューニングのまねごとをしてみた
(2022/01/24)
でも、その前に
ハイパーパラメーターチューニング
・学習と検証を行うコード
・チューンで使用する学習用関数を呼び出すコード
チューン後のモデルの検証とテストデータから生死を推定
K-第5回
Titanicから始めよう:GridSearchCVクラスを使ってハイパーパラメーターチューニングしてみた
(2022/02/04)
scikit-learnのMLPClassifierクラス
GridSearchCVクラスを使ってハイパーパラメーターチューニングを行う
■ 作業環境編 ■
E-第1回
環境編:VS CodeでKaggleしよう!
(2022/02/18)
Kaggle API
kaggleパッケージのインストール
クレデンシャルの取得
kaggleパッケージの基本的な使い方
コンペに関する処理
データセットに関する処理
カーネルに関する処理
ノートブックをローカル環境で実行し、結果をサブミットする
E-第2回
環境編:VS CodeからPythonでKaggle APIを呼び出してみよう
(2022/03/04)
Kaggle API
Pythonのコードからkaggle APIにアクセスするには
コンペ一覧とデータセットの取得
データセットの検索とダウンロード
カーネル
総合記事ランキング
「Windowsメモリ診断ツール」でメモリの不具合をチェックする
コサイン類似度(Cosine Similarity)とは?
互換性チェックをバイパスしてシステム要件を満たさないPCでもWindows 11 2024 Update(バージョン24H2)にする
「SMSは認証に使わないで」 米CISA、モバイル通信を保護する8つのベストプラクティスを公開
無料で読める、東大/京大の「Python教科書」電子書籍
Google Cloudの新AIエージェントツール、Google Agentspaceとは
いまさら聞けない「Hyper-Vホスト」の構成と管理機能
Spring Bootプロジェクトを素早く作成できる「Spring Initializr」の使い方
商用利用も無料になった「VMware Workstation Pro」をダウンロードする方法
ChatGPTライクなUIのローカルLLMを構築できるGPT4Allとは?