Kaggleの面白さはどこにあるのだろうか。
2人の共通した意見は「普段目にしないデータが提供され、触れられるところ」だという。
「NFLやワクチン、海外の不動産、eコマースの購買履歴など、Kaggleに参加しなければ機会のなかったデータにたくさん触れられるのが面白いと感じています」(中間さん)
今まで見えなかったものがデータを分析すると見えてくるようになる。現実世界のいろいろな事象をデータサイエンスの世界から見ることで、新しい発見があるのはとても刺激的だ。しかもKaggle上では多種多様なコンペが開催されているため、探せばいくらでも未知の領域のデータと出会えるのである。
また、機械学習エンジニアの立場からは、機械学習モデルの実装で競うところにも魅力があるという。
「私が参加した『Bengali.AI Handwritten Grapheme Classification』は、手書きのベンガル語の文字画像を読み取るコンペでした。ベンガル語の1文字は3つの部分から構成されていて、それぞれの部分に、漢字の『部首』に相当する記号が配置され、文字全体を構成します。コンペで提供された学習データセットは、部首単体で見ると全種類が網羅されていましたが、組み合わせで見ると網羅されていませんでした。しかしテストデータの方には学習データには出てこない組み合わせがあるため、それに対応できないと勝ち抜けませんでした」(荒居さん)
このように、与えられたデータからいかに多くのことを予見できるか、データに隠された裏のテーマを看破できるかが勝敗を分けることもあるという。
「『Data Science Bowl 2019』というコンペは、幼児教育用のアプリの使用ログから、その利用者がアプリ内で行われるテストをクリアするのに何回くらい試行が必要か、を予測するものでした。このデータを使って予測モデルを組んでみると、『画面をタップした数が多いユーザーは、テストをクリアするのに必要な試行が多い(≒テストにおけるパフォーマンスが低い)』という傾向があることが分かりました。この原因を突き止めるために、実際にアプリを自分で使ってみると、次のようなことが分かりました。
アプリの操作は、スマホの画面でタップやドラッグ&ドロップをして行います。また、『テストに似た問題を幾つか解いた上でテストを受ける』という流れで操作します。自分でアプリを使ってみたら、『問題の解き方が明確に分かっていないと、問題を解くためにタップやドラッグなどの操作を多くしてしまう』ことが分かり、さらに『問題を解くときのタップ数が多いユーザーは、問題の解き方が明確に分かっていなかった→テストでも解き方が分からないため、試行回数が多くなる』という関係があることが分かりました。
このように、ログデータを眺めているときに『そのログを生成した人間の行動はどのようなものだろうか』と想像力を膨らませたり、(今回のゲームのように)実際にそのログを生成できる環境があるのであれば試してみたりすることが、機械学習のコンペで良い成績を取るためには重要です」(荒居さん)
普段は目にしない珍しいデータであっても、普段から目にしているありふれたデータであっても、まずはデータそのものに興味を持てるかどうかが大切だということだ。荒居さんのベンガル語文字OCRの例でも、ベンガル語の文字そのものに興味を持たなければ、その先にある組み合わせの広がりを予見できなかったはずだ。
Kaggle上には、本当にさまざまなコンペがある。その中から自分が興味を持てるテーマを選べるのも、Kaggleの大きな魅力の一つだ。
「Kaggle グランドマスター インタビュー」、後編はヤンググランドマスターの2人がどのような就職活動を行い、社会人となった今、どのようにKaggleと向き合っているのかを伺う。
Copyright © ITmedia, Inc. All Rights Reserved.