Kaggle Grandmasterへの道 〜 データサイエンティスト“最高峰”を目指すKaggle入門

2021年度リクルート入社の2人のKaggle Grandmasterにインタビュー。Kaggle Grandmasterを目指すために意識しておくべきポイントや戦略について解説する。これを読んで、データサイエンティストとして“最高峰”の称号を目指そう。

» 2021年11月08日 05時00分 公開
[中間康文, 荒居秀尚リクルート]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

「Kaggle入門」のインデックス

連載目次

 この連載では、近年話題のコンペティションプラットフォーム「Kaggle」について、リクルート所属のKaggle Masterの4人が、Kaggleの仕組みや取り組み方、初心者から一歩先にいくためのノウハウについて解説してきました。

 連載を振り返ると、第1回では、これからKaggleを始めようと思っている方向けに、Kaggleの仕組みやコンペティション(以下、コンペ)への取り組み方、初心者におすすめのコンテンツについて解説を行いました。

 また第2回では、ランクを上げていくために筆者が「実際に何をしていたか」について、実際の事例を交えながら説明を行いました。

 そして第3回では、「他のチームとの差をつける ―メダル受賞、Kaggle Masterの道―」をテーマに行われた、4人のKaggle Masterによる座談会の模様をレポートし、ゴールドメダルを取得したからこそ言える、上位入賞を目指すための実践的なポイントを紹介し、実践的なアドバイスをお伝えしました。

 最終回となる第4回では、第3回の座談会でも話題に上っていたKaggle Grandmasterの称号を持つ、2021年度リクルート入社の2人へのインタビュー(対談)を通じて、Kaggle Grandmasterを目指すために意識しておくべきポイントや戦略について解説します。

本対談メンバーの紹介

中間康文(なかまやすふみ)

  • 大学時代は理工学研究科に在籍し開放環境科学を専攻
    データマイニング、オントロジーの研究室に所属
  • インターンをきっかけに、大学3年次の3月からKaggleへの参加を開始
    2020年10月にCompetition Grandmaster取得
    2021年3月にNotebook Grandmaster取得
  • 株式会社リクルートに2021年新卒入社
  • 人材領域のレコメンドシステムの改善を担当
  • 趣味:Kaggleコンペティションへの参加、野球(メジャーリーグ/最近はロサンゼルス・エンゼルス戦を観戦することが多い)

荒居秀尚(あらいひでひさ)

  • 大学時代は航空宇宙工学を専攻
    人工衛星の異常検知などを行う研究室に所属
    ドイツ・ミュンヘンに交換留学(その際、情報科学を専攻)
  • 大学4年次の終わり頃にアルバイト先での依頼をきっかけにKaggleへの参加を開始
    2021年6月にCompetition Grandmaster取得
  • 株式会社リクルートに2021年新卒入社
  • SaaS領域の機械学習のモデル作成・改善・運用(MLOps)、旅行領域の機械学習を活用したAPI作成やデータ分析、飲食領域の機械学習を活用した画像モデル作成を担当
  • 趣味:Kaggleコンペティションへの参加、動画配信サブスク(サイバーパンク、人類滅亡系、近未来、歴史系などを好む)

Kaggle最高位のGrandmasterを獲得するために取り組んできたこと

 最初に、Kaggleの最高位Grandmasterを獲得するために取り組んできたことについて尋ねてみました。

中間さんの場合

 大学在学中の2020年10月にCompetition Grandmaster、2021年3月にはNotebook Grandmasterを相次いで取得する“離れ業”を成し遂げた中間康文さん。しかし、Kaggleに参加し始めた1年間は、銅(ブロンズ)メダルにも届かないほどだったといいます。

 それでも諦めず、Kaggleの参加を続けていくうちに基礎的な知識やスキルを身に付け、開始から2年目には金メダルを獲得しました。「実は、2年目頃からソロでの参加だけでなく、いろいろな人たちとチームを組むようになり、そこでチームメイトから感化されたり、さまざまな学びを得たりすることで実力が向上し、その結果、金メダルを取得できたと思っています」

 チームでの参加では、「この人たちと参加することで自分が成長できるか、そこをポイントにして決めています。それは、チームメイトが互いにメリットを感じなければ、チームとして参加する意味がないと考えるからです。スコアが近い人同士でチームを組めば確実にメリットは得られますし、チームメイトが互いの強みを理解し高め合える関係が築けるチーム作りを理想にしてきたように思います」と語っています。

 その上で、ソロかチームかを判断する基準は、参加するコンペで何を目指すのか、目的に応じて設定しているといいます。「一人でどこまで行けるかチャレンジしたいのであれば、ソロでの参加になるでしょう。一方で、できるだけ多くの知見や経験を蓄積したいのであれば、チームメイトから学べるチャンスと、格段に学びのスピードアップが見込めるチームでの参加をお勧めします。ただし、Grandmasterになるには5つのゴールドメダルのうち、1つはソロによる取得が必要です」

【要点】中間さんがコンペで勝率を上げることができた3つのポイント

  1. コンペに参加すればするほど着実に力が付くので、諦めずに継続して参加する
  2. チームとして参加することで学習スピードが何倍にも加速するため、学びの目的に応じてチームに加わるようにする
  3. Grandmasterを目指すには、コンペの終了後に必ず上位勢の解法やコードをチェックし、次のコンペに備え生かすため習得しておくようにする

荒居さんの場合

 一方、入社後の2021年6月にGrandmasterを取得した荒居秀尚さんは、初めて参加したコンペで銅(ブロンズ)メダルを獲得。しかし、その後は公開ノートブックのパラメータをチューニングすることに終始していたこともあり、1年以上昇進できず伸び悩んでいたといいます。

 その転機となったのが、ゴールドメダルを初めて獲得した、環境音を認識するコンペ『Freesound Audio Tagging 2019』でした。「それまで音データを使った経験がない中での参加であったこともあり、関連分野に至るまで、一般的に過去にどのような取り組みが行われていたかを徹底的にリサーチしたことが奏功し、ゴールドメダルの取得に至ったように思います」

 さらに、もう一つの転機として挙げているのが、手書きのベンガル語の文字画像を読み取るコンペ『Bengali.AI Handwritten Grapheme Classification』。シンプルな手法でも精度98%程度を出すことができるといわれるこのコンペに「いけるだろう」という気持ちで参加すると、意外にも“痛い目”に遭うことに。荒居さんは、母音や子音などで構成されるベンガル語の文字の組み合わせが、全て学習データとして明示されていると思い込み、課題に取り組んでいたとのこと。ところが課題を終えた後に、実は出題文にはその組み合わせが全て学習データに与えられていたわけではなく、“与えられていない組み合わせも出てくる”と記述されていたことが判明。「このコンペはここが重要なポイントで、そこに気付いたチームと気付かなかったチームでスコアに大きな差が出ました。課題自体は、ベンガル語の文字を読み取ることなのですが、少し深い視点で考えて未知の文字が出てくるという“本質的な課題”を察知しておく必要があったのです。これは、このコンペに限らず、他のコンペでも“本質的な課題”が求められるケースは少なくありません。この失敗から、“本質的な課題”があることに気付かされるとともに、出題文はよく読み込む必要があることをあらためて痛感しました」

 また、荒居さんは参加するコンペについては、準備期間を含めて3カ月ほどの時間を投資することを鑑みて、“どのような学びが得られるか”の視点で判断して慎重に選んでいると話します。「時間の浪費はしたくないので、『これは今まで知らなかった領域だけど、学んでみると自分にとってプラスになりそうだな』と思えるコンペを選んでいます」

【要点】荒居さんがコンペで実績を残すために必要だった3つの“超えるべき壁”

  1. 背景知識をしっかりと獲得していく
  2. 問題の本質を捉えるための努力を惜しまない
  3. コンペ選びは、どのような学びが得られるかの視点で判断して慎重に決める

Kaggleに参加しようと思ったきっかけと、Grandmasterを極めるのに至った原動力とは

 次のテーマは、「Kaggleに参加するきっかけと、Grandmasterになるための原動力」について。

中間さんの場合

 Kaggleを始めたのは、大学4年次になる直前の3年次の3月という中間さん。きっかけとなったのは、大学の講義で機械学習を学んでいく中で、実践の機会が乏しいことに危機感を抱き、学んだことを実践できる“場”を必要としていた時。3日間の短期インターン先を見つけ、そこで住宅価格を予測するコンペ『House Prices』に参加できたことでした。

 「初めてKaggleに触れた時に、大学の講義で学んできた機械学習を実践できる“場”があることを知りました。またコンペの中で『結構いいモデルが作れている』という手応えと自信を得られたことや、他のデータサイエンティストとの競争が楽しいと感じられたことが、それ以降Kaggleにのめり込んでいく原動力になっています」

荒居さんの場合

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。