2021年度リクルート入社の2人のKaggle Grandmasterにインタビュー。Kaggle Grandmasterを目指すために意識しておくべきポイントや戦略について解説する。これを読んで、データサイエンティストとして“最高峰”の称号を目指そう。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
この連載では、近年話題のコンペティションプラットフォーム「Kaggle」について、リクルート所属のKaggle Masterの4人が、Kaggleの仕組みや取り組み方、初心者から一歩先にいくためのノウハウについて解説してきました。
連載を振り返ると、第1回では、これからKaggleを始めようと思っている方向けに、Kaggleの仕組みやコンペティション(以下、コンペ)への取り組み方、初心者におすすめのコンテンツについて解説を行いました。
また第2回では、ランクを上げていくために筆者が「実際に何をしていたか」について、実際の事例を交えながら説明を行いました。
そして第3回では、「他のチームとの差をつける ―メダル受賞、Kaggle Masterの道―」をテーマに行われた、4人のKaggle Masterによる座談会の模様をレポートし、ゴールドメダルを取得したからこそ言える、上位入賞を目指すための実践的なポイントを紹介し、実践的なアドバイスをお伝えしました。
最終回となる第4回では、第3回の座談会でも話題に上っていたKaggle Grandmasterの称号を持つ、2021年度リクルート入社の2人へのインタビュー(対談)を通じて、Kaggle Grandmasterを目指すために意識しておくべきポイントや戦略について解説します。
最初に、Kaggleの最高位Grandmasterを獲得するために取り組んできたことについて尋ねてみました。
大学在学中の2020年10月にCompetition Grandmaster、2021年3月にはNotebook Grandmasterを相次いで取得する“離れ業”を成し遂げた中間康文さん。しかし、Kaggleに参加し始めた1年間は、銅(ブロンズ)メダルにも届かないほどだったといいます。
それでも諦めず、Kaggleの参加を続けていくうちに基礎的な知識やスキルを身に付け、開始から2年目には金メダルを獲得しました。「実は、2年目頃からソロでの参加だけでなく、いろいろな人たちとチームを組むようになり、そこでチームメイトから感化されたり、さまざまな学びを得たりすることで実力が向上し、その結果、金メダルを取得できたと思っています」
チームでの参加では、「この人たちと参加することで自分が成長できるか、そこをポイントにして決めています。それは、チームメイトが互いにメリットを感じなければ、チームとして参加する意味がないと考えるからです。スコアが近い人同士でチームを組めば確実にメリットは得られますし、チームメイトが互いの強みを理解し高め合える関係が築けるチーム作りを理想にしてきたように思います」と語っています。
その上で、ソロかチームかを判断する基準は、参加するコンペで何を目指すのか、目的に応じて設定しているといいます。「一人でどこまで行けるかチャレンジしたいのであれば、ソロでの参加になるでしょう。一方で、できるだけ多くの知見や経験を蓄積したいのであれば、チームメイトから学べるチャンスと、格段に学びのスピードアップが見込めるチームでの参加をお勧めします。ただし、Grandmasterになるには5つのゴールドメダルのうち、1つはソロによる取得が必要です」
一方、入社後の2021年6月にGrandmasterを取得した荒居秀尚さんは、初めて参加したコンペで銅(ブロンズ)メダルを獲得。しかし、その後は公開ノートブックのパラメータをチューニングすることに終始していたこともあり、1年以上昇進できず伸び悩んでいたといいます。
その転機となったのが、ゴールドメダルを初めて獲得した、環境音を認識するコンペ『Freesound Audio Tagging 2019』でした。「それまで音データを使った経験がない中での参加であったこともあり、関連分野に至るまで、一般的に過去にどのような取り組みが行われていたかを徹底的にリサーチしたことが奏功し、ゴールドメダルの取得に至ったように思います」
さらに、もう一つの転機として挙げているのが、手書きのベンガル語の文字画像を読み取るコンペ『Bengali.AI Handwritten Grapheme Classification』。シンプルな手法でも精度98%程度を出すことができるといわれるこのコンペに「いけるだろう」という気持ちで参加すると、意外にも“痛い目”に遭うことに。荒居さんは、母音や子音などで構成されるベンガル語の文字の組み合わせが、全て学習データとして明示されていると思い込み、課題に取り組んでいたとのこと。ところが課題を終えた後に、実は出題文にはその組み合わせが全て学習データに与えられていたわけではなく、“与えられていない組み合わせも出てくる”と記述されていたことが判明。「このコンペはここが重要なポイントで、そこに気付いたチームと気付かなかったチームでスコアに大きな差が出ました。課題自体は、ベンガル語の文字を読み取ることなのですが、少し深い視点で考えて未知の文字が出てくるという“本質的な課題”を察知しておく必要があったのです。これは、このコンペに限らず、他のコンペでも“本質的な課題”が求められるケースは少なくありません。この失敗から、“本質的な課題”があることに気付かされるとともに、出題文はよく読み込む必要があることをあらためて痛感しました」
また、荒居さんは参加するコンペについては、準備期間を含めて3カ月ほどの時間を投資することを鑑みて、“どのような学びが得られるか”の視点で判断して慎重に選んでいると話します。「時間の浪費はしたくないので、『これは今まで知らなかった領域だけど、学んでみると自分にとってプラスになりそうだな』と思えるコンペを選んでいます」
次のテーマは、「Kaggleに参加するきっかけと、Grandmasterになるための原動力」について。
Kaggleを始めたのは、大学4年次になる直前の3年次の3月という中間さん。きっかけとなったのは、大学の講義で機械学習を学んでいく中で、実践の機会が乏しいことに危機感を抱き、学んだことを実践できる“場”を必要としていた時。3日間の短期インターン先を見つけ、そこで住宅価格を予測するコンペ『House Prices』に参加できたことでした。
「初めてKaggleに触れた時に、大学の講義で学んできた機械学習を実践できる“場”があることを知りました。またコンペの中で『結構いいモデルが作れている』という手応えと自信を得られたことや、他のデータサイエンティストとの競争が楽しいと感じられたことが、それ以降Kaggleにのめり込んでいく原動力になっています」
Copyright© Digital Advantage Corp. All Rights Reserved.