「データサイエンス100本ノック」の生みの親はなぜ「3言語のサポート」と「Docker」にこだわったのか:目指したのは初学者向けの「Kaggle」(1/2 ページ)
データサイエンスに興味がある技術者の間で話題になった「データサイエンス100本ノック(構造化データ加工編)」。生みの親である森谷和弘氏によると、この取り組みが生まれた背景には「データ分析の最も大きいニーズに応える環境がない」という課題があったという。
2020年6月15日、一般社団法人データサイエンティスト協会(以下、データサイエンティスト協会)は、データサイエンス初学者が構造化データの集計・加工を効率的に学べる演習環境「データサイエンス100本ノック(構造化データ加工編)」を、「GitHub」で無償公開した。公開直後からデータサイエンスに関わる技術者の間で大きな話題を集め、その内容や利用法を紹介するコンテンツがネット上で数多く公開された。
このデータサイエンス100本ノックの「生みの親」ともいえるのが、データ解析設計事務所の森谷和弘氏だ。同氏はフリーランスのデータサイエンティストとして活動する傍ら、データアナリティクスラボの取締役CTO(最高技術責任者)として、データサイエンティスト人材を一から育成して企業に派遣する事業に携わっている。
本稿では、データサイエンス100本ノックのこだわったポイントや活用するためのコツ、今後の展望について森谷氏に聞いた。
目指したのは初学者向けの「Kaggle」
データサイエンティスト協会において森谷氏は、スキル定義委員会のメンバーとして「データサイエンティスト スキルチェックリスト」の策定などに関わっている。そんな同氏がデータサイエンス100本ノックの構想を初めて打ち出したのは、2019年1月のことだった。
「スキル定義委員会の年初の会合で、『今年はメンバー各自でどんな活動をしたい?』という話題になりました。スキル定義委員会では全体での活動の他、『各委員が個人レベルでやりたいことをやる』ということも推奨しており、その場で以前から温めていたデータサイエンス100本ノックのアイデアを提案したところ、他の委員に賛同してもらいました」
データサイエンティスト協会スキル定義委員会の主なミッションは、データサイエンティストが備えるべきスキルセットの全体像を定義した「スキルチェックリスト」の策定で、2015年に初版が公開されて以降、年々内容のブラッシュアップを進め、2019年11月には第3版が公開されている。
スキルチェックリストは主に、これからデータサイエンティストを目指す技術者が身に付けるべきスキルセットを細かく提示しているが、これらを学習するための「実践の場」が足りないと森谷氏は以前から感じていたという。
「『Kaggle』のような、一定のスキルを持つデータサイエンティストが腕を磨くための学習環境はありましたが、初学者が基礎を学ぶための学習環境は少ない印象でした。自然言語処理や画像認識処理など、非構造化データの処理に特化した学習コンテンツは存在していたのですが、世の中のデータ分析ニーズの大半を占める『構造化データの集計・加工』に特化した学習コンテンツは見当たりませんでした」
データサイエンスで「データ集計・加工スキル」が重要な理由
森谷氏によると、企業のデータ分析で扱うデータはリレーショナルデータベースや「Microsoft Excel」シート、CSV形式のファイルなどに格納された「正規化済みの構造化データ」が多く、分析にはPythonやRのライブラリがよく使われているという。ただ、これらのライブラリを利用するには、まずデータをライブラリに正しく投入できる形に集計し、加工する必要がある。データ分析において、実はこのデータ集計・加工が作業の大半を占める。
「まずは、高度なデータ分析や可視化を行うための入り口となる構造化データ集計・加工のスキルを身に付けることが、優れたデータサイエンティストを育成するための第一歩となるはず、と考えました」
森谷氏がデータサイエンス100本ノックのアイデアを思い立った背景には、こうした目的意識があった。
2019年の初めから実際のコンテンツ作成作業に取り掛かった同氏だったが、データサイエンティスト協会の活動はボランティアだったため、普段の本業の隙間時間を使って少しずつ作業を進め、約1年半後にようやく完成に至った。
Copyright © ITmedia, Inc. All Rights Reserved.