データサイエンティストが提供する「データ分析ツール」の意図をあらためて考える:Database Watch(2016年11月版)(2/2 ページ)
今後のビジネスに直結するとされる「データ分析」の重要性が叫ばれ、技術も手法も急速に進化してきています。今回は、あらためてデータ分析とデータベースの関連性を整理し、データサイエンティストと呼ばれるスペシャリストがデータ分析で何を重視してるのか、実際の製品を通じて考えます。
ビジネスの予測モデルを機械学習で自動生成する「DataRobot」
もう1つ、データサイエンティストが主導している製品があります。米DataRobotが提供している機械学習プラットフォームです。日本では2015年12月に、物理学博士であり、データサイエンティストでもあるシバタアキラ氏が同社に加わり、2016年7月に新日鉄住金ソリューションズが同社製品「DataRobot」の販売を開始しました。
このDataRobotは世界トップレベルのデータサイエンティストを多く抱えているのが特徴です。データサイエンティストのコミュニティーであるKaggle主催の技術開発コンテストの世界ランキングで1位を経験した人が3人、他にも上位入賞者が多数在席しています。
このKaggle主催のコンテストはシバタ氏に言わせると、「データサイエンティストの天下一武道会」なのだそうです。企業や研究者が解析してもらいたいテーマとサンプルとなるデータを投稿し、世界中のデータサイエンティストがそれぞれのテーマの解となるモデルを投稿。誰のモデルが最適かを競い合います。そんなKaggleの上位入賞者が多く存在するということは、会社自体が「データサイエンティストのドリームチーム」ともいえるでしょう。
ちなみに日本人として最初にDataRobotに加わったシバタ氏は、人工知能を使った情報サービスを提供する白ヤギコーポレーションを設立。また、Pythonとデータをテーマにした勉強会「PyData.Tokyo」で管理者メンバーの1人を務めるなど、多方面で活躍しています。
DataRobotには、データ分析で使われるアルゴリズムが多数ビルトインされており、ビジネスの予測モデルを機械学習して自動生成する機能を持っています。「データサイエンティストのテクニックを持つロボット」が内蔵されているツールと想像するといいでしょう。
ツールでは、データを読み込み、データ項目一覧から予測する対象を選ぶだけで、予測モデルが自動的に次々と作成されていきます。サンプルデータの一部から予測モデルを自動生成しつつ、その残りを別に検証して的確さのスコア付けをしているそうです。
なお、DataRobotはソフトウェアとして提供されています。実行環境はクラウドとオンプレミスのどちらでも可能です。日本では、セキュリティリスクや法的な都合から、「データ分析は(物理的に社外へデータが出てしまう)クラウドではなく、オンプレミスで実施したい」という要望が根強くあるので、そうした声にも応えていけるでしょう。
データは、「データベースにあるかどうか」「ビッグかスモールか」は関係ない
「データサイエンティストレベルの予測モデルを、機械学習で自動生成してくれる」と何が変わるのか、その世界を少しでも想像できたでしょうか。もちろん、いきなり「人間はもう不要」とまでにはなりません。予測モデルが自動作成されたとしても、その取捨選択や業務上の都合や風土などを踏まえた判断には、人間の知識が必要だからです。また、データの分析にはそもそもそのデータが作られていなければならないので、データ生成や収集の仕組みを考えるのも人間の経験が必要だと思います。
ともあれ、データビークルのData Diverにしても、DataRobotにしても、一流のデータサイエンティストのノウハウを製品化しています。何より共通しているのは「ビジネス課題にフォーカスを当てている」ところです。
最後にデータベースウォッチャーとして、やはりデータベースとの関連性も付け加えておきたいと思います。今回取りあげたモダンなデータ分析製品において、データベースの「性能や機能」はあまり関係がないといえるでしょう。データソースがデータベースである必要すらありません。元となるデータは、基幹データベースからということもあれば、Microsoft ExcelやCSVテキストといった身近なファイルも対象になるからです。
しかし、これだけ新しいデータ分析環境であっても、もちろんデータベースであっても、データが最重要であることに代わりはありません。データがビッグかスモールかは本質的なことではなく、また、それはデータの保管場所がデータベースかどうかも同じです。大事なのは、「何のために分析をするのか」「ビジネスでどのような課題を抱えているのか」という分析の目的を明確にしておくことなのですね。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- そもそもサッカーは、データ分析に向くスポーツか
サッカーはデータをどう生かせるのか。データ分析の力は、サッカーをどう変える可能性を秘めているのか。これを探る2回シリーズの前編として、専門家に、サッカーとデータ分析の相性について聞いた。 - ITエンジニアがデータサイエンティストを目指すには?
それぞれの専門分野を生かした「データサイエンスチーム」を結成すればデータ活用への道は短縮できる。そのとき、ITエンジニアはどんな知識があればいい? データサイエンティストとして活動する筆者が必須スキル「だけ」に絞って伝授します。 - 華々しい成果をすぐに出したい人は向いていない――データサイエンティスト
プログラマ、SE(システムエンジニア)、プロジェクトマネジャー――IT業界のさまざまな職業を紹介する本連載。第7回は、以前、米「ハーバード・ビジネス・レビュー」誌で今世紀で最もセクシーな職業と評された「データサイエンティスト」を解説する。 - 企業にとっての「オープンデータ」には、どんな価値があるのか?
官公庁による活動が目立つオープンデータ。実は、一般企業でも面白い展開が考えられる。活用の可能性、検討時の留意点を整理しておこう。