＠IT
AI IoT
Deep Insider
DataRobot概説：データサイエンティストでない人に...

DataRobot概説：データサイエンティストでない人に、データサイエンティストっぽく働いてもらおう：AI・機械学習のツール＆ライブラリ

データサイエンティスト不足が社会問題になっている。昨今、データサイエンティストでない人でも機械学習モデルを自動生成できるツールやサービスが多数登場しているが、その一つであるDataRobotにどのような機能があり、どのようにデータサイエンティスト不足問題を改善しようとしているかを解説する。

» 2019年10月07日 05時00分公開

[中山晴之，DataRobot Japan Customer Facing Data Scientist]

印刷

通知

連載「AI・機械学習のツール＆ライブラリ」の新着をメールで通知

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

連載目次

空前のデータサイエンティスト不足、の件について

　今、空前のデータサイエンティスト不足である。需要に対して供給が追いつかない。どれほど不足しているのか、そして将来どれほど不足することになるのか、まず、需要の面を見ていこう。

　みずほ情報総研によるAI（人工知能）人材の需給に関する試算を図1に示す。これは、経済産業省から委託されてみずほ情報総研が試算し『- IT 人材需給に関する調査 - 調査報告書』として2019年3月に公開されたものを筆者がグラフ化したものである（注：同報告書中の「CAGR（年平均成長率）：約16.1％」に基づきグラフ化している）。

図1　AI人材全体の需給に関する試算（みずほ情報総研の試算を筆者がグラフ化）

　このグラフからいえることは、需要は指数関数的に増大する、ということだ。

　その背景にあるのがAI利活用の増大である。
　社会の中で「AIを使って何とかしたい」企業が増えている。
　その企業の中で「AIを使って何とかしたい」部署が増えている。
　その部署の中で「AIを使って何とかしたい」課題が増えているのだ（図2）。

図2　AIが止まらない

　でも、自分たちだけでは何もできない。データサイエンティストが必要だ。しかも、一人のデータサイエンティストが取り組むことができる課題の数には限りがあるので、課題の数に比例してデータサイエンティストの数も増やさなくてはいけない。

　その結果、上記の試算によれば、2030年には、日本国内で約26万5000人のAI人材が必要となると考えられている。

　次に供給サイドを見ていこうと思うが、その前に、データサイエンティストとはどういう人なのかを知る必要がある。

データサイエンティストってどうしたらなれるの、の件について

　データサイエンティストになるのは簡単ではない。ましてや、データサイエンティストを育てるのはもっと簡単ではない。

　データサイエンティストになるためには、図3に示すような3つの知識が必要になると言われている。

データサイエンティストになるには、数学・統計学の知識、ITの技術スキル、ドメイン知識が必要になると言われている

図3　データサイエンティストとは

　まず、数学・統計学の知識が必要となる。AIを使うのは、データを使って、何かを予測したり、判別したりするためであるが、その手法（アルゴリズムと呼ぶ）には非常に多くの種類がある。その中から、最も高い精度で予測／判別する手法を選び出さなければならないが、その選択はどういうデータを使って何を予測／判別するかに依存し、数学・統計学の知識（と経験）が必要になる。

　次に、ITの技術スキルが必要になる。データを使って、何かを予測したり、判別したりするためには、データから傾向を学習した「モデル」と呼ばれるものを作成する必要があるが、そのモデルを作るにも使うにもコンピュータを使う必要があるため、単にプログラミングにとどまらず、環境の構築から実装までの幅広いITの技術スキルが必要とされる。

　そして、課題の解決には、その課題特有のドメイン知識が必要となる。ドメイン知識がないと、そもそも何が課題かも分からないし、課題を特定できても、AIを使えば解決できるのか、解決するにはどのようなデータを集めたらよいのか、そしてそれらを集められるのか、得られた予測結果をどのように使ったらよいのか、その結果どれぐらいのリターンがあるのか、といったことも分からない。

　では、周りを見回してみよう。あなたの周りにこうした人はいるだろうか？　候補者ならばいるだろうか？

　求人票にこうしたスペックを書いてみよう。どれだけの応募者が見込めるだろうか？

　恐らく首を横に振っているのではないだろうか？　だからこの記事を読んでいるのではないだろうか？

データサイエンティストを増やすのは難しい、件について

　2018年6月15日に閣議決定された「統合イノベーション戦略」に基づき、内閣に「統合イノベーション戦略推進会議」が設置され、『ＡＩ戦略 2019　～人・産業・地域・政府全てにＡＩ～』を策定しようとしている。その2019年6月11日の第5回会議資料には、次のように書かれている（※涵養＝「かんよう」と読む。養成すること）。

　デジタル社会の基礎知識（いわゆる「読み・書き・そろばん」的な素養）である「数理・データサイエンス・ＡＩ」に関する知識・技能、新たな社会の在り方や製品・サービスをデザインするために必要な基礎力など、持続可能な社会の創り手として必要な力を全ての国民が育み、社会のあらゆる分野で人材が活躍することを目指し、2025 年の実現を念頭に今後の教育に以下の目標を設定：

全ての高等学校卒業生が、「理数・データサイエンス・ＡＩ」に関する基礎的なリテラシーを習得。また、新たな社会の在り方や製品・サービスのデザイン等に向けた問題発見・解決学習の体験等を通じた創造性の涵養

データサイエンス・ＡＩを理解し、各専門分野で応用できる人材を育成（約 25 万人/年）

データサイエンス・ＡＩを駆使してイノベーションを創出し、世界で活躍できるレベルの人材の発掘・育成（約 2,000 人/年、そのうちトップクラス約 100 人/年）

数理・データサイエンス・ＡＩを育むリカレント教育を多くの社会人（約 100 万人/年）に実施（女性の社会参加を促進するリカレント教育を含む）

留学生がデータサイエンス・ＡＩなどを学ぶ機会を促進

　まず、上記のような目標を設定するのは必要だし、すばらしいことだ。

　しかし、実現するのはかなり難しい。

　まず、データサイエンティストは、本人が「なりたい」と思わなければなれない。周りが「ならせよう」とすればなるものではない。何らかのカリキュラムを修了すればなれるものではなく、継続的に勉強していくことが必要だ。

　また、教育を受ける側を増やすだけでは駄目で、教育を授ける側も増やさなければならない。すなわち、「データサイエンスとAIを理解し、各専門分野で応用できる人材」を年間25万人輩出しようとするならば、25万人を教育できる体制を整えなくてはならない。

　来年からプロ野球の試合数を2倍にするのでプロ野球選手を2倍にしよう（しかも試合の質を落とさずに）、といっているに等しいことをやろうとしている。

　そのため、前述のみずほ情報総研による『- IT 人材需給に関する調査 - 調査報告書』では、AI人材の供給は線形にしか増大しないと予測しており、2030年の供給量は約12万人にとどまると予測されている。指数関数的に増える需要と線形にしか増えない供給、ここにギャップが生まれる。

　この試算が正しければ、2030年には約14万5000人のデータサイエンティストが不足することになる。すなわち、14万5千人分の課題が未解決のまま放置される恐れがあるのだ。これは、企業にとって、社会にとって、大きな損失といわざるを得ない。

　このデータサイエンティストの需要と供給とのギャップを埋めるにはどうしたら良いのだろうか？

データサイエンティスト不足問題を改善するための手段、の件について

　データサイエンティスト不足問題を改善する手段の一つとして考えられるのが、AIの自動化である。データサイエンティストの作業を極力自動化するツールやサービスを提供することで、データサイエンティストの作業効率を大幅に向上するとともに、データサイエンティストではない人でもドメイン知識さえあればデータサイエンティストと同じ成果が得られるようにするのである。

　このAIの自動化のツールやサービスは既に提供され始めていて、大きく分けて2種類ある。

　一つは、主に音声や画像といった非構造化データを対象とした専用ツールまたは専用サービスである。「Microsoft Cognitive Services」や「Google Vision AI」「Amazon Rekognition」などが例としてあげられる。

　もう一つは、主に構造化データ（特に、表形式にフォーマットされたデータ）を対象とした汎用ツールまたは汎用サービスである。「Microsoft Azure Machine Learning」や「Google Cloud AutoML」「DataRobot」などが例としてあげられる。

　特に、後者の汎用ツール／サービスは、様々な課題の解決に適用できるため、データサイエンティスト不足問題を改善する有効な手段になり得ると期待される。ここからは、汎用ツール／サービスのリーディングカンパニーであり機能が非常に豊富なDataRobotを例にとり、AI（機械学習）がどのように自動化されるかを具体的に示していく。

DataRobotを使ってデータサイエンティスト不足問題を大きく改善する、件について

　さて、DataRobotは、AI（機械学習）の自動化により、以下の2つの効果をもたらし、データサイエンティスト不足問題を改善しようとしている*1。

1. データサイエンティストの生産性を上げる

　例えば、これまで一人のデータサイエンティストが5個の課題しか取り組むことができていない状況において、生産性を倍にして10個の課題に取り組むことができるようになれば、データサイエンティストの数が2倍になるに等しい効果が得られることになる。

2. データサイエンティストではない人がデータサイエンティストと同じ仕事をできるようにする

　ドメイン知識は十分に持っており、「Microsoft Excel」を使ってデータ分析を行っている、「ビジネスアナリスト」と呼ばれる人は意外と多い。この記事を読んでいるあなたもそうかもしれないし、周りを見回せばそうした人はいくらでもいるのではないだろうか？

*1　その他、DataRobot社では、AI人材を増やすために、さまざまな有償トレーニング、無償ワークショップを提供したり、教育機関を対象にエデュケーショナルライセンスとAI人材育成プログラム教材を提供したりしている。また、お客様個別にサクセスプランを作成し、AIを使ってさまざまな課題を解決するサポートを提供している。

　そうした人が、数学＆統計学の知識やITの技術スキルがなくてもデータサイエンティストと同様のことができるとしたら、どうだろう？　これこそがDataRobotの目指す世界である（図4）。

ビジネスアナリストが、数学・統計学の知識やITの技術スキルがなくてもデータサイエンティストと同様のことができるようにする

図4　DataRobotの目指す世界

　具体的には、以下のような機能を持つプラットフォームを提供している（図5）。

使用するデータと予測や判別の対象に応じて、最適なアルゴリズムと前処理を自動で選択する
複数のアルゴリズムを使って複数のモデルを一気に高速に作成できるようにする
複数のモデルの中から、課題の解決に最良のモデルを容易に選択できるようにする
モデルをブラックボックスにしない。どのようにモデルを作ったのか、どういうモデルができたのか、が分かるようにする
モデルをシステムに組み込むことが容易にできるようにする

DataRobotは、データサイエンティストではない人がデータサイエンティストと同様のことができるAIプラットフォームを提供する

図5　DataRobotの提供するAIプラットフォーム

　果たして、こんなことが可能なのか？　そう疑う読者も多いだろう。

　可能なのである。だから、既に、日本国内で150社以上の企業が導入しているのである。

　百聞は一見にしかず。次章では、DataRobotのバーチャル誌上デモをご覧いただこう。

DataRobotのバーチャル誌上デモ、の件について

　これから、バーチャルなデモをご覧いただく。

　このデモは、貸し倒れを予測するデモである。新しくお金を借りに来た人が、きちんとお金を返してくれるか、くれないか、を予測する。

トレーニングデータ

　データは、アメリカでP2P（ピアツーピア）レンディングサービスを提供しているLending Clubが公開しているデータを使う。P2Pレンディングサービスでは、お金を借りる側だけでなく、お金を貸す側も個人である。今までお金を貸したことがない人もたくさんおり、そうした人にとっては、誰がきちんと返してくれそうかを判断するのが難しい。そのため、Lending Clubでは、そうした人のために、これまでのお金の貸し借りのデータを公開しているのである。

　データの一部を図6に示す。1行が1件のお金の貸し借りを示す。

図6　トレーニングデータの一部

　主な特徴量（説明変数）を以下に示す。

ローンの額
ローンの目的
ローン申請者の属性：年収、勤務先、勤務年数、住所（州と郵便番号）
ローン申請者の過去の貸し借りの履歴
貸し倒れ

　最後の「貸し倒れ」が予測対象（ターゲット）である。

　トレーニングには過去のデータを使用するため、これらのデータでは貸し倒れたか否かが分かっている。貸し倒れた場合（お金をきちんと返してくれなかった場合）はTRUE、貸し倒れなかった場合はFALSEとなる。このデータの場合、TRUEの比率は約16％で、6.25人に1人はきちんと返してくれない。

　そこで、この比率を少しでも下げることが課題となる。ここにAIを使う。この過去のデータから、どういう人が貸し倒れしやすいかを学習して、その学習結果（モデル）を使って、新しくお金を借りに来た人が貸し倒れる確率を予測し、貸し倒れる確率が低いと予測された人にだけお金を貸そうというわけだ。

データのアップロードとモデルの作成の開始

　モデルの作成は、わずか3ステップで完了する。

データをアップロードする
ターゲットに「貸し倒れ」を設定する
［開始］ボタンを押す

　図7が初期画面である。ここにデータのファイルをドラッグ＆ドロップするだけでアップロードが始まる。

図7　DataRobotの初期画面

　環境としてはSaaS版とオンプレミス版の2種類がある。セキュリティを主な理由として、オンプレミス版が選択されることも多い。

　アップロードが終わったら、図8のようにターゲットに「貸し倒れ」を設定し、右側の［開始］ボタンを押すだけで、モデルの作成が始まる。あとは、DataRobotが自動で最適なモデルを作成してくれるのを待つだけである。

図8　ターゲットの設定と開始ボタン

モデルの作成と確認

　［開始］ボタンが押されると、DataRobotは、アップロードされたデータを解析し、そのデータに最適なアルゴリズムと前処理の組み合わせ（ブループリント）を自動で複数選び出す。DataRobotには、現在約2000個のブループリントと呼ばれるアルゴリズムと前処理の組み合わせがあるが、その中から、投入されたデータに最適なものを30～40個自動で選び出すのだ。これは、普通のデータサイエンティストにはできないスゴ技である。すなわち、DataRobotは、データサイエンティストの作業を単に自動化するだけでなく、並のデータサイエンティスト以上のことを自動でしてくれる。そして、選び出した複数のアルゴリズムを使って複数のモデルを並列に作り始める。

　作成されたモデルは、図9に示すリーダーボードに、精度の良い順番に並べられる。最も精度の良いモデルが欲しい場合は、DataRobotが全てのモデルを作り終えるのを待って、一番上のモデルを選択すればよい。

図9　リーダーボード

　でも、モデルを使う前に、どういったモデルができたのか、きちんと確認しよう。

　分類問題の場合、ROC曲線（図10：後述のAUCの算出根拠となる曲線）や混同行列（本稿では説明しないが、予測の当たり外れの分布を示した表）を確認することができる*2。今回の場合、中央下部にあるAUC（Area Under the Curve： 1に近いほど分類能力が高い）は0.69と、（ランダムを示す0.5よりは0.19ポイントほど良いので）まあまあの精度であるといえる。

図10　ROC曲線

*2　回帰問題の場合、予実のプロットや残差プロットを確認することができる。

　また、特徴量のインパクト（図11）という機能を使えば、どの特徴量が予測に影響を与えているかをランキング形式で見ることができる。この機能は、どのアルゴリズムでも使うことができる。すなわち、「ニューラルネットはブラックボックスになってしまって分かりません」ということは起こらない。

　図11を上から順番に見ると、グレードが一番効いていて、年収入、ローン額、ローン目的タイプが続いている。どの特徴量も上位に来ておかしくない。このことから、きちんとしたモデルができているといえる。安心して使えそうだ。

特徴量のインパクトという機能を使えば、どの特徴量が予測に影響を与えているかをランキング形式で見ることができる

図11　特徴量のインパクト

モデルの利用

　モデルは作っておしまいではない。いくら良いモデルができても、使わなければ意味がない。

　このデモの場合、モデルを使って、新しくお金を借りに来た人の貸し倒れる確率を予測したい。新しくお金を借りに来た人の情報（ローン額や個人属性、過去のお金の貸し借りの履歴、など）はデータベースに入るので、そのデータを使って、それぞれの人の貸し倒れる確率を予測するシステムを構築したい。

　モデルをシステムから使えるようにすることをデプロイと呼び、DataRobotでは、図12に示すボタンを押すだけで、簡単にデプロイできる。そのモデルを使って予測するためのREST APIを作成されるので、システムからこのAPIに新しくお金を借りに来た人のデータをJSON形式で投げれば、その人の貸し倒れる確率がJSON形式で返ってくる。

図12　モデルのデプロイ

　以上でデモはおしまいである。

まとめ：データサイエンティスト不足問題を改善するのは絵空事ではない

　先ほどの誌上デモにより、（1）データのアップロード、（2）モデルの作成、（3）モデルの選択と確認、（4）モデルのデプロイまでの一連の作業が、とても簡単に実行できることがお分かりいただけたと思う。このデモで紹介できたのは、ほんの基本機能に過ぎない。DataRobotは、データサイエンティスト不足を補って余りあるほど高機能である。

　ぜひ本稿で、専門知識ゼロでも機械学習を実践できる時代になってきていることを知っていただき、DataRobotなどのプラットフォームを活用することで、データサイエンティスト不足問題を改善、もっといえば解決してほしい。

「AI・機械学習のツール＆ライブラリ」

この連載を「連載記事アラート」に登録する New