深層学習にはどんなデータが使えるのか? どれくらいのデータ量が必要か? ― DLLAB コミュニティ勉強会 2018Q2:イベントから学ぶ最新技術情報
「機械学習・深層学習に向くデータの種類」「PoC(概念実証)段階と実用段階でのデータ収集の違い」「実用段階で精度メンテナンス」「深層学習に必要なデータ量」「アノテーションのクラウドソーシング」「オープンデータ」に関して有識者がコメントしたパネルディスカッションの内容を紹介する。
ご注意:本記事は、@IT/Deep Insider編集部(デジタルアドバンテージ社)が「deepinsider.jp」というサイトから、内容を改変することなく、そのまま「@IT」へと転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。
2018年5月28日(月)、「DLLAB コミュニティ勉強会 2018Q2」が開催された。ディープラーニングの実践活用を促進するための勉強会で、基本的にはビジネスパーソン向けのセミナーである。
各セッション
セッションは、下記の5つだった。
- 『DLLAB ヘルスケア分科会 発足します』
- 『Retail AI 研究会 x DLLAB 連携開始』
- 『AIの下ごしらえラウンドテーブル:データ整備編』
- 『第4次産業革命の向こう側は「移民」か「AI」か!? 〜 IT企業が枝豆を売るワケ 〜』
- 『コミュニティアップデート』
このうち本稿は、3のパネルディスカッション『AIの下ごしらえラウンドテーブル:データ整備編』の内容をレポートする。パネリストは下記の3名だ。
- DefinedCrowd Corp. Chief Biz Dev Officer Aya Zook 氏
- DATUM STUDIO 取締役 CAO(Chief Analytics Officer) 里 洋平 氏
- OPTiM 執行役員/ディレクター 山本 大祐 氏
司会は、日本マイクロソフト 深層学習 事業開発マネージャーの廣野 淳平 氏が務めた(以下、敬称略)。
このセッションでは、「データをどうやって蓄積し整備するか」の考えやノウハウについて、3名のパネリストから聞き出された。ビジネスパーソンだけでなく、データサイエンティストや機械学習エンジニアにとっても参考となる内容だった。本稿ではこれについてまとめる。発言は口語調で記述した。
パネルディスカッション『AIの下ごしらえラウンドテーブル:データ整備編』の内容
各パネリストの自己紹介
廣野 まずは自己紹介をお願いします。
Aya 企業がAIに取り組む際に他社と差別化するには、「眠っている既存のデータのアセット(資産)化を、いかに素早く進めるか」が鍵になると思います。DefinedCrowdの主な事業分野は、音声技術・自然言語処理(NLP)・コンピュータービジョンで、特にAIソリューションの一連の工程において最初の方のデータ収集とアノテーション(=データラベリング)/クレンジング/構造化にフォーカスしています(図2)。
取引先にはデータサイエンティストが存在することを前提としており、モデリングなどはそちらで行います。アノテーションについてはクラウドソーシング(crowdsourcing)のサービスを提供しています(図3)。クラウドワーカーは3万5000人おり、NDA(秘密保持契約)などで信頼性を担保し、かつドメイン知識のある適切な人だけが選ばれるような仕組みになっています。このようにして、データの品質を大切にしています。
里 新卒で入社したヤフーでは、リコメンドエンジンのアルゴリズムなどを作りました。その後も転職してデータ分析などの仕事をした後、4年前に2人でDATUM STUDIOという会社を立ち上げました(図4)。2人ともデータ回りの仕事を15〜20年ほどやってきた経験があります。
人工知能の文脈で行っている業務は、主に「過去の膨大なデータから未来を予測する」ということで、それによって顧客のビジネスの改善を支援しています(図5)。例えば中古車の買い取り価格を未来予測するといった事例があります。
山本 昔、プログラミング言語を作っていたりして、OSやプラットフォームまわりが専門です(参考:図6)。
最近では、五感をハックして空間を認識していく技術や体験を共有する技術に興味を持っています。具体的には、
- 裏側で使われる技術として「ウェアラブル、ドローン、VR/AR」
- それらを支える「ディープラーニング、ブロックチェーン」
- それらをつなぎ合わせる「IoTプラットフォーム」
などを組み合わせて、ユーザー体験を変えること、もっと言うと社会変革を起こすことを目指しています。
深層学習に向くデータの種類
廣野 「弊社にはビッグデータがあるので、AIで何かできないか?」というお客さんが来たら、どういうふうにお答えしますか?
山本 うーん……データの種類によって使う技術やコストが全然違ってくるので、まずは「どの分野なのでしょうか?」というお話から始めることになりますかね。
廣野 実際に、こういうお客さんからの問い合わせは多いですよね。一般の人からすると、「機械学習・深層学習に向いているデータとは何か?」が非常に理解しにくいのが、こういう質問につながっているのではないかと思います。一般の人は、データ収集において何を重視すればよいのでしょうか?
Aya 先ほどの回答と似ていますが、「何を作りたいのか」がまずは大事です。そこでポイントになるのが、「人間がやっていることをAIでスケール化・機械化させる」ということをベースに考えることです。
例えば「チャットボットを作りたい」なら、「人間と人間がやり取りしているQ&AのようなことをAIでスケール化させる」というふうに考えて、Q&Aフォーラムの文字データや音声データを集めることになります。
例えば「CT画像などの医療診断をしたい」なら、「人間が目で見ていることをAIでスケール化させる」というように考えて、収集が必要なデータを絞り込めますよね。
逆にセンサーデータなどは、「人間がやっていること」ではないので、あまり深層学習には適してないのかなと思います。
里 AIを「万能」と思っている人も多くて、そういった上司から「我が社もAIを」という指示が来て、弊社に相談されるケースはよくあります。しかしよく話してみると、そもそもデータを持っていないということもあり、この場合はどうしようもありません。
先ほどの話にもあったように、基本的にAIは「人ができること」しかできません。AIは、人にもできることを、大量にさばいたり、高速にさばいたりといったことが得意です。
人がすでにやって何か予測していることであれば、それは「AIで解決できる」可能性があります。例えば人が「前日の夜空を見て、明日の天気を予想すること」をしているなら、人が見ている「夜空のデータ」を集めて機械学習できます。
逆に「人が誰もやっていないことをAIにさせたいです」という話は、そもそも「AIに何を学習させるのか?」という目的がはっきりしていません。そうなると「取りあえずデータを片っ端から何でも取ってくる」という計画を立てたりして、結果的に機械学習がうまくいきません。「人もやっていないことを、AIでやらせる」というのは現実的には難しいのです。
つまりは繰り返しになりますが、「人がやっていること」で収集対象のデータを絞るのがお勧めです。
廣野 なるほど。少し話を戻しますが、では、先ほどのチャットボットの例で言うと、どういうNLPデータが深層学習にとって“質の高い”と言えるのでしょうか?
Aya Q&Aのシナリオが決まっていて、オントロジー(概念体系)/ドメイン/概念/インテント(意図)がはっきりしているデータの方が、機械学習を行いやすいので、“質の高い”データと言えますね。つまり、まったく使っていない眠っているデータではなく、Q&Aにおいて人が実用しているデータの方が良いということです。
PoC段階と実用段階でのデータ収集の違い
廣野 例えば医療の画像データで病変部位を判定するのに、深層学習で画像認識させる事例があります。こういった例を想定すると、最初はPoC(Proof of Concept:概念実証)から始まってAIを作成していき、完成したら大規模な運用を行う実用段階に移行すると思います。PoCと実用段階では、データの蓄積の仕方は違ってくるのでしょうか?
山本 そうですね。全然違ってくると思います。
最初のPoC段階では、いかにコストをかけずに、質の高いデータセットをどう用意していくかが大事です。既存のものを使って安く早くデータを収集すべきだと思います。
その後、有効な推論モデルが完成して横展開して大規模に運用していく実用段階になると、要求レベルが大きく変わって、「いかに安定して動作するか」といったことが求められるようになります。また、環境が徐々に変わっていくと精度も落ちやすいので、再学習を適宜行って精度を保つ必要も出てきます。さらに、そのモデルを販売してシステムとして売っていくとなると、より多くの考慮点が出てきます。といった点で、PoC段階とはデータ蓄積の仕方は変わってくると思います。
廣野 実用段階に入ると、まるでDevOps(開発と運用の協働に関する概念)の話のようですね。
山本 大正解です。弊社では、DevOpsをOpsOpsしてさらにOpsするみたいな感じで、よく分からないことになっていますね。(会場:笑)
実用段階での精度メンテナンス
Copyright© Digital Advantage Corp. All Rights Reserved.