「Human-in-the-loop(HITL)機械学習」とは何か:マイクロソフトとCrowdFlowerが「人間参加型の機械学習製品」をリリース
マイクロソフトとCrowdFlowerが、「Human-in-the-loop(人間参加)」型の機械学習サービス「CrowdFlower AI Powered by Microsoft Azure Machine Learning」をリリースした。「Human-in-the-loop」とは何か。
米マイクロソフトと米CrowdFlowerは2016年10月17日(米国時間)、Human-in-the-loop(人間参加)型の機械学習サービス「CrowdFlower AI Powered by Microsoft Azure Machine Learning(以下、CrowdFlower AI)」を発表した。
CrowdFlowerは、データサイエンティスト向けとなるデータのリッチ化および深層学習によるラベリングプラットフォーム「CrowdFlower」を手掛けている。このプラットフォームでは、人間の知的活動で得られた情報を利用してデータのリッチ化とラベル付けができる。新サービスのCrowdFlower AIでは、CrowdFlowerの技術で活用される人間の知的活動と、「Microsoft Azure Machine Learning」による機械学習を組み合わせて、さまざまなHuman-in-the-loop(HITL)型の機械学習ワークフローを実現するという。
CrowdFlower AIはまず、テキスト分類への適用に重点を置く。マイクロソフトは、このサービスで実現できるHITL機械学習の活用例として、以下を挙げている。
- 多数の履歴書をフィルタリングして少数に絞り込み、採用面接対象者の選考に役立てる
- 顧客サポートチケットの中から、安全に関連する問題/課題を特定する
- 自社の製品やサービスに関連するソーシャルメディア投稿を分類する
HITL機械学習では、機械側で対象作業の大部分を自動化する一方で、機械が対応しきれない場合に人間が補う体制が考慮されている。企業は機械学習の効率と、人間が判断する質の両方の恩恵を受けられる。また、CrowdFlower AIはこれらのテキスト分類処理に加えて、音声処理、画像処理、IoT信号処理といった幅広い分野で適用できるという。
なぜ「Human-in-the-loop」(人間参加型)なのか
例えば米国郵政公社(USPS)では、郵便物の住所を機械で自動認識できなかった場合には職員が判読する体制となっている。このように人間が機械を補完する作業を含む処理も含めて、包括的なソリューションとして自動化できれば効果はさらに上がりそうだ。しかし、これはとても複雑なプロセスとなる。
郵便物の住所を認識できなかった理由は何か。その状況をどうやって解決するのか。人間ならば経験などから状況判断ができる。しかし、データサイエンティストが、このように例外のシーンを想定した機械学習モデルを作成するのには、多くの時間とコストを要する。また、機械学習の予測が不確実なときにのみオンデマンドで人間が介在することや、機械学習モデルと人間の知見を結ぶことも簡単ではなかった。
マイクロソフトとCrowdFlowerが連携した理由はここにある。マイクロソフトが持つ自動機械学習機能「Cortana Intelligence Suite」とCrowdFlowerを組み合わせれば、そのプロセスを大幅に簡素化できるとする。CrowdFlower AIを利用したプロセスでは、データサイエンティストは全く不要となり、オンデマンドで介在する人間を管理する必要もなくなるという。
マイクロソフトは、企業がHITL機械学習によって生産性向上やコスト削減を見込めるビジネス例として、以下を挙げている。
- “干し草の山から針を見つける”ように、作業が極めて大変な場合:例えば、「大量の写真から、森林火災を発見する」
- エラーのコストが高く、人のチェックが望ましい場合:例えば、「大量の写真から、相乗り専用レーン違反を見つける」
- 人による記述が既に使われている場合:例えば、「履歴書の分類」
- 利用可能なデータがごく少ない場合:例えば、「新事業に関するソーシャルメディア投稿の分類」
- 訓練前の一般的な機械学習モデルは存在するが、特定領域向けに調整する必要がある場合:例えば、「ビジネスに合わせたセンチメント(感情)分類」
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Caffeで画像解析を始めるための基礎知識とインストール、基本的な使い方
最近注目を浴びることが多くなった「Deep Learning」と、それを用いた画像に関する施策周りの実装・事例について、リクルートグループにおける実際の開発経験を基に解説していく連載。今回は、画像解析における物体認識、Convolutional Neural Netの概要に加え、Caffeの環境構築の仕方や基本的な使い方を解説する。 - 校正担当者必見!? 地味な誤字脱字で泣かないためのRecurrent Neural Networkのスゴイ生かし方
本連載では、Deep Learningの中でも、時系列データを扱うRecurrent Neural Networkについて解説。加えて、その応用方法として原稿校正(誤字脱字の検知)の自動化について解説します。今回は、本連載における「誤字脱字」の定義と「なぜRNNを利用する必要があるのか」「課題に対してRNNをどのように利用したのか」について。 - 「AI」「機械学習」「ディープラーニング」は、それぞれ何が違うのか
「AI」「機械学習」「ディープラーニング」は、それぞれ何が違うのか。GPUコンピューティングを推進するNVIDIAが、これらの違いを背景および技術的要素で解説した。 - 目をだます方法――触覚と認知の広がりを考える
ユーザー参加型の学会として発足し、毎回数万人規模の視聴者を集める。2013年12月21日ニコファーレで行われた「ニコニコ学会β」第5回シンポジウム。本稿では全体のハイライトとなった人間の感覚に注目したセッションを紹介する。