ディープラーニングと機械学習の技術要件：「The Next Platform」で読むグローバルITトレンド（13）（1/3 ページ）

機械学習、とりわけディープラーニングの市場での地位は今や確立されており、定着しているといえる。今回はこれらの技術要件と、近い将来に何が期待できるかを考えてみよう。

» 2017年09月26日 05時00分公開

[Rob Farber, The Next Platform]

英国のIT専門媒体、「The Register」とも提携し、エンタープライズITのグローバルトレンドを先取りしている「The Next Platform」から、＠IT編集部が独自の視点で“読むべき記事”をピックアップ。プラットフォーム3へのシフトが急速に進む今、IT担当者は何を見据え、何を考えるべきか、バリエーション豊かな記事を通じて、目指すべきゴールを考えるための指標を提供していきます。

　1980年代から、私は機械学習の最前線に立ってきた。当時は米国ロスアラモス国立研究所で理論部門のスタッフ研究者として、機械学習の基礎研究を行っていた（後年になってこうした研究をさまざまな分野に応用した。機械学習に基づく創薬企業を共同で創業したこともある）。幸運にも、私は機械学習分野の誕生に関わり、後にこの分野がブームを巻き起こしたものの、この技術とその実力に関する誤解から、結局、ブームがしぼんだのを目の当たりにしてきた。

　アルゴリズムの進化など、全体的な技術進歩を原動力として、機械学習は再びブームを呼んでおり、誤解やそれを招くマーケティングが横行している。

　だが、「何がマーケティングによる誇大宣伝で、何が事実なのか」を知ることで、機械学習技術の素晴らしい威力を理解できる。人類史上初めて、機械が人の複雑な機能（顔認識など）を人を上回る精度で行えるようになっていること、しかも、機械にサンプルデータを提供するだけで実現されたことは注目に値する。このことから、市場にとって重要なのは機械学習、とりわけこの分野の一部であるディープラーニングは今や確立されており、定着しているといえる。

　主要な技術要件を理解すれば、機械学習の活用を担う技術者や管理職、データサイエンティストはハードウェアプラットフォームの選択に当たって賢明な判断を下すのに役立つ。また、Baiduの「Deep Bench」のようなベンチマーキングプロジェクトも、さまざまなハードウェアプラットフォームのパフォーマンスを比較可能にすることで有益な洞察を提供してくれる。

「ディープラーニング」の本当の意味とは

　ディープラーニングは、人工ニューラルネットワーク（ANN）アーキテクチャの特定の構成を指す技術用語だ。その構成は、入力ニューロン層（訓練や推論のためにデータが与えられる）と出力ニューロン層（ニューラルネットワークアーキテクチャの計算結果が読み込まれる）の間に、多数の“隠れた”計算層があるというものだ。出力ニューロンの値は、企業が顔の特定、音声の認識、テキストの読み上げや多種多様な新しいエキサイティングな機能を実現する情報を提供する。

　もともと「ディープラーニング」は、研究者が脳の多数のニューロン層を模倣するために使用した多くの隠れた層を記述するのに使われた。ディープNN（DNN）は便利だが、データアナリティクス分野に携わる人の多くは、隠れた層の2つ以下しか使おうとしない。勾配が消える問題のためだ。これは、ディープラーニングの機能に関する一部の主張が、こうした人々の仕事には当てはまらないことを意味する。

　最近では「ディープラーニング」という言葉は、機械学習分野を再び活性化させた多くの研究者の優れた取り組みを説明するキャッチフレーズに変わった。こうした研究者のDNNは訓練によって、音声認識や顔認識、自動運転車、作物から雑草を識別する農業機械などに活用可能なソリューションを実現している。最近、米FDA（食品医薬品局）がディープラーニング製品を承認したことは、エキサイティングな医療用途へのディープラーニングの応用に道を開いた。

　残念ながら、今では「ディープラーニング」というキャッチフレーズは、もっと一般的であいまいな「AI」「人工知能」といった用語に変わっている。問題は、「ラーニング（学習）」や「AI」のような言葉には、人々の思い込みや仮定が入り込み過ぎてしまうことだ。AIではそれが特に顕著だ。

　以下では、マーケティングに惑わされることなく、ハードウェアに迫っていこう。

「訓練」は人が行うような「学習」ではなく、「AI」でもない。コスト関数の最小化を目的としたモデルパラメータセットの数値最適化である

　人々は、機械学習における「訓練（トレーニング）」について述べるとき、「学習」という言葉を使う。われわれは皆、「何かをすることを学ぶ」という概念を理解しているからだ。だが、言葉のこうした使い方は危険だ。「訓練とは、ANNにおいて（層の数にかかわらず）、訓練セットの多数のサンプルで発生するエラーを最小限に抑えるように、モデルパラメータセットを最適化するプロセスにすぎない」という事実を、人々が見失いがちになるからだ。

　人間とは異なり、ANNは目標の概念を持っておらず、実世界の制約もない。例えば、1990年代のあるプロジェクトは、ANNを訓練して戦車と自動車の画像を識別させようとした。訓練によりエラーが減少したかに見えたが、実物でテストしたところ、識別精度はひどいものだった。

　調査した結果、訓練に使った戦車の写真は大半が晴れた日に撮られていたのに対し、自動車の写真は曇りの日に撮られていたことが分かった。ANNは、戦車と自動車ではなく、晴れた日と曇りの日を識別することで、最適化問題を“解決”したというわけだ（仮にこの精度でANNが実用化されていたら、晴れた日に運転していると面倒なことになったかもしれない）。

　機械学習で本当に素晴らしいのは、いったん訓練サンプルが識別されると“学習”プロセスの残りのステップは、人間が直接介在しない計算問題になることだ。そのため、マシンが高速であるほど速く“学習”できる。機械学習の幅広い適用性と商業的な実用性から、Intel、NVIDIA、IBMといった企業は、ごく近い将来、機械学習がデータセンターの主要なワークロードになるという見解で一致している。ダイアン・ブライアント氏（Intelの元上席副社長兼データセンター事業本部本部長）は、「サーバでは2020年までに、データアナリティクスワークロードが他のどのワークロードよりも大量に実行されるようになる」と語ったことで有名だ。つまり、機械学習はデータセンターにおける膨大なビジネスが絡むということだ。

推論は逐次計算である

もう絶望しない！ディープラーニングによる画像認識のビジネス活用事例
最近注目を浴びることが多くなった「Deep Learning」と、それを用いた画像に関する施策周りの実装・事例について、リクルートグループにおける実際の開発経験を基に解説していく連載。今回は、Deep Learning／CNN（Convolutional Neural Net）をどうビジネスに活用しているかに焦点を当て、その試行錯誤の過程を紹介します。
LSTMとResidual Learningでも難しい「助詞の検出」精度を改善した探索アルゴリズムとは
本連載では、Deep Learningの中でも、時系列データを扱うRecurrent Neural Networkについて解説。加えて、その応用方法として原稿校正（誤字脱字の検知）の自動化について解説します。今回は、Long Short Term MemoryとResidual Learningの概要、「助詞の検出」精度を改善した探索アルゴリズムについて｡