AI・機械学習における「強化学習」の基礎知識と基本用語を、AWS DeepRacerの視点で解説。強化学習で特に重要な「報酬関数」については、重点的に説明する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
AWS DeepRacerは、自律走行を行うミニカーである(前回詳しく説明した)。その走行エンジンにAI(人工知能)の機械学習モデル(より厳密には、ディープラーニングの「強化学習」と呼ばれる手法)が用いられる。強化学習(Reinforcement Learning)とは、次に取るべき行動を予測する機械学習モデルを作成するための学習方法である。DeepRacerでいえば、自動走行において「前に進むか」「右にハンドルを切るか」といった次に取るべき行動を予測するための走行エンジンを作成できるということだ。
本稿では、その強化学習の基礎について、AWS Summit Tokyo 2019で開かれた「DeepRacerワークショップ」の取材に基づき、解説する。本稿の内容は、強化学習を全く知らない人にとっても、その概要をざっくりとつかむのにちょうどよい内容となっていると思うので、そういった人もぜひ読んでみてほしい。
人工知能とは、ざっくりいうと、人間の知性を機械で模擬しようとする分野である。人工知能は大きく分けると、
に分けられる。そのタスク特化型人工知能の一例が、機械学習だ。
機械学習とは、統計的手法を用いることで、人間が手動でプログラムしなくても賢くなるようなAIモデルを自動で学習する手法や学問分野のことを指す。さらにその機械学習を学習方法で分類すると、主に以下の3つに大きく分けられる。
以上の関係をまとめたのが、図1である。
それぞれについて説明しよう(図2)。
ディープラーニングを勉強している人であれば、特に教師あり学習には馴染みがあるだろう。教師あり学習とは、学習データセットを用意するときに、そのデータの中に正解となる教師ラベルを用意しておく学習方法である。この方法では、AIモデルにデータを与えると、教師ラベルと同じ予測値を出力するように学習していく。教師あり学習によるAIモデルでは、例えば画像の分類や、画像内の人の検出(セグメンテーション)といったタスクを実現できる。
一方、教師なし学習とは、教師ラベルがない学習方法である。この方法を用いると、データの背後にある本質的な特徴を抽出できるので、例えばクラスタリング(=クラス分類)や次元削減(=次元数を減らすことでデータを圧縮して表現すること)といったタスクを実現できる。
今回説明する強化学習とは、これらの学習方法とは異なり、特定の「環境」下で、エージェントが一連の行動を行い、その結果に基づいてトレーニングを行う学習方法である。これにより、レース場を効率的に自動走行するAIモデルが構築できるというわけだ。
強化学習の参考イメージとして、現実世界の例を挙げてみよう(図3)。
これは犬をトレーニングしているところを、強化学習の視点で表現した2枚の写真である。例えば飼っている犬が、行儀よく過ごしているなどの良い行動があれば、餌などの報酬をあげる。しかし犬が、家を荒らすなど悪い行動があれば、餌などの報酬をあげないというペナルティーを課す。すると犬は、報酬がある方がうれしいので、人間が望む良い行動を取るように成長していってくれる。これが強化学習の直感的な説明だ。
強化学習で必ず理解しておかなければならない6つの用語を図4に掲載した。
これらの用語をDeepRacerに当てはめて説明すると、次のようになる。
6つの用語の中でも、特に「報酬」が大事だ。これについて、もう少し詳しく説明しておこう。
強化学習における報酬とはどのようなものなのか。DeepRacerを例に説明していく。
強化学習では、各行動を促すインセンティブとなる「報酬」を与えるための報酬関数を定義する(図5)。
AIの実装者(つまり読者自身)は、できるだけ良い行動を取るような報酬関数をうまく定義してやる必要がある。先ほどの犬の例であれば、人間が「行儀が良い」と思ったときに餌(報酬)を与えればいいだろう。ではDeepRacerなら、どういったときに、報酬を与えればよいだろうか。
基本的には、コース(環境)上で、車(エージェント)が車道をはみ出さないように(=状態)走ってゴールにたどり着いたとき(行動)に、報酬を与えればよいだろう。
DeepRacerにおいて最も基本的な「良い行動」は、スタートからゴールに無事にたどり着くことだ。まずは、ゴールを報酬にすればよいだろう。図6はそのイメージである。
エージェントが、スタート地点(左の青色の[S])から出発して、そのままコースから外れずにまっすぐに進んでゴール地点(右の緑色の[G=2])に到達すれば、2ポイントの報酬を付与する。なお、上下にある紫色のラインはコースの外枠を意味する。これが、最もシンプルな報酬関数の定義である。
しかし、読者の皆さんはこの報酬関数で、車がゴールにまでたどり着けるようになると思っただろうか。そもそも車道は広く、そのどちらに進むかは、最初はランダムに決定される。つまりどこに進むか分からない。一向にゴールにたどり着けないので、報酬も与えられない。これではいつまでたっても学習できない結果となりかねない。
このような報酬設定は、スパースな報酬関数(疎な報酬関数)と呼ばれる。この問題を回避するためには、ガードレールのようなガイドラインを引いてあげる必要がある。
実際にガイドラインを引いた報酬関数のイメージが図7である。
図6と見比べると、図7には、スタートからゴールまでの道のりの各地点(状態)に2や0.1という数値が並んでいるのが見える。これが意味するのは、ゴールまでたどり着いていない途中の状態でも、
という報酬関数が定義されたということだ。特定の行動に対してインセンティブを与えているわけである。このように報酬定義されていれば、スタート地点からゴール地点に向かって、車がまっすぐきれいにセンターラインを走ることが想像できるだろう。DeepRacerでは、このような感じで報酬関数を独自に定義する(図8はDeepRacerで定義した報酬関数のコード例である)。あとは、モデルをトレーニングすることで学習が進み、車が徐々にうまくレース会場を走れるようになるというわけだ。
ただし報酬は、「ある地点で2ポイント与える」という単なる情報でしかない。実際には報酬だけではなく、「次にどの方向に進めば自分(エージェント)はゴール地点で報酬の合計(=価値)が最大になるのか」を、地点ごとに計算する必要がある。その計算を行うのが、価値関数である。
価値関数では、各ステップの報酬を割り引くための割引率(Discount rate=割引ファクター:Discount factor)を設定する。これは、どこまでの将来を考慮するかを調整するためのハイパーパラメーターである。割引率を0.0にすると、将来は考慮せずに直前の報酬のみを重視することになる。1.0にすると、将来の報酬すべてを現在の価値として考慮する挙動になる。DeepRacerでも任意の割引率を設定できるが、通常は0.9あたりを設定する。
図9は、価値関数により計算した報酬の累積値の例である。
価値関数を作成するために、エージェントは状態と行動を探索し、最も価値が高くなる状態を選んでいった場合に獲得できると推定される報酬の累積値を、各地点に反映していく(図9)。これを繰り返すことで、車が進むべきよりよいパスが得られる。
さらに報酬の累積値を利用して、ある状態において取るべき最適な行動の方策(ポリシー、戦略)を得るための、方策関数も導入する。DeepRacerにおける方策関数は、ニューラルネットワークで画像(状態)を入力として受け取って行動を出力する。つまり状態と行動をマッピングするための関数となっている。方策関数については、後述の「強化学習のトレーニングアルゴリズム」で使われている。
さて、それでは強化学習はどのようなプロセスで行われるのか、について説明しよう。
図10はそのイメージ図だ。図中に含まれる用語について戸惑いやすいと思うので、先に用語解説をまとめておこう(一部は確認のために再掲した)。
基本的にエージェント(車)は、環境(コース)とインタラクションしながらトレーニングが進む。
例えば図10のエージェントが前に進むなどの行動を取ると、環境から報酬(Rt+1がその数値)がエージェントに与えられると同時に、行動後の状態(St+1がその数値)もエージェントに知らされる。これが地点を1ステップ移動する際の流れである。
ステップ(t)が進むたびに、一連の流れでモデルが学習していく。
ただし、これだけで賢いモデルに育つわけではない。どうやってモデルを賢くするか(=価値関数や方策関数を最適化するか)を決めるのが、トレーニング(訓練)のアルゴリズムである。※ただし、DeepRacerの場合は、裏で自動的に最適化を行うので、基本的に価値関数や方策関数を意識する必要はない仕組みとなっている。
強化学習のトレーニングアルゴリズムには、主に、
などがある。図11は、このうちのバニラ方策勾配(Vanilla policy gradient)と呼ばれるアルゴリズムを説明している。
詳しい解説は割愛する。要は、方策(=どういう行動をするかのポリシー)を決めるニューラルネットワークのモデルを、バニラ方策勾配というアルゴリズムで学習する大まかな流れが簡単に紹介されている。
ちなみにDeepRacerが採用しているのは、バニラ方策勾配と同じく方策勾配法ベースのPPO(Proximal Policy Optimization:近位方策最適化)というアルゴリズムである。DeepRacerでは報酬関数を定義するだけなので、PPOの中身を知る必要はない。現在(2019年7月19日)はPPOしかサポートされておらず、別のアルゴリズムは選択できない。
今回は、強化学習の基礎を、DeepRacerの視点で解説した。次回は、DeepRacerの強化学習がより具体的に分かるよう、シミュレーターの機能内容について説明する。Please follow on Twitter @DeepInsiderJP.
Copyright© Digital Advantage Corp. All Rights Reserved.