第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編):AWS DeepRacer入門(2/3 ページ)
強化学習が初めての人に最適な「AWS DeepRacerのコンソールとシミュレーション環境」を使って、ディープラーニングを体験してみよう。コンソール上で強化学習の各ハイパーパラメーターを設定してモデルに学習させ、さらに評価し、バーチャルレースにデプロイするまでの手順を解説する。
ステップ11: 学習状況の確認
学習(トレーニング)が開始されると、モデルのページ(例えば図15の[DeepInsiderEngine1]ページ)に遷移する。実際にシミュレーションが開始されるまでの準備処理に、6分程度の時間がかかり、そのあと、学習の様子が[Training]欄に表示されるようになる(図15)。
左側の[Reward graph](報酬グラフ)では、学習時の累積報酬や完走状況を視覚的に確認できる。また、右側の[Simulation video stream](シミュレーションのビデオストリーム)では、学習時の走行状況をビデオ映像で確認できる。それぞれ具体的な内容を紹介しよう。
報酬グラフ(報酬額)
グラフの下部にある[Reward](報酬)表示設定の、
- [Episode](エピソード): 散布図(点々)表示のオン/オフ
- [Average](平均): 折れ線グラフ表示のオン/オフ
をクリックして、いずれもオンに切り替えてみてほしい(※これらをオンにするときには、見やすさのため、後述の[Progress (percentage track completion)]表示設定はいずれもオフにした方がよい)。これにより、図16のように表示され、エピソード数が増えるに従って(=学習時間が増えるに従って)、累積報酬の額が大きくなっていっているのが分かる。
報酬グラフ(完走状況)
また、グラフの下部にある[Progress (percentage track completion)](コースの完走状況、%単位)表示設定の、
- [Episode](エピソード): 散布図(点々)表示のオン/オフ
- [Average](平均): 折れ線グラフ表示のオン/オフ
をクリックして、いずれもオンに切り替えてみてほしい(※これらをオンにするときには、見やすさのため、前述の[Reward]表示設定はいずれもオフにした方がよい)。これにより、図17のように表示され、エピソード数が増えるに従って(=学習時間が増えるに従って)、コース完走状況のパーセンテージが大きくなっていっているのが分かる。
シミュレーションのビデオストリーム(走行映像)
ビデオストリームには、学習時のシミュレーション映像が表示される。車の運転席の視点で動くので、ずっと見ていられる。
停止条件:最大時間(経過時間)
グラフ下部のさらに下には、[Stop condition](停止条件)で指定した[Maximum time](最大時間)の表示があり、図19のように経過時刻も表示される。
ステップ12: 学習(トレーニング)の完了
停止条件の最大時間になると、学習は自動的に停止する(図20)。なお、停止処理にも、開始時の準備処理と同様に、4分ほど時間がかかる。
学習中でも、左側の[Reward graph](報酬グラフ)は確認できたが、あらためて学習結果を確認してみよう(図21)。
図21を見ると、最終的な完走状況は25%弱というところで、つまり基本的にコースの4分の1程度走行したらコースアウトしてしまう。よって、まだまだ改善の余地が大きい走行エンジンとなっている。この場合、報酬関数やハイパーパラメーターをさらに調整して、モデルを再学習した方がよいだろう。
結果だけではなく、学習時のジョブ内容やログも閲覧できるので(※学習中に閲覧することも可能)、これらも紹介しておこう。
Copyright© Digital Advantage Corp. All Rights Reserved.