用語「強化学習」について説明。プログラムの行動に対するフィードバック(報酬・罰)をトレーニングデータとして使って学習する方法を指す。
強化学習(RL:Reinforcement Learning)とは、プログラムの行動に対するフィードバック(報酬・罰)をトレーニングデータとして使って学習する方法のことである。参考イメージとして例を挙げよう。犬のしつけで、「お座り」という命令で犬が座るようにしつけたい場合、実際にお座りができたら報酬として餌をあげるようにすると、何度も何度も繰り返しトレーニングするうちに「お座り」を学習するが、これと同じ原理である(図1)。
強化学習によって、「次に最も取るべき行動方針」のモデルが構築できる。このため、囲碁や将棋、ゲームなどのプレイや、自動運転の一部技術などに使われている。
Copyright© Digital Advantage Corp. All Rights Reserved.