＠IT
AI IoT
Deep Insider
強化学習（RL：Reinforcement Learning）とは？：A...

強化学習（RL：Reinforcement Learning）とは？：AI・機械学習の用語辞典

用語「強化学習」について説明。プログラムの行動に対するフィードバック（報酬・罰）をトレーニングデータとして使って学習する方法を指す。

» 2019年04月06日 05時00分公開

[一色政彦，デジタルアドバンテージ]

連載「％」の新着をメールで通知

鬮ｫ遨ゑｽｹ譎｢�ｽ�ｽPost

はてなブックマーク

SharePocket Button

用語解説

　強化学習（RL：Reinforcement Learning）とは、プログラムの行動に対するフィードバック（報酬・罰）をトレーニングデータとして使って学習する方法のことである。参考イメージとして例を挙げよう。犬のしつけで、「お座り」という命令で犬が座るようにしつけたい場合、実際にお座りができたら報酬として餌をあげるようにすると、何度も何度も繰り返しトレーニングするうちに「お座り」を学習するが、これと同じ原理である（図1）。

図1　強化学習のイメージ

図1　強化学習のイメージ

　強化学習によって、「次に最も取るべき行動方針」のモデルが構築できる。このため、囲碁や将棋、ゲームなどのプレイや、自動運転の一部技術などに使われている。

「AI・機械学習の用語辞典」

驍ｵ�ｺ髦ｮ蜻ｻ�ｿ�ｽ鬯ｨ�ｾ�ｽ�｣鬮ｴ莠･�ｳ�ｨ�ｽ蝣､�ｸ�ｲ驕抵ｿｽﾂ�ｽ�｣鬮ｴ驛∵ｭ難ｿｽ�ｨ陋滂ｿｽ�ｽ�ｺ闕ｵ譏ｴ�樣Δ譎｢�ｽ�ｩ驛｢譎｢�ｽ�ｼ驛｢譎冗樟�つ鬮ｦ�ｪ遶企ｦｴﾂ蜈ｷ�ｽ�ｻ鬯ｪ�ｭ�ｽ�ｲ驍ｵ�ｺ陷ｷ�ｶ�ｽ�ｽ New

Copyright© Digital Advantage Corp. All Rights Reserved.

SpecialPR

印刷／保存

スポンサーからのお知らせPR

SpecialPR

Deep Insider 鬮ｫ�ｪ陋滂ｿｽ�ｽ�ｺ闕ｵ譁溷ｸｷ�ｹ譎｢�ｽ�ｳ驛｢�ｧ�ｽ�ｭ驛｢譎｢�ｽ�ｳ驛｢�ｧ�ｽ�ｰ

髫ｴ蟷｢�ｽ�ｬ髫ｴ魃会ｽｽ�･髫ｴ蟶ｷ�｣�ｯ闖ｫ�｣

» 驛｢譎｢�ｽ�ｩ驛｢譎｢�ｽ�ｳ驛｢�ｧ�ｽ�ｭ驛｢譎｢�ｽ�ｳ驛｢�ｧ�ｽ�ｰ驛｢�ｧ陋幢ｽｵ�ｽ繧会ｽｸ�ｺ�ｽ�｣驍ｵ�ｺ�ｽ�ｨ鬮ｫ遨ゑｽｹ譎｢�ｽ�ｽ

» 驛｢譎｢�ｽ�ｩ驛｢譎｢�ｽ�ｳ驛｢�ｧ�ｽ�ｭ驛｢譎｢�ｽ�ｳ驛｢�ｧ�ｽ�ｰ驛｢�ｧ陋幢ｽｵ�ｽ繧会ｽｸ�ｺ�ｽ�｣驍ｵ�ｺ�ｽ�ｨ鬮ｫ遨ゑｽｹ譎｢�ｽ�ｽ

＠IT eBook

クラウド時代の今だからこそ学び直す「Active Directory基礎のキソ」

Pythonのファイル操作まとめ：よく使うopen／with／Path／pickleなどを一冊に！　無料の電子書籍『解決！Python ファイル操作編』

エンジニアのお悩みは、エンジニアbotがお答えしましてよ　『エンジニアお悩みデバッグbot』鮮やかに爆誕！

これからGoogleスプレッドシートを始める人必読『仕事がはかどるGoogleスプレッドシートの基本テクTIPS Vol.1』

» 一覧ページへ

注目のテーマ

システム開発ノウハウ【発注ナビ】PR

編集部からのお知らせ

【無料セミナーITmedia Security Week 2025春おすすめ講演】5/28(水)15:10～ NICT ナショナルサイバートレーニングセンター長園田道夫氏の基調講演『いま、そこにある（サイバーの）危機』、6/2(月)13:00～ GMOサイバーセキュリティ by イエラエサイバーセキュリティ事業本部執行役員兼副本部長阿部慎司氏の基調講演『セキュリティ運用自動化の3つの要点と実例　～省力化・安定化・拡張化～』

あなたにおすすめの記事PR

@ITについて

RSSについて

＠ITのRSS一覧

アイティメディアIDについて

アイティメディアIDとは

メールマガジン登録

＠ITのメールマガジンは、もちろん、すべて無料です。ぜひメールマガジンをご購読ください。

申し込みページへ

ITmediaはアイティメディア株式会社の登録商標です。

メディア一覧 | 公式SNS | 広告案内 | お問い合わせ | プライバシーポリシー | RSS | 運営会社 | 採用情報 | 推奨環境