強化学習
きょうかがくしゅう
意味
強化学習(Reinforcement Learning)とは、AI(エージェント)が環境の中で試行錯誤を繰り返し、ある行動をとった時に得られる「報酬」を最大化するように自律的に学習していく手法のことである。 「正解」を教えるのではなく、「良い行動にはご褒美(プラスの点数)、悪い行動には罰(マイナス...
概要
機械学習(AI)の手法の一つ。 AI(エージェント)が、試行錯誤を繰り返しながら、「どうすれば報酬(スコア)を最大化できるか」を自ら学習していく方法。 「アメとムチ」による学習。
仕組み
- AIが何か行動する(例:右に進む)。
- 環境から反応が返ってくる(例:壁にぶつかってマイナス10点)。
- AIは「右に行くと痛い目に遭う」と学習する。
- 行動を変える(例:左に進む)。
- 報酬がもらえる(例:ゴールしてプラス100点)。 これを何万回も繰り返すことで、人間には思いつかないような最強の戦略を編み出します。
応用
AlphaGo(囲碁AI)、将棋AI、ロボットの歩行制御、自動運転などで使われています。