1. 起源と歴史:行動は“おやつで釣る”ところから始まった? 強化学習(Reinforcement Learning, RL)は、行動主義心理学、特にエドワード・ソーンダイク(猫を箱から出す実験)やB.F.スキナー(スキナーボックスで鳩に課題を)に端を発しています。行動に報酬が伴うと、その行動が強化されるという「効果の法則」です。 AI分野では1970年代末、R.Sutton と A.Bartoが「強化学習」の理論基盤を樹立。**マルコフ決定過程(MDP)と時間差学習(TD)**を導入し、モデルが環境を知らなくても報酬を最大化できる仕組みを構築しました。 1990年代にはIBMのTD-Gamm…