reinforcement learning

このタグでブログを書く

言葉の解説

ネットで話題

reinforcement learning

(サイエンス)

【りいんふぉーすめんとらーにんぐ】

強化学習

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

暇さえあればアルゴリズムいじり•9日前

RL: 倉庫問題をHASACにより協調学習

目次倉庫問題を何度もトライしていましたが、うまくいきませんでした。これまで使っていたアルゴリズムはQMIXというものでしたが、アルゴリズムをHASACに変更したところ何とか協調学習の上、タスクを解決させようという動作を行うように学習が出来てきました。これまで見つけた課題からHASACを導入するまでをまとめます。課題の考察現象 QMIXを使っている際に以下の現象が起きていました。両方のエージェントが協調しない学習が進んでもお互いに協調を行いません。片方のエージェントのみが動作するような現象が起きていました。有効に機能する動作をしない報酬を見直してじっと止まっているだけだとペナル…

#協調学習#reinforcement learning

ネットで話題

382ブックマークゼロから始める深層強化学習（NLP2018講演資料）/ Introduction of Deep Reinforcement Learning

www.slideshare.net

307ブックマーク深層強化学習の動向 / survey of deep reinforcement learning

speakerdeck.com

106ブックマーク強化学習とは？(What is Reinforcement Learning?)

sysplan.nams.kyushu-u.ac.jp

62ブックマーク論文：Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning - うどん記

ir5.hatenablog.com

53ブックマーク [1712.01815] Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm The game of chess is the most widely-studied domain in the history of artificial intelligence. The strongest programs are based on a combination of sophisticated search techniques, domain-specific adaptations, and handcrafted evaluation functions that have been refined by human experts over sever...

arxiv.org

47ブックマーク Deep Reinforcement Learning: Pong from Pixels

karpathy.github.io

47ブックマーク Bullet Real-Time Physics Simulation | Home of Bullet and PyBullet: physics simulation for games, visual effects, robotics and reinforcement learning.Kubric is an open-source Python framework that interfaces with PyBullet and Blender to generate photo-realistic scenes, with rich annotations, and seamlessly scales to large jobs distributed over thousands of machines, and generating TBs of data. Kubric can generate semi-realistic synthetic multi...

bulletphysics.org

41ブックマーク Kerasで最短で強化学習（reinforcement learning）する with OpenAI Gym - Qiita

qiita.com

36ブックマーク Learning Reinforcement Learning Github Repo with code and exercises Why Study Reinforcement Learning #Reinforcement Learning is one of the fields I’m most excited about. Over the past few years amazing results like learning to play Atari Games from raw pixels and Mastering the Game of Go have gotten a lot of attention, but RL i...

dennybritz.com

関連ブログ

暇さえあればアルゴリズムいじり•17日前

強化学習のロスを整理

目次強化学習におけるロスは通常のニューラルネットワークと異なりわかりづらい印象です。少し整理してみようと思います。強化学習における「ロス」は、教師あり学習のように一意の形があるわけではなく、「何を最適化したいか（価値・方策・両方）」によって定義が変わるという点が最初の重要ポイントです。 1. 強化学習におけるロスの考え方（全体像）教師あり学習との違いまずはここが一番重要なポイントです。教師あり学習 → 正解ラベルがあり、予測 − 正解の誤差を最小化する強化学習 → 正解行動は存在しない → 将来の報酬が最大になるように振る舞いを学習するそのため強化学習では、「報酬を最…

#AI#reinforcement learning

暇さえあればアルゴリズムいじり•24日前

強化学習の2025トレンド

強化学習（RL）の最近の技術トレンドは、単なるアルゴリズムの改良を超え、スケーラビリティ、実世界への応用性、そしてデータの効率的な利用に焦点を当てています。ここでは、最近特に注目されていると思われる主要なトレンドを5つご紹介します。 1. 意思決定モデルとしての基盤モデル（Foundation Models for RL）大規模言語モデル（LLM）や大規模行動モデル（LAM）の成功に触発され、強化学習も汎用的な基盤モデル構築へと向かっています。 Offline RL（オフライン強化学習）の進化 : 大量の事前に収集されたデータ（オフラインデータセット）だけを使ってポリシーを学習する…

#reinforcement learning#AI

暇さえあればアルゴリズムいじり•1ヶ月前

RL: 深層強化学習とは

データから学習するのがニューラルネットワークで、データを試行錯誤してつくるのが強化学習です。強化学習にニューラルネットワークを使うタイプをDQN・深層強化学習と言ってます。強化学習の分野で現状ニューラルネットワークなしでの問題解決はできないくらいになっています。そんなDQNについてまとめていきます。 DQN（Deep Q-Network）の概要 DQNは、深層学習（Deep Learning）と強化学習（Reinforcement Learning）を組み合わせた、**ディープ強化学習（DRL）**の基礎となるアルゴリズムです。 1. 目的従来の強化学習で用いられてきたQ学習（Q-Le…

#AI#reinforcement learning

暇さえあればアルゴリズムいじり•1ヶ月前

RL: MARLによる協調動作エージェントの実装

昨日作成したコード"情報共有と継続的な協調に焦点を当てた、別の代表的な協調型MARLの例題として、「複数のセンサーによる災害現場の探索（Multi-Sensor Search & Coverage）」"を解くアルゴリズムを使って問題を解こうとしています。尚、解説ではエージェントである動作物をドローン（エージェント）と仮定しまう。今回作成したアルゴリズムは、各ドローンが同じニューラルネットワークを使って意思決定を行う、協調型MARL（Multi-Agent Reinforcement Learning）の代表的な手法です。今回アルゴリズムの概要今回採用してている主なアルゴリズムは、以下の…

#AI#reinforcement learning

暇さえあればアルゴリズムいじり•1ヶ月前

RL: 協調学習の例題問題: 倉庫のロボット

ランキング参加中ディープラーニング協調学習の例題強調学習の練習を行うために以下のような問題を考えてみました。協調的な例題：フォークリフトによる倉庫管理 (Multi-Robot Warehouse) この例題は、複数のエージェントが共通の資源を管理し、衝突を避けながらタスクを効率的に処理する、協調的なMARLの基本を学ぶのに非常に適しています。設定環境: 倉庫のグリッドマップ。商品が置かれた複数のピックアップ地点と、配達を行うドロップオフ地点があります。タスク: 複数のフォークリフトロボット（エージェント）が、割り当てられた商品をピックアップ地点から運び、ドロップオフ地点に配達しま…

#reinforcement learning#MARL

暇さえあればアルゴリズムいじり•2ヶ月前

RL: MADDPGについて

ランキング参加中ディープラーニングランキング参加中GPT 分散型のMARL最終の説明です。今回は、MADDPG（Multi-Agent Deep Deterministic Policy Gradient）についてです。背景から特徴、解決できる問題例まで説明します。 🧠 MADDPGとは？（概要） MADDPG は、OpenAI（Lowe et al., 2017）によって提案されたマルチエージェント強化学習（MARL）向けの手法で、 👉 マルチエージェント版 DDPG（連続値アクション対応 Actor–Critic）です。特に、競合（敵対）環境混合（協調+競争）環境連続値…

#reinforcement learning

暇さえあればアルゴリズムいじり•2ヶ月前

RL: MARLの手法のCOMA

ランキング参加中GPT 続々のMARLの手法です。今回は、COMA（Counterfactual Multi-Agent Policy Gradients）について、研究背景から仕組み、特徴、解ける問題までを整理して説明します。 🧠 1. COMA とは？（概要） COMA（Foerster et al., 2018）は、協調型 MARL（マルチエージェント強化学習）のために作られたアクタ−クリティック方式（Actor–Critic）の代表的手法です。特に、 credit assignment（誰がどれだけ貢献したか）問題部分観測 Dec-POMDP 協調報酬しか与えられな…

#reinforcement learning

暇さえあればアルゴリズムいじり•2ヶ月前

RL: MARL手法 QMIXについて

ランキング参加中GPT MARL手法 QMIX 先日に引き続きMARLの投稿です。今回は、マルチエージェント強化学習（MARL）の代表的な協調的手法であるQMIXについて、概要、解決したかった課題、特徴、および適用可能な問題例を解説します。 🤖 QMIX (Q-Mix) の概要 QMIXは、Deep Reinforcement Learning (DRL) の分野で特に協調的なマルチエージェント強化学習（Cooperative MARL）を効率的に行うために開発された手法です。 QMIXの核心は、各エージェントが個別に学習した行動価値関数（Q-関数）を、非線形の「混合ネットワーク (Mixi…

#reinforcement learning

グラフ機械学習と強化学習について•6ヶ月前

Ray RLlib v2.47.1

強化学習ライブラリとして、RLlibをよく使っていましたが、私が論文用に実装したバージョンから大幅に刷新されていました。 V1からV2へ移行、さらにRay 2.40からAPIの形式が新しくなったことで、その使用感をまとめます。多くはClaudeのおかげで自分で調べる必要性がかなり減りました。とはいえ誤っている可能性もあるため、都度確認が必要です。新API Stack導入の主要目的 1. アーキテクチャの簡素化 Rayチームは旧API stackでユーザーが知っておく必要があった重要なクラスを8つから5つに削減しました GitHubGitHub。これにより学習コストが大幅に削減されています。…

#reinforcement learning#強化学習