外部環境¶
第一方環境¶
Farama 基金會維護著許多其他專案,它們使用 Gymnasium API,環境包括:網格世界 (Minigrid)、機器人 (Gymnasium-Robotics)、3D 導航 (Miniworld)、網頁互動 (MiniWoB++)、街機遊戲 (Arcade Learning Environment)、Doom (ViZDoom)、元目標機器人 (Metaworld)、自動駕駛 (HighwayEnv)、復古遊戲 (stable-retro) 等等。
Farama 基金會還維護著 RL 的替代 API,包括:多智慧體 RL (PettingZoo)、離線 RL (Minari)、多目標 RL (MO-Gymnasium)、目標 RL (Gymnasium-Robotics)。
使用 Gymnasium 的第三方環境¶
此頁面包含非 Farama 基金會維護的環境,因此無法保證其功能按預期執行。
如果您想貢獻一個環境,請透過 Discord 聯絡我們,然後透過編輯此檔案提交一個 PR,更多說明可以在該檔案中找到。
自動駕駛環境¶
自動駕駛車輛和交通管理。
-
一個用於空中交通管理任務的 Gymnasium 環境集合,支援民用和城市航空應用。基於開源空中交通模擬器 BlueSky 構建。
gym-electric-motor: 電機模擬的 Gym 環境
一個用於模擬各種電機驅動的環境,考慮了不同型別的電機和轉換器。
racecar_gym: 使用 PyBullet 的微型賽車環境
一個使用 PyBullet 物理引擎的微型賽車 Gym 環境。
-
SUMO 交通模擬器中各種環境的 Gymnasium 包裝器。支援單智慧體和多智慧體設定(使用 pettingzoo)。
生物 / 醫療環境¶
與生物系統互動。
-
ICU-Sepsis 是一個表格強化學習環境,模擬重症監護室 (ICU) 中敗血症的治療。該環境在論文 ICU-Sepsis: A Benchmark MDP Built from Real Medical Data 中介紹,它輕量級且易於使用,但對大多數強化學習演算法來說具有挑戰性。
經濟 / 金融環境¶
所有與經濟學相關的內容。
-
AnyTrading 是一個 Gym 環境集合,用於基於強化學習的交易演算法,重點關注簡潔性、靈活性和全面性。
gym-mtsim: MetaTrader 5 平臺的金融交易
MtSim 是一個用於 MetaTrader 5 交易平臺的模擬器,用於基於強化學習的交易演算法。
-
Gym Trading Env 從歷史資料模擬股票(或加密貨幣)市場。它設計為快速且易於定製。
電氣 / 能源環境¶
管理電子流。
EV2Gym: 一個用於電動汽車智慧充電的現實 EV-V2G-Gym 模擬器
EV2Gym 是一個完全可定製且易於配置的環境,用於小規模和大規模的電動汽車 (EV) 智慧充電模擬。此外,還包括非 RL 基線實現,如數學程式設計、模型預測控制和啟發式方法。
遊戲環境¶
棋盤遊戲、影片遊戲和所有其他互動娛樂媒體。
-
這是一個自定義的掃雷 Gymnasium 環境,允許可選的自定義蒙版以增加複雜性。可透過棋盤大小、地雷密度和自定義蒙版完全定製。
Craftium: 一個用於建立 RL 環境的可擴充套件框架
Craftium 將 Minetest 遊戲引擎封裝到 Gymnasium API 中,提供了一個現代化且易於使用的平臺,用於設計類似 Minecraft 的 RL 環境。
-
作為 Farama Gymnasium 環境的 Flappy Bird。
flappy-bird-gymnasium: 一個用於 Gymnasium 的 Flappy Bird 環境
一個簡單的環境,用於在廣受歡迎的街機風格手機遊戲 Flappy Bird 的克隆版上進行單智慧體強化學習演算法。支援狀態和畫素觀察環境。
Generals.io bots: 為 generals.io 開發您的智慧體!
Generals.io 是一款快節奏的 2D 網格策略遊戲。我們透過 Gymnasium/PettingZoo API 使機器人開發變得易於訪問。
pystk2-gymnasium: SuperTuxKart 賽車 Gymnasium 包裝器
使用圍繞 SuperTuxKart 的 Python 包裝器,允許訪問世界狀態並控制比賽。
QWOP: Bennet Foddy 遊戲 QWOP 的環境
QWOP 是一款關於在 100 米賽道上跑得極快的遊戲。透過這個 Gymnasium 環境,您可以訓練自己的智慧體並嘗試打破當前的世界紀錄(人類為 5.0 遊戲秒,AI 為 4.7 遊戲秒)。
Tetris Gymnasium: 一個完全可配置的 Gymnasium 相容俄羅斯方塊環境
Tetris Gymnasium 是俄羅斯方塊作為 Gymnasium 環境的簡潔實現。它可以廣泛定製(例如,棋盤尺寸、重力等),文件齊全,幷包含許多如何使用它的示例,例如提供訓練指令碼。
tmrl: 透過 RL 進行 TrackMania 2020
tmrl 是一個分散式框架,用於在即時應用中訓練深度強化學習 AI。它在 TrackMania 2020 影片遊戲中進行了演示。
數學 / 計算¶
減少計算量,證明數學定理等等。
spark-sched-sim: Apache Spark 中排程 DAG 任務的環境
spark-sched-sim 模擬 Spark 叢集,用於基於 RL 的作業排程演算法。Spark 作業被編碼為有向無環圖 (DAG),為在 RL 上下文中使用圖神經網路 (GNN) 提供了機會。
-
一個用於指導基於飽和演算法(例如 Vampire)的自動化定理證明器的環境。
機器人環境¶
自主機器人。
-
BSK-RL 是一個 Python 包,用於構建航天器任務問題的 Gymnasium 環境。它建立在 Basilisk 之上,Basilisk 是一個模組化且快速的航天器模擬框架,使模擬環境具有高保真度和計算效率。BSK-RL 還包括一個用於處理這些環境的實用程式和示例集合。
-
Connect-4-Gym 是一個環境,旨在建立透過自我對弈學習並分配 Elo 等級的 AI。該環境可用於在經典棋盤遊戲四子棋上訓練和評估強化學習智慧體。
-
FlyCraft 是一個用於固定翼無人機任務的 Gymnasium 環境。預設情況下,FlyCraft 提供兩個任務:姿態控制和速度向量控制。這些任務的特點是多目標和長時程,對 RL 探索構成了重大挑戰。此外,獎勵可以配置為馬爾可夫或非馬爾可夫,使得 FlyCraft 適用於非馬爾可夫問題的研究。
-
JAX 中的 RL 環境,支援高度向量化的環境,並支援 Gym、MinAtari、bsuite 等多種環境。
-
gym-jiminy 提供了 Gym 的初始擴充套件,用於機器人技術,使用 Jiminy,一個極快且輕量級的多關節系統模擬器,使用 Pinocchio 進行物理評估,Meshcat 進行基於網路的 3D 渲染。
gym-pybullet-drones: 四旋翼飛行器控制環境
一個使用 PyBullet 模擬 Bitcraze Crazyflie 2.x 奈米四旋翼飛行器動力學的簡單環境。
-
Itomori 是一個用於風險感知無人機飛行的環境,它提供瞭解決機會約束馬爾可夫決策過程 (CCMDP) 的工具。該環境允許模擬、視覺化和評估無人機在複雜和高風險環境中的導航,結合了 GPS 不確定性、碰撞風險和自適應飛行規劃等變數。Itomori 旨在透過提供可調整引數、詳細視覺化和對不確定環境中智慧體行為的洞察來支援無人機路徑規劃研究。
OmniIsaacGymEnvs: NVIDIA Omniverse Isaac 的 Gym 環境
Omniverse Isaac 模擬器的強化學習環境。
panda-gym: 使用 PyBullet 物理引擎的機器人環境
基於 PyBullet 模擬機器人手臂移動物體。
-
一個用於在各種無人機上測試強化學習演算法的庫。它建立在 Bullet 物理引擎上,提供靈活的渲染選項、時間離散的可步進物理、Python 繫結,並支援任何配置的自定義無人機,無論是雙翼飛機、四旋翼飛行器、火箭,以及您能想到的一切。
safe-control-gym: 評估 RL 演算法的安全性
透過基於 PyBullet 的 CartPole 和 Quadrotor 環境評估安全性、魯棒性和泛化能力——使用 CasADi(符號)*先驗*動力學和約束。
Safety-Gymnasium: 確保真實世界 RL 場景中的安全性
高度可擴充套件和可定製的安全強化學習庫。
-
一個使用 PyBullet 和 Mujoco 構建的用於學習抓取 3D 變形物體的 Gymnasium 環境集合。
電信系統環境¶
互動和/或管理無線和/或有線電信系統。
-
一個開放、極簡的 Gymnasium 環境,用於無線行動網路中的自主協作。
其他¶
-
Buffalo-Gym 是一個多臂老虎機 (MAB) Gymnasium,主要用於協助除錯 RL 實現。MAB 通常易於理解智慧體正在學習什麼以及是否正確。Buffalo-gym 包含 Bandits、Contextual bandits 和帶有別名的 contextual bandits。
-
流行強化學習環境的上下文擴充套件,支援泛化訓練和測試分佈,例如具有可變杆長或具有不同地面摩擦的 Brax 機器人的 CartPole。
-
一個用於動態演算法配置的基準庫。其重點是不同 DAC 方法的可重現性和可比較性,以及最佳化過程的簡易分析。
gym-cellular-automata: 細胞自動機環境
智慧體透過改變其細胞狀態與細胞自動機互動的環境。
-
預設類實現了“前往目標”,但可以輕鬆定製以適應不同任務,包括各種網格、獎勵、動力學和任務。它支援不同的觀察型別(離散、座標、二進位制、畫素、部分)。適用於快速測試和原型化 RL 演算法,包括表格型和函式逼近型。
-
Gym4ReaL 是一個綜合性的現實環境套件,旨在支援開發和評估能夠在真實世界場景中執行的 RL 演算法。該套件包含一系列多樣化的任務,使 RL 演算法面臨各種實際挑戰,例如水資源管理、微電網能源管理、金融交易等。
-
一個用於輕鬆將離散 MDP 作為 Gym 環境實現的環境。將一組矩陣(
P_0(s)、P(s'| s, a)和R(s', s, a))轉換為表示由這些動力學控制的離散 MDP 的 Gym 環境。 SimpleGrid: 一個用於 Gymnasium 的簡單網格環境
SimpleGrid 是一個用於 Gymnasium 的超級簡單且極簡的網格環境。它易於使用和定製,旨在為快速測試和原型化不同的 RL 演算法提供一個環境。
使用 Gym 的第三方環境¶
有大量第三方環境使用各種版本的 Gym。其中許多可以進行調整以與 Gymnasium 配合使用(參見與 Gym 的相容性),但不能保證完全正常執行。
影片遊戲環境¶
-
一個 3v3 MOBA 環境,您可以在其中訓練生物互相戰鬥。
-
一個簡單的環境,用於基準測試粘液排球遊戲克隆版上的單智慧體和多智慧體強化學習演算法。
Unity ML Agents: Unity 遊戲引擎的環境
Unity 遊戲引擎中任意和預製環境的 Gym(和 PettingZoo)包裝器。
-
使用 Open 3D Engine 進行 AI 模擬,並可與 Gym 互操作。使用 PyBullet 物理引擎。
機器人環境¶
-
Mars Explorer 是一個相容 Gym 的環境,設計和開發旨在初步彌合強大的深度強化學習方法與未知地形探索/覆蓋問題之間的差距。
-
Robo-gym 提供了一個機器人任務的強化學習環境集合,適用於模擬和真實世界的機器人技術。
-
Gym 環境,讓您可以透過網際網路在實驗室中控制真實機器人。
-
一個用於共同最佳化軟機器人設計和控制的大規模基準。
-
一個具有高質量真實場景的模擬環境,使用 PyBullet 進行互動式物理模擬。
-
這是一個透過 Isaac Gym 提供雙靈巧手操作任務的庫。
自動駕駛環境¶
-
一個為 Duckietown 專案(小型自動駕駛汽車課程)構建的車道保持模擬器。
-
一個用於解決各種交通場景運動規劃問題的 Gym,相容 CommonRoad 基準,提供可配置的獎勵、動作空間和觀察空間。
-
在模擬中訓練基於模型的 RL 智慧體,無需微調即可將其轉移到小型賽車上。
-
一個用於自動賽車的開源強化學習環境。
其他環境¶
-
用於編譯器最佳化任務的強化學習環境,例如 LLVM 階段排序、GCC 標誌調優和 CUDA 迴圈巢狀程式碼生成。
-
該環境包含搬運謎題,玩家的目標是將所有箱子推到倉庫的儲存位置。
NLPGym: 開發用於解決 NLP 任務的 RL 智慧體的工具包
NLPGym 為標準 NLP 任務(如序列標註、問答和序列分類)提供互動式環境。
-
ShinRL: 一個從理論和實踐角度評估 RL 演算法的庫 (Deep RL Workshop 2021)
openmodelica-microgrid-gym: 微電網中控制電力電子轉換器的環境
OpenModelica Microgrid Gym (OMG) 包是一個軟體工具箱,用於基於電力電子轉換器進行能量轉換的微電網的模擬和控制最佳化。
-
GymFC 是一個模組化框架,用於合成神經飛行控制器。已用於為世界上第一個開源神經網路飛行控制韌體 Neuroflight 生成策略。