封裝器列表

Gymnasium 提供了以下列出的許多常用封裝器。有關特定封裝器的更多資訊,請參閱封裝器型別頁面

名稱

描述

ArrayConversion

封裝基於任何 Array API 相容框架(例如 numpytorchjax.numpy)的環境,使其可以與任何其他 Array API 相容框架互動。

AtariPreprocessing

實現 Atari 環境的常用預處理技術(不包括幀堆疊)。

Autoreset

當達到終止或截斷狀態時,被封裝的環境會自動重置。

ClipAction

將傳遞給 stepaction 剪下到環境的 action_space 範圍內。

ClipReward

將環境的獎勵剪下到上限和下限之間。

DelayObservation

對從環境中返回的觀測值新增延遲。

DtypeObservation

將觀測陣列的資料型別修改為指定的資料型別。

FilterObservation

透過一組鍵或索引過濾 Dict 或 Tuple 觀測空間。

FlattenObservation

扁平化環境的觀測空間以及來自 resetstep 函式的每個觀測值。

FrameStackObservation

以滾動方式堆疊最後 N 個時間步的觀測值。

GrayscaleObservation

將由 resetstep 計算的影像觀測從 RGB 轉換為灰度。

HumanRendering

允許支援“rgb_array”渲染的環境進行類人渲染。

JaxToNumpy

封裝一個基於 Jax 的環境,使其可以與 NumPy 陣列互動。

JaxToTorch

封裝一個基於 Jax 的環境,使其可以與 PyTorch 張量互動。

MaxAndSkipObservation

跳過第 N 幀(觀測)並返回最後兩個觀測之間的最大值。

NormalizeObservation

將觀測值歸一化,使其以均值為中心,具有單位方差。

NormalizeReward

歸一化即時獎勵,使其指數移動平均值具有固定方差。

NumpyToTorch

封裝一個基於 NumPy 的環境,使其可以與 PyTorch 張量互動。

OrderEnforcing

如果在 reset 之前呼叫 steprender,將產生錯誤。

PassiveEnvChecker

一個被動環境檢查器封裝器,圍繞 stepresetrender 函式進行檢查,以確保它們遵循 Gymnasium 的 API。

RecordEpisodeStatistics

此封裝器將跟蹤累積獎勵和劇集長度。

RecordVideo

使用環境的渲染功能錄製環境劇集的影片。

RenderCollection

收集環境的渲染幀,使得 render 返回一個 list[RenderedFrame]

AddRenderObservation

將渲染的觀測值包含在環境的觀測值中。

RescaleAction

將環境的 Box 動作空間仿射(線性)縮放到 [min_action, max_action] 範圍內。

RescaleObservation

將環境的 Box 觀測空間仿射(線性)縮放到 [min_obs, max_obs] 範圍內。

ReshapeObservation

將基於陣列的觀測值重塑為指定的形狀。

ResizeObservation

使用 OpenCV 將影像觀測值調整為指定的形狀。

StickyAction

增加動作在同一 step 函式中重複的機率。

TimeAwareObservation

用劇集內的時間步數擴充觀測值。

TimeLimit

透過在超過最大時間步數時截斷環境來限制環境的步數。

TransformAction

在將修改後的值傳遞給環境 step 函式之前,對 action 應用一個函式。

TransformObservation

對從環境的 resetstep 接收到的 observation 應用一個函式,該函式將返回給使用者。

TransformReward

對從環境的 step 接收到的 reward 應用一個函式。

僅限向量封裝器

名稱

描述

DictInfoToList

將向量化環境的資訊從 dict 轉換為 List[dict]

VectorizeTransformAction

為向量環境向量化單智慧體轉換動作封裝器。

VectorizeTransformObservation

為向量環境向量化單智慧體轉換觀測封裝器。

VectorizeTransformReward

為向量環境向量化單智慧體轉換獎勵封裝器。