函式式環境

class gymnasium.experimental.functional.FuncEnv(options: dict[str, Any] | None = None)[source]

函式式環境的基類(模板)。

此 API 旨在以無狀態方式使用,環境狀態被明確地傳遞。話雖如此,這裡沒有任何東西阻止使用者以有狀態方式使用環境,只是不推薦。函式式環境由以下函式(在這種情況下,例項方法)組成:

  • initial: 返回 POMDP 的初始狀態

  • observation: 返回給定狀態下的觀測

  • transition: 返回在給定狀態下執行動作後的下一個狀態

  • reward: 返回給定 (狀態, 動作, 下一個狀態) 元組的獎勵

  • terminal: 返回給定狀態是否是終止狀態

  • state_info: 可選,返回關於給定狀態的資訊字典

  • step_info: 可選,返回關於給定 (狀態, 動作, 下一個狀態) 元組的資訊字典

基於類的結構允許在類中定義環境常量,然後透過名稱在程式碼中使用它們。

目前,這主要是為了內部使用。此 API 可能會發生變化,但未來我們打算對其進行充實並正式向終端使用者公開。

初始化環境常量。

transform(func: Callable[[Callable], Callable])[source]

函式式變換。

initial(rng: Any, params: Params | None = None) StateType[source]

使用隨機數生成器生成環境的初始狀態。

transition(state: StateType, action: ActType, rng: Any, params: Params | None = None) StateType[source]

使用動作和隨機數生成器更新(轉換)狀態。

observation(state: StateType, rng: Any, params: Params | None = None) ObsType[source]

為環境的給定狀態生成觀測。

reward(state: StateType, action: ActType, next_state: StateType, rng: Any, params: Params | None = None) RewardType[source]

計算給定 stateactionnext_state 轉換的獎勵。

terminal(state: StateType, rng: Any, params: Params | None = None) TerminalType[source]

返回狀態是否是最終的終止狀態。

state_info(state: StateType, params: Params | None = None) dict[source]

關於單一狀態的資訊字典。

transition_info(state: StateType, action: ActType, next_state: StateType, params: Params | None = None) dict[source]

關於完整轉換的資訊字典。

render_init(params: Params | None = None, **kwargs) RenderStateType[source]

初始化渲染狀態。

render_image(state: StateType, render_state: RenderStateType, params: Params | None = None) tuple[RenderStateType, ndarray][source]

顯示狀態。

render_close(render_state: RenderStateType, params: Params | None = None)[source]

關閉渲染狀態。

將基於 Jax 的函式式環境轉換為標準 Env

class gymnasium.envs.functional_jax_env.FunctionalJaxEnv(func_env: FuncEnv, metadata: dict[str, Any] | None = None, render_mode: str | None = None, spec: EnvSpec | None = None)[source]

一個基於 jax 的環境轉換層。

從 FuncEnv 初始化環境。

reset(*, seed: int | None = None, options: dict | None = None)[source]

使用種子重置環境。

step(action: ActType)[source]

使用動作在環境中進行步進。

render()[source]

如果 render_mode 是“rgb_array”,則返回渲染狀態。