函式式環境¶

class gymnasium.experimental.functional.FuncEnv(options: dict[str, Any] | None = None)[source]¶

函式式環境的基類（模板）。

此 API 旨在以無狀態方式使用，環境狀態被明確地傳遞。話雖如此，這裡沒有任何東西阻止使用者以有狀態方式使用環境，只是不推薦。函式式環境由以下函式（在這種情況下，例項方法）組成：

initial: 返回 POMDP 的初始狀態

observation: 返回給定狀態下的觀測

transition: 返回在給定狀態下執行動作後的下一個狀態

reward: 返回給定 (狀態, 動作, 下一個狀態) 元組的獎勵

terminal: 返回給定狀態是否是終止狀態

state_info: 可選，返回關於給定狀態的資訊字典

step_info: 可選，返回關於給定 (狀態, 動作, 下一個狀態) 元組的資訊字典

基於類的結構允許在類中定義環境常量，然後透過名稱在程式碼中使用它們。

目前，這主要是為了內部使用。此 API 可能會發生變化，但未來我們打算對其進行充實並正式向終端使用者公開。

初始化環境常量。

transform(func: Callable[[Callable], Callable])[source]¶: 函式式變換。

initial(rng: Any, params: Params | None = None) → StateType[source]¶: 使用隨機數生成器生成環境的初始狀態。

transition(state: StateType, action: ActType, rng: Any, params: Params | None = None) → StateType[source]¶: 使用動作和隨機數生成器更新（轉換）狀態。

observation(state: StateType, rng: Any, params: Params | None = None) → ObsType[source]¶: 為環境的給定狀態生成觀測。

reward(state: StateType, action: ActType, next_state: StateType, rng: Any, params: Params | None = None) → RewardType[source]¶: 計算給定 state、action 到 next_state 轉換的獎勵。

terminal(state: StateType, rng: Any, params: Params | None = None) → TerminalType[source]¶: 返回狀態是否是最終的終止狀態。

state_info(state: StateType, params: Params | None = None) → dict[source]¶: 關於單一狀態的資訊字典。

transition_info(state: StateType, action: ActType, next_state: StateType, params: Params | None = None) → dict[source]¶: 關於完整轉換的資訊字典。

render_init(params: Params | None = None, **kwargs) → RenderStateType[source]¶: 初始化渲染狀態。

render_image(state: StateType, render_state: RenderStateType, params: Params | None = None) → tuple[RenderStateType, ndarray][source]¶: 顯示狀態。

render_close(render_state: RenderStateType, params: Params | None = None)[source]¶: 關閉渲染狀態。

將基於 Jax 的函式式環境轉換為標準 Env¶

class gymnasium.envs.functional_jax_env.FunctionalJaxEnv(func_env: FuncEnv, metadata: dict[str, Any] | None = None, render_mode: str | None = None, spec: EnvSpec | None = None)[source]¶

一個基於 jax 的環境轉換層。

從 FuncEnv 初始化環境。

reset(*, seed: int | None = None, options: dict | None = None)[source]¶: 使用種子重置環境。

step(action: ActType)[source]¶: 使用動作在環境中進行步進。

render()[source]¶: 如果 render_mode 是“rgb_array”，則返回渲染狀態。