函式式環境¶
- class gymnasium.experimental.functional.FuncEnv(options: dict[str, Any] | None = None)[source]¶
函式式環境的基類(模板)。
此 API 旨在以無狀態方式使用,環境狀態被明確地傳遞。話雖如此,這裡沒有任何東西阻止使用者以有狀態方式使用環境,只是不推薦。函式式環境由以下函式(在這種情況下,例項方法)組成:
initial: 返回 POMDP 的初始狀態
observation: 返回給定狀態下的觀測
transition: 返回在給定狀態下執行動作後的下一個狀態
reward: 返回給定 (狀態, 動作, 下一個狀態) 元組的獎勵
terminal: 返回給定狀態是否是終止狀態
state_info: 可選,返回關於給定狀態的資訊字典
step_info: 可選,返回關於給定 (狀態, 動作, 下一個狀態) 元組的資訊字典
基於類的結構允許在類中定義環境常量,然後透過名稱在程式碼中使用它們。
目前,這主要是為了內部使用。此 API 可能會發生變化,但未來我們打算對其進行充實並正式向終端使用者公開。
初始化環境常量。
- transition(state: StateType, action: ActType, rng: Any, params: Params | None = None) StateType[source]¶
使用動作和隨機數生成器更新(轉換)狀態。
- observation(state: StateType, rng: Any, params: Params | None = None) ObsType[source]¶
為環境的給定狀態生成觀測。
- reward(state: StateType, action: ActType, next_state: StateType, rng: Any, params: Params | None = None) RewardType[source]¶
計算給定 state、action 到 next_state 轉換的獎勵。
- terminal(state: StateType, rng: Any, params: Params | None = None) TerminalType[source]¶
返回狀態是否是最終的終止狀態。
- transition_info(state: StateType, action: ActType, next_state: StateType, params: Params | None = None) dict[source]¶
關於完整轉換的資訊字典。