Ant¶

該環境屬於 Mujoco 環境，其中包含有關該環境的一般資訊。


動作空間	`Box(-1.0, 1.0, (8,), float32)`
觀測空間	`Box(-inf, inf, (105,), float64)`
匯入	`gymnasium.make("Ant-v5")`

描述¶

該環境基於 Schulman, Moritz, Levine, Jordan 和 Abbeel 在 “High-Dimensional Continuous Control Using Generalized Advantage Estimation” 中介紹的環境。Ant 是一個三維四足機器人，由一個軀幹（自由旋轉體）和連線在其上的四條腿組成，每條腿有兩個身體部位。目標是透過對連線每條腿的兩個身體部位和軀幹的八個鉸鏈施加扭矩，協調四條腿向前（右）方向移動（九個身體部位和八個鉸鏈）。

注意：雖然機器人被稱為“Ant”（螞蟻），但它實際高 75 釐米，重 910.88 克，其中軀幹重 327.25 克，每條腿重 145.91 克。

動作空間¶

動作空間是一個 Box(-1, 1, (8,), float32)。一個動作代表施加在鉸鏈關節上的扭矩。

編號	動作	控制最小值	控制最大值	名稱（在相應的 XML 檔案中）	關節	型別（單位）
0	施加在軀幹和右後髖部之間轉子上的扭矩	-1	1	hip_4 (右後腿)	鉸鏈	扭矩 (N·m)
1	施加在右後兩條連桿之間轉子上的扭矩	-1	1	angle_4 (右後腿)	鉸鏈	扭矩 (N·m)
2	施加在軀幹和左前髖部之間轉子上的扭矩	-1	1	hip_1 (左前腿)	鉸鏈	扭矩 (N·m)
3	施加在左前兩條連桿之間轉子上的扭矩	-1	1	angle_1 (左前腿)	鉸鏈	扭矩 (N·m)
4	施加在軀幹和右前髖部之間轉子上的扭矩	-1	1	hip_2 (右前腿)	鉸鏈	扭矩 (N·m)
5	施加在右前兩條連桿之間轉子上的扭矩	-1	1	angle_2 (右前腿)	鉸鏈	扭矩 (N·m)
6	施加在軀幹和左後髖部之間轉子上的扭矩	-1	1	hip_3 (後腿)	鉸鏈	扭矩 (N·m)
7	施加在左後兩條連桿之間轉子上的扭矩	-1	1	angle_3 (後腿)	鉸鏈	扭矩 (N·m)

觀測空間¶

觀測空間包含以下部分（按順序）

qpos（預設 13 個元素）： 機器人身體部位的位置值。
qvel（14 個元素）： 這些單獨身體部位的速度（它們的導數）。
cfrc_ext（78 個元素）： 這是基於身體部位質心的外部力。它形狀為 13 * 6 (nbody * 6)，因此為狀態空間增加了另外 78 個元素。（外部力 - 力 x, y, z 和扭矩 x, y, z）

預設情況下，觀測不包括軀幹的 x 和 y 座標。透過在構造時傳入 exclude_current_positions_from_observation=False 可以將其包含在內。在這種情況下，觀測空間將是 Box(-Inf, Inf, (107,), float64)，其中前兩個觀測是軀幹的 x 和 y 座標。無論 exclude_current_positions_from_observation 設定為 True 還是 False，x 和 y 座標都將以鍵 "x_position" 和 "y_position" 在 info 中返回。

然而，預設情況下，觀測空間是一個 Box(-Inf, Inf, (105,), float64)，其中位置和速度元素如下

編號	觀測	最小值	最大值	名稱（在相應的 XML 檔案中）	關節	型別（單位）
0	軀幹（中心）的 z 座標	-Inf	Inf	根	自由	位置 (m)
1	軀幹（中心）的 w 方向	-Inf	Inf	根	自由	角度 (rad)
2	軀幹（中心）的 x 方向	-Inf	Inf	根	自由	角度 (rad)
3	軀幹（中心）的 y 方向	-Inf	Inf	根	自由	角度 (rad)
4	軀幹（中心）的 z 方向	-Inf	Inf	根	自由	角度 (rad)
5	軀幹與左前第一連桿之間的角度	-Inf	Inf	hip_1 (左前腿)	鉸鏈	角度 (rad)
6	左前兩個連桿之間的角度	-Inf	Inf	ankle_1 (左前腿)	鉸鏈	角度 (rad)
7	軀幹與右前第一連桿之間的角度	-Inf	Inf	hip_2 (右前腿)	鉸鏈	角度 (rad)
8	右前兩個連桿之間的角度	-Inf	Inf	ankle_2 (右前腿)	鉸鏈	角度 (rad)
9	軀幹與左後第一連桿之間的角度	-Inf	Inf	hip_3 (後腿)	鉸鏈	角度 (rad)
10	左後兩個連桿之間的角度	-Inf	Inf	ankle_3 (後腿)	鉸鏈	角度 (rad)
11	軀幹與右後第一連桿之間的角度	-Inf	Inf	hip_4 (右後腿)	鉸鏈	角度 (rad)
12	右後兩個連桿之間的角度	-Inf	Inf	ankle_4 (右後腿)	鉸鏈	角度 (rad)
13	軀幹的 x 座標速度	-Inf	Inf	根	自由	速度 (m/s)
14	軀幹的 y 座標速度	-Inf	Inf	根	自由	速度 (m/s)
15	軀幹的 z 座標速度	-Inf	Inf	根	自由	速度 (m/s)
16	軀幹的 x 座標角速度	-Inf	Inf	根	自由	角速度 (rad/s)
17	軀幹的 y 座標角速度	-Inf	Inf	根	自由	角速度 (rad/s)
18	軀幹的 z 座標角速度	-Inf	Inf	根	自由	角速度 (rad/s)
19	軀幹與左前連桿之間角度的角速度	-Inf	Inf	hip_1 (左前腿)	鉸鏈	角度 (rad)
20	左前連桿之間角度的角速度	-Inf	Inf	ankle_1 (左前腿)	鉸鏈	角度 (rad)
21	軀幹與右前連桿之間角度的角速度	-Inf	Inf	hip_2 (右前腿)	鉸鏈	角度 (rad)
22	右前連桿之間角度的角速度	-Inf	Inf	ankle_2 (右前腿)	鉸鏈	角度 (rad)
23	軀幹與左後連桿之間角度的角速度	-Inf	Inf	hip_3 (後腿)	鉸鏈	角度 (rad)
24	左後連桿之間角度的角速度	-Inf	Inf	ankle_3 (後腿)	鉸鏈	角度 (rad)
25	軀幹與右後連桿之間角度的角速度	-Inf	Inf	hip_4 (右後腿)	鉸鏈	角度 (rad)
26	右後連桿之間角度的角速度	-Inf	Inf	ankle_4 (右後腿)	鉸鏈	角度 (rad)
排除	軀幹（中心）的 x 座標	-Inf	Inf	根	自由	位置 (m)
排除	軀幹（中心）的 y 座標	-Inf	Inf	根	自由	位置 (m)

身體部位是

身體部位	ID（對於 `v2`, `v3`, `v4)`	ID（對於 `v5`)
worldbody (注意：所有值均為常數 0)	0	排除
torso	1	0
front_left_leg	2	1
aux_1 (左前腿)	3	2
ankle_1 (左前腿)	4	3
front_right_leg	5	4
aux_2 (右前腿)	6	5
ankle_2 (右前腿)	7	6
back_leg (左後腿)	8	7
aux_3 (左後腿)	9	8
ankle_3 (左後腿)	10	9
right_back_leg	11	10
aux_4 (右後腿)	12	11
ankle_4 (右後腿)	13	12

(x,y,z) 座標是平移自由度，而方向是表示為四元數的旋轉自由度。有關自由關節的更多資訊，請參閱 MuJoCo 文件。

注意： 使用 Ant-v3 或更早版本時，據報道當使用 mujoco-py 版本 > 2.0 時會出現問題，導致接觸力始終為 0。因此，如果您想報告帶有接觸力的結果（如果實驗中不使用接觸力，則可以使用版本 > 2.0），建議在使用 Ant 環境時使用 mujoco-py 版本 < 2.0。

獎勵¶

總獎勵為 reward = healthy_reward + forward_reward - ctrl_cost - contact_cost。

healthy_reward：螞蟻每健康一個時間步（參見“Episode End”部分中的定義），就會獲得固定值 healthy_reward（預設為 \(1\)）的獎勵。
forward_reward：向前移動的獎勵，如果螞蟻向前移動（沿正 \(x\) 方向 / 向右），該獎勵將為正。\(w_{forward} \times \frac{dx}{dt}\)，其中 \(dx\) 是 main_body 的位移（\(x_{action後} - x_{action前}\)），\(dt\) 是動作之間的時間，取決於 frame_skip 引數（預設為 \(5\)），以及 frametime（為 \(0.01\)）——因此預設值為 \(dt = 5 \times 0.01 = 0.05\)，\(w_{forward}\) 是 forward_reward_weight（預設為 \(1\)）。
ctrl_cost：一個負獎勵，用於懲罰螞蟻採取過大的動作。\(w_{control} \times \|action\|_2^2\)，其中 \(w_{control}\) 是 ctrl_cost_weight（預設為 \(0.5\)）。
contact_cost：一個負獎勵，用於懲罰螞蟻如果外部接觸力過大。\(w_{contact} \times \|F_{contact}\|_2^2\)，其中 \(w_{contact}\) 是 contact_cost_weight（預設為 \(5\times10^{-4}\)），\(F_{contact}\) 是被 contact_force_range 裁剪的外部接觸力（參見觀測空間中的 cfrc_ext 部分）。

info 包含各個獎勵項。

但如果在 v4 上 use_contact_forces=False，則返回的總獎勵為 reward = healthy_reward + forward_reward - ctrl_cost。

初始狀態¶

初始位置狀態是 \([0.0, 0.0, 0.75, 1.0, 0.0, ... 0.0] + \mathcal{U}_{[-reset\_noise\_scale \times I_{15}, reset\_noise\_scale \times I_{15}]}\)。初始速度狀態是 \(\mathcal{N}(0_{14}, reset\_noise\_scale^2 \times I_{14})\)。

其中 \(\mathcal{N}\) 是多元正態分佈，\(\mathcal{U}\) 是多元均勻連續分佈。

請注意，z 座標和 x 座標是非零的，這樣螞蟻可以立即站立並向前（x 軸）移動。

回合結束¶

終止¶

如果 terminate_when_unhealthy is True（預設），環境將在 Ant 不健康時終止。如果發生以下任何情況，Ant 將不健康

任何狀態空間值不再是有限的。
軀幹的 z 座標（高度）不在 healthy_z_range 引數給定的閉區間內（預設為 \([0.2, 1.0]\)）。

截斷¶

一個回合的預設持續時間是 1000 個時間步。

引數¶

Ant 提供了一系列引數來修改觀測空間、獎勵函式、初始狀態和終止條件。這些引數可以在 gymnasium.make 期間按以下方式應用

import gymnasium as gym
env = gym.make('Ant-v5', ctrl_cost_weight=0.5, ...)

引數	型別	預設值	描述
`xml_file`	str	`"ant.xml"`	MuJoCo 模型的路徑
`forward_reward_weight`	float	`1`	forward_reward 項的權重（參見 `Rewards` 部分）
`ctrl_cost_weight`	float	`0.5`	ctrl_cost 項的權重（參見 `Rewards` 部分）
`contact_cost_weight`	float	`5e-4`	contact_cost 項的權重（參見 `Rewards` 部分）
`healthy_reward`	float	`1`	healthy_reward 項的權重（參見 `Rewards` 部分）
`main_body`	str\|int	`1`（“torso”）	身體的名稱或 ID，其位移用於計算 dx/forward_reward（對於自定義 MuJoCo 模型很有用）（參見 `Rewards` 部分）
`terminate_when_unhealthy`	bool	`True`	如果為 `True`，則在不健康時發出 `terminated` 訊號（參見 `Episode End` 部分）
`healthy_z_range`	tuple	`(0.2, 1)`	如果軀幹的 z 座標在此範圍內，則螞蟻被認為是健康的（參見 `Episode End` 部分）
`contact_force_range`	tuple	`(-1, 1)`	在計算 contact_cost 時，接觸力被裁剪到此範圍（參見 `Rewards` 部分）
`reset_noise_scale`	float	`0.1`	初始位置和速度隨機擾動的縮放比例（參見 `Starting State` 部分）
`exclude_current_positions_from_observation`	bool	`True`	是否從觀測中省略 x 和 y 座標。排除位置可以作為歸納偏置，以在策略中引發與位置無關的行為（參見 `Observation State` 部分）
`include_cfrc_ext_in_observation`	bool	`True`	是否在觀測中包含 cfrc_ext 元素（參見 `Observation State` 部分）
`use_contact_forces`（僅 `v4`）	bool	`False`	如果為 `True`，則透過新增接觸力來擴充套件觀測空間（參見 `Observation Space` 部分），並在獎勵函式中包含 contact_cost（參見 `Rewards` 部分）

版本歷史¶

v5
- 最低 mujoco 版本現在是 2.3.3。
- 新增了使用 xml_file 引數完全自定義/第三方 mujoco 模型的支援（以前只能對現有模型進行少量更改）。
- 新增了 default_camera_config 引數，一個用於設定 mj_camera 屬性的字典，主要用於自定義環境。
- 新增了 env.observation_structure，一個用於指定觀測空間組成（例如 qpos、qvel）的字典，對於為 MuJoCo 環境構建工具和包裝器很有用。
- 返回非空的 info 與 reset()，以前返回空字典，新鍵與 step() 中的狀態資訊相同。
- 新增了 frame_skip 引數，用於配置 dt（step() 的持續時間），預設值因環境而異，請查閱環境文件頁面。
- 修復了 bug：healthy_reward 在每個步驟都會給予（即使螞蟻不健康），現在只有在螞蟻健康時才給予。info["reward_survive"] 已根據此更改進行更新（相關 GitHub issue）。
- 獎勵函式現在始終包含 contact_cost，以前僅當 use_contact_forces=True 時才包含（可以使用 contact_cost_weight=0 將其設定為 0）。
- 從觀測空間中排除了 worldbody 的 cfrc_ext，因為它始終為 0，因此無法為智慧體提供有用資訊，從而略微加速了訓練（相關 GitHub issue）。
- 新增了 main_body 引數，用於指定計算前進獎勵的身體（主要用於自定義 MuJoCo 模型）。
- 新增了 forward_reward_weight 引數，預設為 1（與 v4 中的行為基本相同）。
- 新增了 include_cfrc_ext_in_observation 引數，以前在 v4 中，cfrc_ext 觀測的包含由 use_contact_forces 控制，預設為 False，而 include_cfrc_ext_in_observation 預設為 True。
- 移除了 use_contact_forces 引數（注意：其功能已被 include_cfrc_ext_in_observation 和 contact_cost_weight 替代）（相關 GitHub issue）。
- 修復了 info["reward_ctrl"] 有時包含 contact_cost 而非 ctrl_cost 的問題。
- 修復了 info["x_position"] & info["y_position"] & info["distance_from_origin"] 給出 xpos 而非 qpos 觀測的問題（xpos 觀測滯後 1 個 mj_step()，見此處）（相關 GitHub issue #1 和 GitHub issue #2）。
- 移除了 info["forward_reward"]，因為它等同於 info["reward_forward"]。
v4：所有 MuJoCo 環境現在都使用 mujoco >= 2.1.3 中的 MuJoCo 繫結，同時從預設觀測空間中移除了接觸力（新變數 use_contact_forces=True 可以恢復它們）。
v3：支援 gymnasium.make kwargs，例如 xml_file、ctrl_cost_weight、reset_noise_scale 等。RGB 渲染來自跟蹤相機（因此智慧體不會跑出螢幕）。移至 gymnasium-robotics 倉庫。
v2：所有連續控制環境現在都使用 mujoco-py >= 1.50。移至 gymnasium-robotics 倉庫。
v1：基於機器人的任務的 max_time_steps 提高到 1000。向環境添加了 reward_threshold。
v0：初始版本釋出