Ant¶
該環境屬於 Mujoco 環境,其中包含有關該環境的一般資訊。
動作空間 |
|
觀測空間 |
|
匯入 |
|
描述¶
該環境基於 Schulman, Moritz, Levine, Jordan 和 Abbeel 在 “High-Dimensional Continuous Control Using Generalized Advantage Estimation” 中介紹的環境。Ant 是一個三維四足機器人,由一個軀幹(自由旋轉體)和連線在其上的四條腿組成,每條腿有兩個身體部位。目標是透過對連線每條腿的兩個身體部位和軀幹的八個鉸鏈施加扭矩,協調四條腿向前(右)方向移動(九個身體部位和八個鉸鏈)。
注意:雖然機器人被稱為“Ant”(螞蟻),但它實際高 75 釐米,重 910.88 克,其中軀幹重 327.25 克,每條腿重 145.91 克。
動作空間¶
動作空間是一個 Box(-1, 1, (8,), float32)。一個動作代表施加在鉸鏈關節上的扭矩。
編號 |
動作 |
控制最小值 |
控制最大值 |
名稱(在相應的 XML 檔案中) |
關節 |
型別(單位) |
|---|---|---|---|---|---|---|
0 |
施加在軀幹和右後髖部之間轉子上的扭矩 |
-1 |
1 |
hip_4 (右後腿) |
鉸鏈 |
扭矩 (N·m) |
1 |
施加在右後兩條連桿之間轉子上的扭矩 |
-1 |
1 |
angle_4 (右後腿) |
鉸鏈 |
扭矩 (N·m) |
2 |
施加在軀幹和左前髖部之間轉子上的扭矩 |
-1 |
1 |
hip_1 (左前腿) |
鉸鏈 |
扭矩 (N·m) |
3 |
施加在左前兩條連桿之間轉子上的扭矩 |
-1 |
1 |
angle_1 (左前腿) |
鉸鏈 |
扭矩 (N·m) |
4 |
施加在軀幹和右前髖部之間轉子上的扭矩 |
-1 |
1 |
hip_2 (右前腿) |
鉸鏈 |
扭矩 (N·m) |
5 |
施加在右前兩條連桿之間轉子上的扭矩 |
-1 |
1 |
angle_2 (右前腿) |
鉸鏈 |
扭矩 (N·m) |
6 |
施加在軀幹和左後髖部之間轉子上的扭矩 |
-1 |
1 |
hip_3 (後腿) |
鉸鏈 |
扭矩 (N·m) |
7 |
施加在左後兩條連桿之間轉子上的扭矩 |
-1 |
1 |
angle_3 (後腿) |
鉸鏈 |
扭矩 (N·m) |
觀測空間¶
觀測空間包含以下部分(按順序)
qpos(預設 13 個元素): 機器人身體部位的位置值。
qvel(14 個元素): 這些單獨身體部位的速度(它們的導數)。
cfrc_ext(78 個元素): 這是基於身體部位質心的外部力。它形狀為 13 * 6 (nbody * 6),因此為狀態空間增加了另外 78 個元素。(外部力 - 力 x, y, z 和扭矩 x, y, z)
預設情況下,觀測不包括軀幹的 x 和 y 座標。透過在構造時傳入 exclude_current_positions_from_observation=False 可以將其包含在內。在這種情況下,觀測空間將是 Box(-Inf, Inf, (107,), float64),其中前兩個觀測是軀幹的 x 和 y 座標。無論 exclude_current_positions_from_observation 設定為 True 還是 False,x 和 y 座標都將以鍵 "x_position" 和 "y_position" 在 info 中返回。
然而,預設情況下,觀測空間是一個 Box(-Inf, Inf, (105,), float64),其中位置和速度元素如下
編號 |
觀測 |
最小值 |
最大值 |
名稱(在相應的 XML 檔案中) |
關節 |
型別(單位) |
|---|---|---|---|---|---|---|
0 |
軀幹(中心)的 z 座標 |
-Inf |
Inf |
根 |
自由 |
位置 (m) |
1 |
軀幹(中心)的 w 方向 |
-Inf |
Inf |
根 |
自由 |
角度 (rad) |
2 |
軀幹(中心)的 x 方向 |
-Inf |
Inf |
根 |
自由 |
角度 (rad) |
3 |
軀幹(中心)的 y 方向 |
-Inf |
Inf |
根 |
自由 |
角度 (rad) |
4 |
軀幹(中心)的 z 方向 |
-Inf |
Inf |
根 |
自由 |
角度 (rad) |
5 |
軀幹與左前第一連桿之間的角度 |
-Inf |
Inf |
hip_1 (左前腿) |
鉸鏈 |
角度 (rad) |
6 |
左前兩個連桿之間的角度 |
-Inf |
Inf |
ankle_1 (左前腿) |
鉸鏈 |
角度 (rad) |
7 |
軀幹與右前第一連桿之間的角度 |
-Inf |
Inf |
hip_2 (右前腿) |
鉸鏈 |
角度 (rad) |
8 |
右前兩個連桿之間的角度 |
-Inf |
Inf |
ankle_2 (右前腿) |
鉸鏈 |
角度 (rad) |
9 |
軀幹與左後第一連桿之間的角度 |
-Inf |
Inf |
hip_3 (後腿) |
鉸鏈 |
角度 (rad) |
10 |
左後兩個連桿之間的角度 |
-Inf |
Inf |
ankle_3 (後腿) |
鉸鏈 |
角度 (rad) |
11 |
軀幹與右後第一連桿之間的角度 |
-Inf |
Inf |
hip_4 (右後腿) |
鉸鏈 |
角度 (rad) |
12 |
右後兩個連桿之間的角度 |
-Inf |
Inf |
ankle_4 (右後腿) |
鉸鏈 |
角度 (rad) |
13 |
軀幹的 x 座標速度 |
-Inf |
Inf |
根 |
自由 |
速度 (m/s) |
14 |
軀幹的 y 座標速度 |
-Inf |
Inf |
根 |
自由 |
速度 (m/s) |
15 |
軀幹的 z 座標速度 |
-Inf |
Inf |
根 |
自由 |
速度 (m/s) |
16 |
軀幹的 x 座標角速度 |
-Inf |
Inf |
根 |
自由 |
角速度 (rad/s) |
17 |
軀幹的 y 座標角速度 |
-Inf |
Inf |
根 |
自由 |
角速度 (rad/s) |
18 |
軀幹的 z 座標角速度 |
-Inf |
Inf |
根 |
自由 |
角速度 (rad/s) |
19 |
軀幹與左前連桿之間角度的角速度 |
-Inf |
Inf |
hip_1 (左前腿) |
鉸鏈 |
角度 (rad) |
20 |
左前連桿之間角度的角速度 |
-Inf |
Inf |
ankle_1 (左前腿) |
鉸鏈 |
角度 (rad) |
21 |
軀幹與右前連桿之間角度的角速度 |
-Inf |
Inf |
hip_2 (右前腿) |
鉸鏈 |
角度 (rad) |
22 |
右前連桿之間角度的角速度 |
-Inf |
Inf |
ankle_2 (右前腿) |
鉸鏈 |
角度 (rad) |
23 |
軀幹與左後連桿之間角度的角速度 |
-Inf |
Inf |
hip_3 (後腿) |
鉸鏈 |
角度 (rad) |
24 |
左後連桿之間角度的角速度 |
-Inf |
Inf |
ankle_3 (後腿) |
鉸鏈 |
角度 (rad) |
25 |
軀幹與右後連桿之間角度的角速度 |
-Inf |
Inf |
hip_4 (右後腿) |
鉸鏈 |
角度 (rad) |
26 |
右後連桿之間角度的角速度 |
-Inf |
Inf |
ankle_4 (右後腿) |
鉸鏈 |
角度 (rad) |
排除 |
軀幹(中心)的 x 座標 |
-Inf |
Inf |
根 |
自由 |
位置 (m) |
排除 |
軀幹(中心)的 y 座標 |
-Inf |
Inf |
根 |
自由 |
位置 (m) |
身體部位是
身體部位 |
ID(對於 |
ID(對於 |
|---|---|---|
worldbody (注意:所有值均為常數 0) |
0 |
排除 |
torso |
1 |
0 |
front_left_leg |
2 |
1 |
aux_1 (左前腿) |
3 |
2 |
ankle_1 (左前腿) |
4 |
3 |
front_right_leg |
5 |
4 |
aux_2 (右前腿) |
6 |
5 |
ankle_2 (右前腿) |
7 |
6 |
back_leg (左後腿) |
8 |
7 |
aux_3 (左後腿) |
9 |
8 |
ankle_3 (左後腿) |
10 |
9 |
right_back_leg |
11 |
10 |
aux_4 (右後腿) |
12 |
11 |
ankle_4 (右後腿) |
13 |
12 |
(x,y,z) 座標是平移自由度,而方向是表示為四元數的旋轉自由度。有關自由關節的更多資訊,請參閱 MuJoCo 文件。
注意: 使用 Ant-v3 或更早版本時,據報道當使用 mujoco-py 版本 > 2.0 時會出現問題,導致接觸力始終為 0。因此,如果您想報告帶有接觸力的結果(如果實驗中不使用接觸力,則可以使用版本 > 2.0),建議在使用 Ant 環境時使用 mujoco-py 版本 < 2.0。
獎勵¶
總獎勵為 reward = healthy_reward + forward_reward - ctrl_cost - contact_cost。
healthy_reward:螞蟻每健康一個時間步(參見“Episode End”部分中的定義),就會獲得固定值
healthy_reward(預設為 \(1\))的獎勵。forward_reward:向前移動的獎勵,如果螞蟻向前移動(沿正 \(x\) 方向 / 向右),該獎勵將為正。\(w_{forward} \times \frac{dx}{dt}\),其中 \(dx\) 是
main_body的位移(\(x_{action後} - x_{action前}\)),\(dt\) 是動作之間的時間,取決於frame_skip引數(預設為 \(5\)),以及frametime(為 \(0.01\))——因此預設值為 \(dt = 5 \times 0.01 = 0.05\),\(w_{forward}\) 是forward_reward_weight(預設為 \(1\))。ctrl_cost:一個負獎勵,用於懲罰螞蟻採取過大的動作。\(w_{control} \times \|action\|_2^2\),其中 \(w_{control}\) 是
ctrl_cost_weight(預設為 \(0.5\))。contact_cost:一個負獎勵,用於懲罰螞蟻如果外部接觸力過大。\(w_{contact} \times \|F_{contact}\|_2^2\),其中 \(w_{contact}\) 是
contact_cost_weight(預設為 \(5\times10^{-4}\)),\(F_{contact}\) 是被contact_force_range裁剪的外部接觸力(參見觀測空間中的cfrc_ext部分)。
info 包含各個獎勵項。
但如果在 v4 上 use_contact_forces=False,則返回的總獎勵為 reward = healthy_reward + forward_reward - ctrl_cost。
初始狀態¶
初始位置狀態是 \([0.0, 0.0, 0.75, 1.0, 0.0, ... 0.0] + \mathcal{U}_{[-reset\_noise\_scale \times I_{15}, reset\_noise\_scale \times I_{15}]}\)。初始速度狀態是 \(\mathcal{N}(0_{14}, reset\_noise\_scale^2 \times I_{14})\)。
其中 \(\mathcal{N}\) 是多元正態分佈,\(\mathcal{U}\) 是多元均勻連續分佈。
請注意,z 座標和 x 座標是非零的,這樣螞蟻可以立即站立並向前(x 軸)移動。
回合結束¶
終止¶
如果 terminate_when_unhealthy is True(預設),環境將在 Ant 不健康時終止。如果發生以下任何情況,Ant 將不健康
任何狀態空間值不再是有限的。
軀幹的 z 座標(高度)不在
healthy_z_range引數給定的閉區間內(預設為 \([0.2, 1.0]\))。
截斷¶
一個回合的預設持續時間是 1000 個時間步。
引數¶
Ant 提供了一系列引數來修改觀測空間、獎勵函式、初始狀態和終止條件。這些引數可以在 gymnasium.make 期間按以下方式應用
import gymnasium as gym
env = gym.make('Ant-v5', ctrl_cost_weight=0.5, ...)
引數 |
型別 |
預設值 |
描述 |
|---|---|---|---|
|
str |
|
MuJoCo 模型的路徑 |
|
float |
|
forward_reward 項的權重(參見 |
|
float |
|
ctrl_cost 項的權重(參見 |
|
float |
|
contact_cost 項的權重(參見 |
|
float |
|
healthy_reward 項的權重(參見 |
|
str|int |
|
身體的名稱或 ID,其位移用於計算 dx/forward_reward(對於自定義 MuJoCo 模型很有用)(參見 |
|
bool |
|
如果為 |
|
tuple |
|
如果軀幹的 z 座標在此範圍內,則螞蟻被認為是健康的(參見 |
|
tuple |
|
在計算 contact_cost 時,接觸力被裁剪到此範圍(參見 |
|
float |
|
初始位置和速度隨機擾動的縮放比例(參見 |
|
bool |
|
是否從觀測中省略 x 和 y 座標。排除位置可以作為歸納偏置,以在策略中引發與位置無關的行為(參見 |
|
bool |
|
是否在觀測中包含 cfrc_ext 元素(參見 |
|
bool |
|
如果為 |
版本歷史¶
v5
最低
mujoco版本現在是 2.3.3。新增了使用
xml_file引數完全自定義/第三方mujoco模型的支援(以前只能對現有模型進行少量更改)。新增了
default_camera_config引數,一個用於設定mj_camera屬性的字典,主要用於自定義環境。新增了
env.observation_structure,一個用於指定觀測空間組成(例如qpos、qvel)的字典,對於為 MuJoCo 環境構建工具和包裝器很有用。返回非空的
info與reset(),以前返回空字典,新鍵與step()中的狀態資訊相同。新增了
frame_skip引數,用於配置dt(step()的持續時間),預設值因環境而異,請查閱環境文件頁面。修復了 bug:
healthy_reward在每個步驟都會給予(即使螞蟻不健康),現在只有在螞蟻健康時才給予。info["reward_survive"]已根據此更改進行更新(相關 GitHub issue)。獎勵函式現在始終包含
contact_cost,以前僅當use_contact_forces=True時才包含(可以使用contact_cost_weight=0將其設定為0)。從觀測空間中排除了
worldbody的cfrc_ext,因為它始終為 0,因此無法為智慧體提供有用資訊,從而略微加速了訓練(相關 GitHub issue)。新增了
main_body引數,用於指定計算前進獎勵的身體(主要用於自定義 MuJoCo 模型)。新增了
forward_reward_weight引數,預設為1(與v4中的行為基本相同)。新增了
include_cfrc_ext_in_observation引數,以前在v4中,cfrc_ext觀測的包含由use_contact_forces控制,預設為False,而include_cfrc_ext_in_observation預設為True。移除了
use_contact_forces引數(注意:其功能已被include_cfrc_ext_in_observation和contact_cost_weight替代)(相關 GitHub issue)。修復了
info["reward_ctrl"]有時包含contact_cost而非ctrl_cost的問題。修復了
info["x_position"]&info["y_position"]&info["distance_from_origin"]給出xpos而非qpos觀測的問題(xpos觀測滯後 1 個mj_step(),見 此處)(相關 GitHub issue #1 和 GitHub issue #2)。移除了
info["forward_reward"],因為它等同於info["reward_forward"]。
v4:所有 MuJoCo 環境現在都使用 mujoco >= 2.1.3 中的 MuJoCo 繫結,同時從預設觀測空間中移除了接觸力(新變數
use_contact_forces=True可以恢復它們)。v3:支援
gymnasium.makekwargs,例如xml_file、ctrl_cost_weight、reset_noise_scale等。RGB 渲染來自跟蹤相機(因此智慧體不會跑出螢幕)。移至 gymnasium-robotics 倉庫。v2:所有連續控制環境現在都使用 mujoco-py >= 1.50。移至 gymnasium-robotics 倉庫。
v1:基於機器人的任務的 max_time_steps 提高到 1000。向環境添加了 reward_threshold。
v0:初始版本釋出