仿人機器人¶

此環境是 Mujoco 環境的一部分，其中包含有關該環境的通用資訊。


動作空間	`Box(-0.4, 0.4, (17,), float32)`
觀測空間	`Box(-inf, inf, (348,), float64)`
匯入	`gymnasium.make("Humanoid-v5")`

描述¶

此環境基於 Tassa、Erez 和 Todorov 在“透過線上軌跡優化合成和穩定複雜行為”中引入的環境。這個 3D 兩足機器人旨在模擬人類。它有一個軀幹（腹部），帶有一對腿和手臂，以及一對連線臀部到膝蓋的肌腱。每條腿由三個身體部位（大腿、小腿、腳）組成，手臂由兩個身體部位（上臂、前臂）組成。環境的目標是儘可能快地向前行走而不摔倒。

動作空間¶

動作空間是 Box(-0.4, 0.4, (17,), float32)。一個動作代表施加在鉸鏈關節上的扭矩。

編號	動作	控制最小值	控制最大值	名稱（在相應的 XML 檔案中）	關節	型別（單位）
0	施加在腹部 y 座標鉸鏈上的扭矩	-0.4	0.4	abdomen_y	鉸鏈	扭矩 (N m)
1	施加在腹部 z 座標鉸鏈上的扭矩	-0.4	0.4	abdomen_z	鉸鏈	扭矩 (N m)
2	施加在腹部 x 座標鉸鏈上的扭矩	-0.4	0.4	abdomen_x	鉸鏈	扭矩 (N m)
3	施加在軀幹/腹部與右髖之間的轉子上的扭矩（x 座標）	-0.4	0.4	right_hip_x (right_thigh)	鉸鏈	扭矩 (N m)
4	施加在軀幹/腹部與右髖之間的轉子上的扭矩（z 座標）	-0.4	0.4	right_hip_z (right_thigh)	鉸鏈	扭矩 (N m)
5	施加在軀幹/腹部與右髖之間的轉子上的扭矩（y 座標）	-0.4	0.4	right_hip_y (right_thigh)	鉸鏈	扭矩 (N m)
6	施加在右髖/大腿與右小腿之間的轉子上的扭矩	-0.4	0.4	right_knee	鉸鏈	扭矩 (N m)
7	施加在軀幹/腹部與左髖之間的轉子上的扭矩（x 座標）	-0.4	0.4	left_hip_x (left_thigh)	鉸鏈	扭矩 (N m)
8	施加在軀幹/腹部與左髖之間的轉子上的扭矩（z 座標）	-0.4	0.4	left_hip_z (left_thigh)	鉸鏈	扭矩 (N m)
9	施加在軀幹/腹部與左髖之間的轉子上的扭矩（y 座標）	-0.4	0.4	left_hip_y (left_thigh)	鉸鏈	扭矩 (N m)
10	施加在左髖/大腿與左小腿之間的轉子上的扭矩	-0.4	0.4	left_knee	鉸鏈	扭矩 (N m)
11	施加在軀幹與右上臂之間的轉子上的扭矩（座標 -1）	-0.4	0.4	right_shoulder1	鉸鏈	扭矩 (N m)
12	施加在軀幹與右上臂之間的轉子上的扭矩（座標 -2）	-0.4	0.4	right_shoulder2	鉸鏈	扭矩 (N m)
13	施加在右上臂與右下臂之間的轉子上的扭矩	-0.4	0.4	right_elbow	鉸鏈	扭矩 (N m)
14	施加在軀幹與左上臂之間的轉子上的扭矩（座標 -1）	-0.4	0.4	left_shoulder1	鉸鏈	扭矩 (N m)
15	施加在軀幹與左上臂之間的轉子上的扭矩（座標 -2）	-0.4	0.4	left_shoulder2	鉸鏈	扭矩 (N m)
16	施加在左上臂與左下臂之間的轉子上的扭矩	-0.4	0.4	left_elbow	鉸鏈	扭矩 (N m)

觀測空間¶

觀測空間由以下部分組成（按順序）

qpos（預設 22 個元素）： 機器人身體部位的位置值。
qvel（23 個元素）： 這些單個身體部位的速度（它們的導數）。
cinert（130 個元素）： 剛體部件相對於質心的質量和慣性（這是轉換的中間結果）。它的形狀是 13*10（nbody * 10）。(cinert - 慣性矩陣、身體質量偏移和身體質量)
cvel（78 個元素）： 基於質心的速度。它的形狀是 13 * 6（nbody * 6）。(質心速度 - 速度 x, y, z 和角速度 x, y, z)
qfrc_actuator（17 個元素）： 每個關節處作為執行器力產生的約束力。其形狀為 (17,) (nv * 1)。
cfrc_ext（78 個元素）： 這是作用在身體部位上的基於質心的外力。它的形狀是 13 * 6（nbody * 6），因此在觀測空間中增加了另外 78 個元素。(外力 - 力 x, y, z 和扭矩 x, y, z)

其中 nbody 是機器人中身體的數量，nv 是自由度的數量（= dim(qvel)）。

預設情況下，觀測不包括軀幹的 x 和 y 座標。透過在構造時傳入 exclude_current_positions_from_observation=False 可以將其包括在內。在這種情況下，觀測空間將是 Box(-Inf, Inf, (350,), float64)，其中前兩個觀測是軀幹的 x 和 y 座標。無論 exclude_current_positions_from_observation 設定為 True 還是 False，x 和 y 座標都將以鍵 "x_position" 和 "y_position" 分別在 info 中返回。

然而，預設情況下，觀測空間是 Box(-Inf, Inf, (348,), float64)，其中位置和速度元素如下

編號	觀測	最小值	最大值	名稱（在相應的 XML 檔案中）	關節	型別（單位）
0	軀幹（中心）的 z 座標	-Inf	Inf	根	自由	位置 (m)
1	軀幹（中心）的 w 姿態	-Inf	Inf	根	自由	角度 (rad)
2	軀幹（中心）的 x 姿態	-Inf	Inf	根	自由	角度 (rad)
3	軀幹（中心）的 y 姿態	-Inf	Inf	根	自由	角度 (rad)
4	軀幹（中心）的 z 姿態	-Inf	Inf	根	自由	角度 (rad)
5	腹部（在 lower_waist 中）的 z 角度	-Inf	Inf	abdomen_z	鉸鏈	角度 (rad)
6	腹部（在 lower_waist 中）的 y 角度	-Inf	Inf	abdomen_y	鉸鏈	角度 (rad)
7	腹部（在 pelvis 中）的 x 角度	-Inf	Inf	abdomen_x	鉸鏈	角度 (rad)
8	骨盆與右髖之間角度的 x 座標（在 right_thigh 中）	-Inf	Inf	right_hip_x	鉸鏈	角度 (rad)
9	骨盆與右髖之間角度的 z 座標（在 right_thigh 中）	-Inf	Inf	right_hip_z	鉸鏈	角度 (rad)
10	骨盆與右髖之間角度的 y 座標（在 right_thigh 中）	-Inf	Inf	right_hip_y	鉸鏈	角度 (rad)
11	右髖與右小腿之間角度（在 right_knee 中）	-Inf	Inf	right_knee	鉸鏈	角度 (rad)
12	骨盆與左髖之間角度的 x 座標（在 left_thigh 中）	-Inf	Inf	left_hip_x	鉸鏈	角度 (rad)
13	骨盆與左髖之間角度的 z 座標（在 left_thigh 中）	-Inf	Inf	left_hip_z	鉸鏈	角度 (rad)
14	骨盆與左髖之間角度的 y 座標（在 left_thigh 中）	-Inf	Inf	left_hip_y	鉸鏈	角度 (rad)
15	左髖與左小腿之間角度（在 left_knee 中）	-Inf	Inf	left_knee	鉸鏈	角度 (rad)
16	軀幹與右臂之間角度的座標-1（多軸）（在 right_upper_arm 中）	-Inf	Inf	right_shoulder1	鉸鏈	角度 (rad)
17	軀幹與右臂之間角度的座標-2（多軸）（在 right_upper_arm 中）	-Inf	Inf	right_shoulder2	鉸鏈	角度 (rad)
18	右上臂與右下臂之間角度	-Inf	Inf	right_elbow	鉸鏈	角度 (rad)
19	軀幹與左臂之間角度的座標-1（多軸）（在 left_upper_arm 中）	-Inf	Inf	left_shoulder1	鉸鏈	角度 (rad)
20	軀幹與左臂之間角度的座標-2（多軸）（在 left_upper_arm 中）	-Inf	Inf	left_shoulder2	鉸鏈	角度 (rad)
21	左上臂與左下臂之間角度	-Inf	Inf	left_elbow	鉸鏈	角度 (rad)
22	軀幹（中心）的 x 座標速度	-Inf	Inf	根	自由	速度 (m/s)
23	軀幹（中心）的 y 座標速度	-Inf	Inf	根	自由	速度 (m/s)
24	軀幹（中心）的 z 座標速度	-Inf	Inf	根	自由	速度 (m/s)
25	軀幹（中心）的 x 座標角速度	-Inf	Inf	根	自由	角速度 (rad/s)
26	軀幹（中心）的 y 座標角速度	-Inf	Inf	根	自由	角速度 (rad/s)
27	軀幹（中心）的 z 座標角速度	-Inf	Inf	根	自由	角速度 (rad/s)
28	腹部（在 lower_waist 中）角速度的 z 座標	-Inf	Inf	abdomen_z	鉸鏈	角速度 (rad/s)
29	腹部（在 lower_waist 中）角速度的 y 座標	-Inf	Inf	abdomen_y	鉸鏈	角速度 (rad/s)
30	腹部（在 pelvis 中）角速度的 x 座標	-Inf	Inf	abdomen_x	鉸鏈	角速度 (rad/s)
31	骨盆與右髖之間角度角速度的 x 座標（在 right_thigh 中）	-Inf	Inf	right_hip_x	鉸鏈	角速度 (rad/s)
32	骨盆與右髖之間角度角速度的 z 座標（在 right_thigh 中）	-Inf	Inf	right_hip_z	鉸鏈	角速度 (rad/s)
33	骨盆與右髖之間角度角速度的 y 座標（在 right_thigh 中）	-Inf	Inf	right_hip_y	鉸鏈	角速度 (rad/s)
34	右髖與右小腿之間角度的角速度（在 right_knee 中）	-Inf	Inf	right_knee	鉸鏈	角速度 (rad/s)
35	骨盆與左髖之間角度角速度的 x 座標（在 left_thigh 中）	-Inf	Inf	left_hip_x	鉸鏈	角速度 (rad/s)
36	骨盆與左髖之間角度角速度的 z 座標（在 left_thigh 中）	-Inf	Inf	left_hip_z	鉸鏈	角速度 (rad/s)
37	骨盆與左髖之間角度角速度的 y 座標（在 left_thigh 中）	-Inf	Inf	left_hip_y	鉸鏈	角速度 (rad/s)
38	左髖與左小腿之間角度的角速度（在 left_knee 中）	-Inf	Inf	left_knee	鉸鏈	角速度 (rad/s)
39	軀幹與右臂之間角度角速度的座標-1（多軸）（在 right_upper_arm 中）	-Inf	Inf	right_shoulder1	鉸鏈	角速度 (rad/s)
40	軀幹與右臂之間角度角速度的座標-2（多軸）（在 right_upper_arm 中）	-Inf	Inf	right_shoulder2	鉸鏈	角速度 (rad/s)
41	右上臂與右下臂之間角度的角速度	-Inf	Inf	right_elbow	鉸鏈	角速度 (rad/s)
42	軀幹與左臂之間角度角速度的座標-1（多軸）（在 left_upper_arm 中）	-Inf	Inf	left_shoulder1	鉸鏈	角速度 (rad/s)
43	軀幹與左臂之間角度角速度的座標-2（多軸）（在 left_upper_arm 中）	-Inf	Inf	left_shoulder2	鉸鏈	角速度 (rad/s)
44	左上臂與左下臂之間角度的角速度	-Inf	Inf	left_elbow	鉸鏈	角速度 (rad/s)
已排除	軀幹（中心）的 x 座標	-Inf	Inf	根	自由	位置 (m)
已排除	軀幹（中心）的 y 座標	-Inf	Inf	根	自由	位置 (m)

身體部位是

身體部位	ID（適用於 `v2`、`v3`、`v4`）	ID（適用於 `v5`）
世界主體 (注意: 所有值都為常數 0)	0	已排除
軀幹	1	0
下腰	2	1
骨盆	3	2
右大腿	4	3
右小腿	5	4
右腳	6	5
左大腿	7	6
左小腿	8	7
左腳	9	8
右上臂	10	9
右下臂	11	10
左上臂	12	11
左下臂	13	12

關節是

關節	ID（適用於 `v2`、`v3`、`v4`）	ID（適用於 `v5`）
根（注意：所有值均為常數 0）	0	已排除
根（注意：所有值均為常數 0）	1	已排除
根（注意：所有值均為常數 0）	2	已排除
根（注意：所有值均為常數 0）	3	已排除
根（注意：所有值均為常數 0）	4	已排除
根（注意：所有值均為常數 0）	5	已排除
abdomen_z	6	0
abdomen_y	7	1
abdomen_x	8	2
right_hip_x	9	3
right_hip_z	10	4
right_hip_y	11	5
right_knee	12	6
left_hip_x	13	7
左髖關節 z	14	8
left_hip_y	15	9
left_knee	16	10
right_shoulder1	17	11
right_shoulder2	18	12
right_elbow	19	13
left_shoulder1	20	14
left_shoulder2	21	15
左肘	22	16

(x,y,z) 座標是平移自由度，而方向是表示為四元數的旋轉自由度。您可以在MuJoCo 文件中閱讀有關自由關節的更多資訊。

注意： 使用 Humanoid-v3 或更早版本時，據報道當使用 mujoco-py 版本 > 2.0 時會出現問題，導致接觸力始終為 0。因此，建議在使用 Humanoid 環境時，如果想報告接觸力的結果，請使用 mujoco-py 版本 < 2.0（如果實驗中不使用接觸力，則可以使用版本 > 2.0）。

獎勵¶

總獎勵為：reward = healthy_reward + forward_reward - ctrl_cost - contact_cost。

healthy_reward：每當仿人機器人健康（參見“情節結束”部分的定義）時，它都會獲得一個固定值 healthy_reward 的獎勵（預設為 \(5\)）。
forward_reward：一個向前移動的獎勵，如果仿人機器人向前移動（在正 \(x\) 方向 / 向右方向），則此獎勵為正。 \(w_{forward} \times \frac{dx}{dt}\)，其中 \(dx\) 是質心位移（\(x_{after-action} - x_{before-action}\)），\(dt\) 是動作之間的時間，這取決於 frame_skip 引數（預設為 \(5\)）和 frametime（為 \(0.001\)）——所以預設是 \(dt = 5 \times 0.003 = 0.015\)，\(w_{forward}\) 是 forward_reward_weight（預設為 \(1.25\)）。
ctrl_cost：一個負獎勵，用於懲罰仿人機器人採取過大的動作。\(w_{control} \times \|action\|_2^2\)，其中 \(w_{control}\) 是 ctrl_cost_weight（預設為 \(0.1\)）。
contact_cost：一個負獎勵，用於懲罰仿人機器人外部接觸力過大。\(w_{contact} \times clamp(contact\_cost\_range, \|F_{contact}\|_2^2)\)，其中 \(w_{contact}\) 是 contact_cost_weight（預設為 \(5\times10^{-7}\)），\(F_{contact}\) 是外部接觸力（參見觀測中的 cfrc_ext 部分）。

info 包含各個獎勵項。

注意： Humanoid-v4 環境中存在一個錯誤，導致 contact_cost 始終為 0。

起始狀態¶

初始位置狀態是 \([0.0, 0.0, 1.4, 1.0, 0.0, ... 0.0] + \mathcal{U}_{[-reset\_noise\_scale \times I_{24}, reset\_noise\_scale \times I_{24}]}\)。初始速度狀態是 \(\mathcal{U}_{[-reset\_noise\_scale \times I_{23}, reset\_noise\_scale \times I_{23}]}\)。

其中 \(\mathcal{U}\) 是多元均勻連續分佈。

請注意，z 和 x 座標不為零，以便仿人機器人可以立即站立並面向前方（x 軸）。

情節結束¶

終止¶

如果 terminate_when_unhealthy is True（預設值），則當仿人機器人不健康時環境終止。如果發生以下任何情況，仿人機器人被認為不健康

軀幹的 z 座標（高度）不在 healthy_z_range 引數給定的閉區間內（預設為 \([1.0, 2.0]\)）。

截斷¶

一集預設持續時間為 1000 個時間步。

引數¶

Humanoid 提供了一系列引數來修改觀測空間、獎勵函式、初始狀態和終止條件。這些引數可以在 gymnasium.make 中按以下方式應用

import gymnasium as gym
env = gym.make('Humanoid-v5', ctrl_cost_weight=0.1, ....)

引數	型別	預設值	描述
`xml_file`	str	`"humanoid.xml"`	MuJoCo 模型路徑
`forward_reward_weight`	float	`1.25`	forward_reward 項的權重（參見`獎勵`部分）
`ctrl_cost_weight`	float	`0.1`	ctrl_cost 項的權重（參見`獎勵`部分）
`contact_cost_weight`	float	`5e-7`	contact_cost 項的權重（參見`獎勵`部分）
`contact_cost_range`	float	`(-np.inf, 10.0)`	夾緊 contact_cost 項（參見`獎勵`部分）
`healthy_reward`	float	`5.0`	healthy_reward 項的權重（參見`獎勵`部分）
`terminate_when_unhealthy`	bool	`True`	如果為 `True`，則在不健康時發出 `terminated` 訊號（參見`情節結束`部分）
`healthy_z_range`	tuple	`(1.0, 2.0)`	如果軀幹的 z 座標在此範圍內，則仿人機器人被視為健康（參見`情節結束`部分）
`reset_noise_scale`	float	`1e-2`	初始位置和速度的隨機擾動比例（參見`起始狀態`部分）
`exclude_current_positions_from_observation`	bool	`True`	是否從觀測中省略 x 和 y 座標。排除位置可以作為歸納偏差，以在策略中引發位置無關的行為（參見`觀測狀態`部分）
`include_cinert_in_observation`	bool	`True`	是否在觀測中包含 cinert 元素（參見`觀測狀態`部分）
`include_cvel_in_observation`	bool	`True`	是否在觀測中包含 cvel 元素（參見`觀測狀態`部分）
`include_qfrc_actuator_in_observation`	bool	`True`	是否在觀測中包含 qfrc_actuator 元素（參見`觀測狀態`部分）
`include_cfrc_ext_in_observation`	bool	`True`	是否在觀測中包含 cfrc_ext 元素（參見`觀測狀態`部分）

版本歷史¶

v5
- 最低 mujoco 版本現在是 2.3.3。
- 添加了對使用 xml_file 引數的完全自定義/第三方 mujoco 模型支援（以前只能對現有模型進行少量更改）。
- 添加了 default_camera_config 引數，一個用於設定 mj_camera 屬性的字典，主要用於自定義環境。
- 添加了 env.observation_structure，一個用於指定觀測空間組成（例如 qpos、qvel）的字典，對於為 MuJoCo 環境構建工具和包裝器很有用。
- 返回一個非空的 info 和 reset()，以前返回的是一個空字典，新的鍵與 step() 的狀態資訊相同。
- 添加了 frame_skip 引數，用於配置 dt（step() 的持續時間），預設值因環境而異，請查閱環境文件頁面。
- 修復了錯誤：healthy_reward 在每一步都會獲得（即使仿人機器人不健康），現在只在仿人機器人健康時才獲得。 info["reward_survive"] 已根據此更改進行更新（相關GitHub 問題）。
- 恢復了 contact_cost 和相應的 contact_cost_weight 和 contact_cost_range 引數，其預設值與 Humanoid-v3 中相同（在 v4 中已移除）（相關GitHub 問題）。
- 將 worldbody 的 cinert 和 cvel 和 cfrc_ext 以及 root/freejoint 的 qfrc_actuator 從觀測空間中排除，因為它們始終為 0，因此無法為智慧體提供有用資訊，從而略微加快了訓練速度（相關GitHub 問題）。
- 恢復了 xml_file 引數（在 v4 中已移除）。
- 添加了 include_cinert_in_observation、include_cvel_in_observation、include_qfrc_actuator_in_observation、include_cfrc_ext_in_observation 引數，以允許從觀測空間中排除觀測元素。
- 修復了 info["x_position"] & info["y_position"] & info["distance_from_origin"] 返回 xpos 而不是基於 qpos 的觀測（xpos 觀測滯後 1 個 mj_step()，此處有說明）（相關GitHub 問題 #1 和GitHub 問題 #2）。
- 添加了 info["tendon_length"] 和 info["tendon_velocity"]，其中包含仿人機器人連線髖部到膝蓋的 2 條肌腱的觀測資料。
- 將 info["reward_alive"] 重新命名為 info["reward_survive"]，以與其他環境保持一致。
- 將 info["reward_linvel"] 重新命名為 info["reward_forward"]，以與其他環境保持一致。
- 將 info["reward_quadctrl"] 重新命名為 info["reward_ctrl"]，以與其他環境保持一致。
- 刪除了 info["forward_reward"]，因為它等同於 info["reward_forward"]。
v4：所有 MuJoCo 環境現在都使用 mujoco >= 2.1.3 中的 MuJoCo 繫結
v3：支援 gymnasium.make kwargs，例如 xml_file、ctrl_cost_weight、reset_noise_scale 等。rgb 渲染來自跟蹤攝像頭（因此智慧體不會跑出螢幕）。已移至 gymnasium-robotics 倉庫。
- 注意：環境機器人模型在 gym==0.21.0 時略有更改，訓練結果與 gym<0.21 和 gym>=0.21 不可比（相關GitHub PR）
v2：所有連續控制環境現在都使用 mujoco-py >= 1.50。已移至 gymnasium-robotics 倉庫。
- 注意：環境機器人模型在 gym==0.21.0 時略有更改，訓練結果與 gym<0.21 和 gym>=0.21 不可比（相關GitHub PR）
v1：基於機器人的任務的最大時間步數提高到 1000。向環境添加了 reward_threshold。
v0：初始版本釋出