rl_game/get_up/config/t1_env_cfg.py

import random
import numpy
import numpy as np
import torch
from isaaclab.assets import ArticulationCfg
from isaaclab.envs import ManagerBasedRLEnvCfg, ManagerBasedRLEnv
from isaaclab.managers import ObservationGroupCfg as ObsGroup
from isaaclab.managers import ObservationTermCfg as ObsTerm
from isaaclab.managers import RewardTermCfg as RewTerm
from isaaclab.managers import TerminationTermCfg as DoneTerm
from isaaclab.managers import EventTermCfg as EventTerm
from isaaclab.envs.mdp import JointPositionActionCfg
from isaaclab.managers import SceneEntityCfg
from isaaclab.utils import configclass
from rl_game.get_up.env.t1_env import T1SceneCfg
import isaaclab.envs.mdp as mdp


# --- 1. 自定义 MDP 逻辑函数 ---

def standing_with_feet_reward(
        env: ManagerBasedRLEnv,
        min_head_height: float,
        min_pelvis_height: float,
        sensor_cfg: SceneEntityCfg,
        force_threshold: float = 20.0,
        max_v_z: float = 0.5
) -> torch.Tensor:

    head_idx, _ = env.scene["robot"].find_bodies("H2")
    pelvis_idx, _ = env.scene["robot"].find_bodies("Trunk")

    curr_head_h = torch.clamp(env.scene["robot"].data.body_state_w[:, head_idx[0], 2], 0.0, 2.0)
    curr_pelvis_h = torch.clamp(env.scene["robot"].data.body_state_w[:, pelvis_idx[0], 2], 0.0, 2.0)

    head_score = torch.tanh(curr_head_h / (min_head_height + 1e-6) * 2.0)
    pelvis_score = torch.tanh(curr_pelvis_h / (min_pelvis_height + 1e-6) * 2.0)
    height_reward = (head_score + pelvis_score) / 2.0

    contact_sensor = env.scene.sensors.get(sensor_cfg.name)
    foot_forces_z = torch.sum(contact_sensor.data.net_forces_w[:, :, 2], dim=-1)
    force_weight = torch.sigmoid((foot_forces_z - force_threshold) / 5.0)
    root_vel_z = env.scene["robot"].data.root_lin_vel_w[:, 2]
    vel_penalty = torch.exp(-2.0 * torch.clamp(torch.abs(root_vel_z) - max_v_z, min=0.0))

    influence_weight = torch.clamp((curr_pelvis_h - 0.2) / 0.4, min=0.0, max=1.0)
    combined_reward = height_reward * ((1.0 - influence_weight) + influence_weight * force_weight * vel_penalty)

    return combined_reward


def arm_push_up_reward(
        env: ManagerBasedRLEnv,
        sensor_cfg: SceneEntityCfg,
        height_threshold: float = 0.55,
        min_force: float = 15.0
) -> torch.Tensor:
    """带几何限制的高标准手臂支撑奖励"""
    contact_sensor = env.scene.sensors.get(sensor_cfg.name)
    if contact_sensor is None:
        return torch.zeros(env.num_envs, device=env.device)

    # 1. 获取受力数据
    arm_forces_z = contact_sensor.data.net_forces_w[:, :, 2]
    avg_arm_force = torch.mean(arm_forces_z, dim=-1)

    # 2. 几何限制：手臂必须在躯干下方 (修复了之前的 AttributeError)
    arm_body_indices, _ = env.scene["robot"].find_bodies(sensor_cfg.body_names)
    pelvis_idx, _ = env.scene["robot"].find_bodies("Trunk")
    pelvis_pos_z = env.scene["robot"].data.body_state_w[:, pelvis_idx[0], 2]
    arm_pos_z = env.scene["robot"].data.body_state_w[:, arm_body_indices, 2]

    # 手臂是否全部低于盆骨
    is_below_pelvis = torch.all(arm_pos_z < pelvis_pos_z.unsqueeze(1), dim=-1).float()

    # 3. 计算奖励
    force_reward = torch.clamp((avg_arm_force - min_force) / 45.0, min=0.0, max=1.0)
    root_vel_z = env.scene["robot"].data.root_lin_vel_w[:, 2]
    velocity_factor = torch.clamp(root_vel_z * 3.0, min=0.0, max=1.5)

    total_reward = force_reward * is_below_pelvis * (1.0 + velocity_factor)

    # 高度越高，手臂奖励越低 (强迫切换到腿)
    height_fade = torch.clamp((height_threshold - pelvis_pos_z) / 0.1, min=0.0, max=1.0)
    return total_reward * height_fade

def torso_pitch_reward(env: ManagerBasedRLEnv, asset_cfg: SceneEntityCfg) -> torch.Tensor:
    proj_gravity = env.scene[asset_cfg.name].data.projected_gravity_b
    return torch.square(proj_gravity[:, 0])

def is_standing_still(
        env: ManagerBasedRLEnv,
        min_head_height: float,
        min_pelvis_height: float,
        max_angle_error: float,
        standing_time: float,
        velocity_threshold: float = 0.15
) -> torch.Tensor:
    """判定逻辑：双高度达标 + 躯干垂直 + 全身静止"""
    head_idx, _ = env.scene["robot"].find_bodies("H2")
    pelvis_idx, _ = env.scene["robot"].find_bodies("Trunk")

    current_head_h = env.scene["robot"].data.body_state_w[:, head_idx[0], 2]
    current_pelvis_h = env.scene["robot"].data.body_state_w[:, pelvis_idx[0], 2]

    gravity_error = torch.norm(env.scene["robot"].data.projected_gravity_b[:, :2], dim=-1)
    root_vel_norm = torch.norm(env.scene["robot"].data.root_lin_vel_w, dim=-1)

    # 判定条件：头够高 且 盆骨够高 且 垂直误差小 且 速度低
    is_stable_now = (
            (current_head_h > min_head_height) &
            (current_pelvis_h > min_pelvis_height) &
            (gravity_error < max_angle_error) &
            (root_vel_norm < velocity_threshold)
    )

    if "stable_timer" not in env.extras:
        env.extras["stable_timer"] = torch.zeros(env.num_envs, device=env.device)

    dt = env.physics_dt * env.cfg.decimation
    env.extras["stable_timer"] = torch.where(is_stable_now, env.extras["stable_timer"] + dt,
                                             torch.zeros_like(env.extras["stable_timer"]))

    return env.extras["stable_timer"] > standing_time

# --- 2. 配置类 ---

T1_JOINT_NAMES = [
    'Left_Hip_Pitch', 'Right_Hip_Pitch', 'Left_Hip_Roll', 'Right_Hip_Roll',
    'Left_Hip_Yaw', 'Right_Hip_Yaw', 'Left_Knee_Pitch', 'Right_Knee_Pitch',
    'Left_Ankle_Pitch', 'Right_Ankle_Pitch', 'Left_Ankle_Roll', 'Right_Ankle_Roll'
]


@configclass
class T1ObservationCfg:
    @configclass
    class PolicyCfg(ObsGroup):
        concatenate_terms = True
        base_lin_vel = ObsTerm(func=mdp.base_lin_vel)
        base_ang_vel = ObsTerm(func=mdp.base_ang_vel)
        projected_gravity = ObsTerm(func=mdp.projected_gravity)
        root_pos = ObsTerm(func=mdp.root_pos_w)
        joint_pos = ObsTerm(func=mdp.joint_pos_rel,
                            params={"asset_cfg": SceneEntityCfg("robot", joint_names=T1_JOINT_NAMES)})
        joint_vel = ObsTerm(func=mdp.joint_vel_rel,
                            params={"asset_cfg": SceneEntityCfg("robot", joint_names=T1_JOINT_NAMES)})
        actions = ObsTerm(func=mdp.last_action)

    policy = PolicyCfg()


@configclass
class T1EventCfg:
    reset_robot_rotation = EventTerm(
        func=mdp.reset_root_state_uniform,
        params={
            "asset_cfg": SceneEntityCfg("robot"),
            "pose_range": {
                "roll": (-1.57, 1.57),   # 左右侧卧
                "pitch": tuple(numpy.array([1.4, 1.6], dtype=np.float32) * random.choice([-1 , 1])),  # 仰卧/俯卧
                "yaw": (-3.14, 3.14), # 全向旋转
                "x": (0.0, 0.0),
                "y": (0.0, 0.0),
                "z": (0.1, 0.2),
            },
            "velocity_range": {},
        },
        mode="reset",
    )


@configclass
class T1ActionCfg:
    """关键修改：降低 scale 让动作变丝滑，增大阻尼效果"""
    joint_pos = JointPositionActionCfg(
        asset_name="robot",
        joint_names=T1_JOINT_NAMES,
        scale=0.5,
        use_default_offset=True
    )


@configclass
class T1GetUpRewardCfg:
    # 1. 姿态基础奖 (引导身体变正)
    upright = RewTerm(func=mdp.flat_orientation_l2, weight=30.0)

    # 2. 【条件高度奖】：双高度判定（头+盆骨），且必须脚踩地
    height_with_feet = RewTerm(
        func=standing_with_feet_reward,
        weight=25.0,  # 作为核心引导，增加权重
        params={
            "min_head_height": 1.10,
            "min_pelvis_height": 0.7,
            "sensor_cfg": SceneEntityCfg("contact_sensor", body_names=[".*_foot_link"]),
            "force_threshold": 20.0,
            "max_v_z": 0.3
        }
    )

    # 3. 手臂撑地奖：辅助脱离地面阶段
    arm_push_support = RewTerm(
        func=arm_push_up_reward,
        weight=15.0,  # 显著增加权重（从 3.0 提到 15.0），让它成为起步的关键
        params={
            "sensor_cfg": SceneEntityCfg("contact_sensor", body_names=[".*_hand_link", "AL3", "AR3"]),
            "height_threshold": 0.6,  # 躯干升到 0.6m 前都鼓励手臂用力
            "min_force": 10.0  # 只要有 15N 的力就触发
        }
    )

    # 4. 关节限位惩罚 (新增：防止关节撞死导致数值问题)
    joint_limits = RewTerm(
        func=mdp.joint_pos_limits,
        weight=-1.0,
        params={"asset_cfg": SceneEntityCfg("robot")}
    )

    # 4. 新增：躯干仰角奖 (核心诱导)
    torso_pitch = RewTerm(
        func=torso_pitch_reward,  # 或者使用 orientation 相关的项
        weight=15.0,
        params={"asset_cfg": SceneEntityCfg("robot")}
    )

    # 5. 成功终极大奖
    is_success = RewTerm(
        func=lambda env, keys: env.termination_manager.get_term(keys).float(),
        weight=300.0,
        params={"keys": "standing_success"}
    )


@configclass
class T1GetUpTerminationsCfg:
    time_out = DoneTerm(func=mdp.time_out)

    # 失败判定：躯干倾斜超过 45 度重置
    #base_crash = DoneTerm(func=mdp.bad_orientation, params={"limit_angle": 0.785})

    # 成功判定：双高度 + 稳定
    standing_success = DoneTerm(
        func=is_standing_still,
        params={
            "min_head_height": 1.05,
            "min_pelvis_height": 0.75,
            "max_angle_error": 0.3,
            "standing_time": 0.2,
            "velocity_threshold": 0.5
        }
    )


@configclass
class T1EnvCfg(ManagerBasedRLEnvCfg):
    scene = T1SceneCfg(num_envs=16384, env_spacing=2.5)  # 5090 性能全开

    def __post_init__(self):
        super().__post_init__()
        self.scene.robot.init_state.pos = (0.0, 0.0, 0.2)

    observations = T1ObservationCfg()
    rewards = T1GetUpRewardCfg()
    terminations = T1GetUpTerminationsCfg()
    events = T1EventCfg()
    actions = T1ActionCfg()

    episode_length_s = 6.0
    decimation = 4
Amend bugs 2026-03-20 07:03:41 -04:00			`import random`
Amend tiny bug 2026-03-20 08:00:51 -04:00			`import numpy`
Amend tiny bug 2026-03-20 08:12:08 -04:00			`import numpy as np`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00			`import torch`
The demo of get up 2026-03-16 05:00:20 -04:00			`from isaaclab.assets import ArticulationCfg`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00			`from isaaclab.envs import ManagerBasedRLEnvCfg, ManagerBasedRLEnv`
The demo of get up 2026-03-16 05:00:20 -04:00			`from isaaclab.managers import ObservationGroupCfg as ObsGroup`
			`from isaaclab.managers import ObservationTermCfg as ObsTerm`
			`from isaaclab.managers import RewardTermCfg as RewTerm`
			`from isaaclab.managers import TerminationTermCfg as DoneTerm`
			`from isaaclab.managers import EventTermCfg as EventTerm`
			`from isaaclab.envs.mdp import JointPositionActionCfg`
			`from isaaclab.managers import SceneEntityCfg`
			`from isaaclab.utils import configclass`
			`from rl_game.get_up.env.t1_env import T1SceneCfg`
			`import isaaclab.envs.mdp as mdp`


Add arm link rewards 2026-03-19 09:08:57 -04:00			`# --- 1. 自定义 MDP 逻辑函数 ---`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00
Add arm link rewards 2026-03-19 09:08:57 -04:00			`def standing_with_feet_reward(`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00			`env: ManagerBasedRLEnv,`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`min_head_height: float,`
			`min_pelvis_height: float,`
			`sensor_cfg: SceneEntityCfg,`
change reward function 2026-03-21 07:00:49 -04:00			`force_threshold: float = 20.0,`
			`max_v_z: float = 0.5`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00			`) -> torch.Tensor:`
change reward function 2026-03-21 07:00:49 -04:00
Amend some codes to init training for get up better 2026-03-18 06:05:30 -04:00			`head_idx, _ = env.scene["robot"].find_bodies("H2")`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`pelvis_idx, _ = env.scene["robot"].find_bodies("Trunk")`
change rewards 2026-03-19 06:29:30 -04:00
change reward function 2026-03-21 07:00:49 -04:00			`curr_head_h = torch.clamp(env.scene["robot"].data.body_state_w[:, head_idx[0], 2], 0.0, 2.0)`
			`curr_pelvis_h = torch.clamp(env.scene["robot"].data.body_state_w[:, pelvis_idx[0], 2], 0.0, 2.0)`

			`head_score = torch.tanh(curr_head_h / (min_head_height + 1e-6) * 2.0)`
			`pelvis_score = torch.tanh(curr_pelvis_h / (min_pelvis_height + 1e-6) * 2.0)`
			`height_reward = (head_score + pelvis_score) / 2.0`
Amend for standing 2026-03-20 03:37:56 -04:00
			`contact_sensor = env.scene.sensors.get(sensor_cfg.name)`
			`foot_forces_z = torch.sum(contact_sensor.data.net_forces_w[:, :, 2], dim=-1)`
change reward function 2026-03-21 07:00:49 -04:00			`force_weight = torch.sigmoid((foot_forces_z - force_threshold) / 5.0)`
Amend for standing 2026-03-20 03:37:56 -04:00			`root_vel_z = env.scene["robot"].data.root_lin_vel_w[:, 2]`
change reward function 2026-03-21 07:00:49 -04:00			`vel_penalty = torch.exp(-2.0 * torch.clamp(torch.abs(root_vel_z) - max_v_z, min=0.0))`
Amend for standing 2026-03-20 03:37:56 -04:00
change reward function 2026-03-21 07:00:49 -04:00			`influence_weight = torch.clamp((curr_pelvis_h - 0.2) / 0.4, min=0.0, max=1.0)`
			`combined_reward = height_reward * ((1.0 - influence_weight) + influence_weight * force_weight * vel_penalty)`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00
change reward function 2026-03-21 07:00:49 -04:00			`return combined_reward`
change T1EventCfg to add more initial state 2026-03-20 05:20:17 -04:00
change arm to push the ground reward function 2026-03-21 08:38:17 -04:00
Add arm link rewards 2026-03-19 09:08:57 -04:00			`def arm_push_up_reward(`
			`env: ManagerBasedRLEnv,`
			`sensor_cfg: SceneEntityCfg,`
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`height_threshold: float = 0.55,`
			`min_force: float = 15.0`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`) -> torch.Tensor:`
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`"""带几何限制的高标准手臂支撑奖励"""`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`contact_sensor = env.scene.sensors.get(sensor_cfg.name)`
change T1EventCfg to add more initial state 2026-03-20 05:20:17 -04:00			`if contact_sensor is None:`
			`return torch.zeros(env.num_envs, device=env.device)`
change rewards 2026-03-19 06:29:30 -04:00
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`# 1. 获取受力数据`
Amend for standing 2026-03-20 03:37:56 -04:00			`arm_forces_z = contact_sensor.data.net_forces_w[:, :, 2]`
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`avg_arm_force = torch.mean(arm_forces_z, dim=-1)`
Amend for standing 2026-03-20 03:37:56 -04:00
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`# 2. 几何限制：手臂必须在躯干下方 (修复了之前的 AttributeError)`
			`arm_body_indices, _ = env.scene["robot"].find_bodies(sensor_cfg.body_names)`
			`pelvis_idx, _ = env.scene["robot"].find_bodies("Trunk")`
			`pelvis_pos_z = env.scene["robot"].data.body_state_w[:, pelvis_idx[0], 2]`
			`arm_pos_z = env.scene["robot"].data.body_state_w[:, arm_body_indices, 2]`
change rewards 2026-03-19 06:29:30 -04:00
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`# 手臂是否全部低于盆骨`
			`is_below_pelvis = torch.all(arm_pos_z < pelvis_pos_z.unsqueeze(1), dim=-1).float()`
change arm to push the ground reward function 2026-03-21 08:38:17 -04:00
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`# 3. 计算奖励`
			`force_reward = torch.clamp((avg_arm_force - min_force) / 45.0, min=0.0, max=1.0)`
change T1EventCfg to add more initial state 2026-03-20 05:20:17 -04:00			`root_vel_z = env.scene["robot"].data.root_lin_vel_w[:, 2]`
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`velocity_factor = torch.clamp(root_vel_z * 3.0, min=0.0, max=1.5)`
change T1EventCfg to add more initial state 2026-03-20 05:20:17 -04:00
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`total_reward = force_reward * is_below_pelvis * (1.0 + velocity_factor)`
change T1EventCfg to add more initial state 2026-03-20 05:20:17 -04:00
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`# 高度越高，手臂奖励越低 (强迫切换到腿)`
			`height_fade = torch.clamp((height_threshold - pelvis_pos_z) / 0.1, min=0.0, max=1.0)`
			`return total_reward * height_fade`
change rewards 2026-03-19 06:29:30 -04:00
change arm to push the ground reward function 2026-03-21 08:38:17 -04:00			`def torso_pitch_reward(env: ManagerBasedRLEnv, asset_cfg: SceneEntityCfg) -> torch.Tensor:`
			`proj_gravity = env.scene[asset_cfg.name].data.projected_gravity_b`
			`return torch.square(proj_gravity[:, 0])`

Add arm link rewards 2026-03-19 09:08:57 -04:00			`def is_standing_still(`
change rewards 2026-03-19 06:29:30 -04:00			`env: ManagerBasedRLEnv,`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`min_head_height: float,`
			`min_pelvis_height: float,`
			`max_angle_error: float,`
			`standing_time: float,`
			`velocity_threshold: float = 0.15`
change rewards 2026-03-19 06:29:30 -04:00			`) -> torch.Tensor:`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`"""判定逻辑：双高度达标 + 躯干垂直 + 全身静止"""`
			`head_idx, _ = env.scene["robot"].find_bodies("H2")`
			`pelvis_idx, _ = env.scene["robot"].find_bodies("Trunk")`
change rewards 2026-03-19 06:29:30 -04:00
Add arm link rewards 2026-03-19 09:08:57 -04:00			`current_head_h = env.scene["robot"].data.body_state_w[:, head_idx[0], 2]`
			`current_pelvis_h = env.scene["robot"].data.body_state_w[:, pelvis_idx[0], 2]`
change rewards 2026-03-19 06:29:30 -04:00
Add arm link rewards 2026-03-19 09:08:57 -04:00			`gravity_error = torch.norm(env.scene["robot"].data.projected_gravity_b[:, :2], dim=-1)`
			`root_vel_norm = torch.norm(env.scene["robot"].data.root_lin_vel_w, dim=-1)`
change rewards 2026-03-19 06:29:30 -04:00
Add arm link rewards 2026-03-19 09:08:57 -04:00			`# 判定条件：头够高且盆骨够高且垂直误差小且速度低`
			`is_stable_now = (`
			`(current_head_h > min_head_height) &`
			`(current_pelvis_h > min_pelvis_height) &`
			`(gravity_error < max_angle_error) &`
			`(root_vel_norm < velocity_threshold)`
			`)`
Amend some codes to init training for get up better 2026-03-18 06:05:30 -04:00
Add arm link rewards 2026-03-19 09:08:57 -04:00			`if "stable_timer" not in env.extras:`
			`env.extras["stable_timer"] = torch.zeros(env.num_envs, device=env.device)`

			`dt = env.physics_dt * env.cfg.decimation`
			`env.extras["stable_timer"] = torch.where(is_stable_now, env.extras["stable_timer"] + dt,`
			`torch.zeros_like(env.extras["stable_timer"]))`

			`return env.extras["stable_timer"] > standing_time`

			`# --- 2. 配置类 ---`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00
change reward add punishment of joint_vel and root_vel_z_penalty 2026-03-17 05:54:20 -04:00			`T1_JOINT_NAMES = [`
change rewards 2026-03-19 06:29:30 -04:00			`'Left_Hip_Pitch', 'Right_Hip_Pitch', 'Left_Hip_Roll', 'Right_Hip_Roll',`
			`'Left_Hip_Yaw', 'Right_Hip_Yaw', 'Left_Knee_Pitch', 'Right_Knee_Pitch',`
			`'Left_Ankle_Pitch', 'Right_Ankle_Pitch', 'Left_Ankle_Roll', 'Right_Ankle_Roll'`
change reward add punishment of joint_vel and root_vel_z_penalty 2026-03-17 05:54:20 -04:00			`]`

change rewards 2026-03-19 06:29:30 -04:00
The demo of get up 2026-03-16 05:00:20 -04:00			`@configclass`
			`class T1ObservationCfg:`
			`@configclass`
			`class PolicyCfg(ObsGroup):`
			`concatenate_terms = True`
			`base_lin_vel = ObsTerm(func=mdp.base_lin_vel)`
			`base_ang_vel = ObsTerm(func=mdp.base_ang_vel)`
			`projected_gravity = ObsTerm(func=mdp.projected_gravity)`
change parameter 2026-03-20 08:55:29 -04:00			`root_pos = ObsTerm(func=mdp.root_pos_w)`
change rewards 2026-03-19 06:29:30 -04:00			`joint_pos = ObsTerm(func=mdp.joint_pos_rel,`
			`params={"asset_cfg": SceneEntityCfg("robot", joint_names=T1_JOINT_NAMES)})`
			`joint_vel = ObsTerm(func=mdp.joint_vel_rel,`
			`params={"asset_cfg": SceneEntityCfg("robot", joint_names=T1_JOINT_NAMES)})`
The demo of get up 2026-03-16 05:00:20 -04:00			`actions = ObsTerm(func=mdp.last_action)`

			`policy = PolicyCfg()`


			`@configclass`
			`class T1EventCfg:`
			`reset_robot_rotation = EventTerm(`
Amend bugs 2026-03-20 07:03:41 -04:00			`func=mdp.reset_root_state_uniform,`
The demo of get up 2026-03-16 05:00:20 -04:00			`params={`
			`"asset_cfg": SceneEntityCfg("robot"),`
Amend some bugs and make it training 2026-03-16 05:46:49 -04:00			`"pose_range": {`
Amend tiny bug 2026-03-20 08:00:51 -04:00			`"roll": (-1.57, 1.57), # 左右侧卧`
Amend tiny bug 2026-03-20 08:12:08 -04:00			`"pitch": tuple(numpy.array([1.4, 1.6], dtype=np.float32) * random.choice([-1 , 1])), # 仰卧/俯卧`
change T1EventCfg to add more initial state 2026-03-20 05:20:17 -04:00			`"yaw": (-3.14, 3.14), # 全向旋转`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00			`"x": (0.0, 0.0),`
Amend some bugs and make it training 2026-03-16 05:46:49 -04:00			`"y": (0.0, 0.0),`
change parameter 2026-03-20 08:55:29 -04:00			`"z": (0.1, 0.2),`
Amend some bugs and make it training 2026-03-16 05:46:49 -04:00			`},`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00			`"velocity_range": {},`
The demo of get up 2026-03-16 05:00:20 -04:00			`},`
			`mode="reset",`
			`)`

Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00
Amend some bugs and make it training 2026-03-16 05:46:49 -04:00			`@configclass`
			`class T1ActionCfg:`
change rewards 2026-03-19 06:29:30 -04:00			`"""关键修改：降低 scale 让动作变丝滑，增大阻尼效果"""`
Amend some bugs and make it training 2026-03-16 05:46:49 -04:00			`joint_pos = JointPositionActionCfg(`
			`asset_name="robot",`
change reward add punishment of joint_vel and root_vel_z_penalty 2026-03-17 05:54:20 -04:00			`joint_names=T1_JOINT_NAMES,`
change parameter 2026-03-20 08:55:29 -04:00			`scale=0.5,`
Amend some bugs and make it training 2026-03-16 05:46:49 -04:00			`use_default_offset=True`
			`)`
The demo of get up 2026-03-16 05:00:20 -04:00
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00
The demo of get up 2026-03-16 05:00:20 -04:00			`@configclass`
			`class T1GetUpRewardCfg:`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`# 1. 姿态基础奖 (引导身体变正)`
change arm to push the ground reward function 2026-03-21 08:38:17 -04:00			`upright = RewTerm(func=mdp.flat_orientation_l2, weight=30.0)`
change reward add punishment of joint_vel and root_vel_z_penalty 2026-03-17 05:54:20 -04:00
Add arm link rewards 2026-03-19 09:08:57 -04:00			`# 2. 【条件高度奖】：双高度判定（头+盆骨），且必须脚踩地`
			`height_with_feet = RewTerm(`
			`func=standing_with_feet_reward,`
change reward function 2026-03-21 07:00:49 -04:00			`weight=25.0, # 作为核心引导，增加权重`
Amend some codes to init training for get up better 2026-03-18 06:05:30 -04:00			`params={`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`"min_head_height": 1.10,`
change reward function 2026-03-21 07:00:49 -04:00			`"min_pelvis_height": 0.7,`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`"sensor_cfg": SceneEntityCfg("contact_sensor", body_names=[".*_foot_link"]),`
change reward function 2026-03-21 07:00:49 -04:00			`"force_threshold": 20.0,`
			`"max_v_z": 0.3`
Amend some codes to init training for get up better 2026-03-18 06:05:30 -04:00			`}`
The demo of get up 2026-03-16 05:00:20 -04:00			`)`

Add arm link rewards 2026-03-19 09:08:57 -04:00			`# 3. 手臂撑地奖：辅助脱离地面阶段`
			`arm_push_support = RewTerm(`
			`func=arm_push_up_reward,`
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`weight=15.0, # 显著增加权重（从 3.0 提到 15.0），让它成为起步的关键`
change T1EventCfg to add more initial state 2026-03-20 05:20:17 -04:00			`params={`
			`"sensor_cfg": SceneEntityCfg("contact_sensor", body_names=[".*_hand_link", "AL3", "AR3"]),`
			`"height_threshold": 0.6, # 躯干升到 0.6m 前都鼓励手臂用力`
change parameter 2026-03-20 08:55:29 -04:00			`"min_force": 10.0 # 只要有 15N 的力就触发`
change T1EventCfg to add more initial state 2026-03-20 05:20:17 -04:00			`}`
change reward add punishment of joint_vel and root_vel_z_penalty 2026-03-17 05:54:20 -04:00			`)`

change reward function 2026-03-21 07:00:49 -04:00			`# 4. 关节限位惩罚 (新增：防止关节撞死导致数值问题)`
			`joint_limits = RewTerm(`
			`func=mdp.joint_pos_limits,`
			`weight=-1.0,`
Amend for standing 2026-03-20 03:37:56 -04:00			`params={"asset_cfg": SceneEntityCfg("robot")}`
Add feet_airtime loss 2026-03-19 09:25:20 -04:00			`)`

change arm to push the ground reward function 2026-03-21 08:38:17 -04:00			`# 4. 新增：躯干仰角奖 (核心诱导)`
			`torso_pitch = RewTerm(`
			`func=torso_pitch_reward, # 或者使用 orientation 相关的项`
			`weight=15.0,`
			`params={"asset_cfg": SceneEntityCfg("robot")}`
			`)`

change reward function 2026-03-21 07:00:49 -04:00			`# 5. 成功终极大奖`
change reward add punishment of joint_vel and root_vel_z_penalty 2026-03-17 05:54:20 -04:00			`is_success = RewTerm(`
change reward function 2026-03-21 07:00:49 -04:00			`func=lambda env, keys: env.termination_manager.get_term(keys).float(),`
Amend arm reward to get reward difficultly 2026-03-21 09:30:43 -04:00			`weight=300.0,`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`params={"keys": "standing_success"}`
change reward add punishment of joint_vel and root_vel_z_penalty 2026-03-17 05:54:20 -04:00			`)`
The demo of get up 2026-03-16 05:00:20 -04:00
Add arm link rewards 2026-03-19 09:08:57 -04:00
The demo of get up 2026-03-16 05:00:20 -04:00			`@configclass`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00			`class T1GetUpTerminationsCfg:`
Amend some codes to init training for get up better 2026-03-18 06:05:30 -04:00			`time_out = DoneTerm(func=mdp.time_out)`

Add arm link rewards 2026-03-19 09:08:57 -04:00			`# 失败判定：躯干倾斜超过 45 度重置`
Amend for standing 2026-03-20 03:37:56 -04:00			`#base_crash = DoneTerm(func=mdp.bad_orientation, params={"limit_angle": 0.785})`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00
Add arm link rewards 2026-03-19 09:08:57 -04:00			`# 成功判定：双高度 + 稳定`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00			`standing_success = DoneTerm(`
change rewards 2026-03-19 06:29:30 -04:00			`func=is_standing_still,`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00			`params={`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`"min_head_height": 1.05,`
			`"min_pelvis_height": 0.75,`
change arm to push the ground reward function 2026-03-21 08:38:17 -04:00			`"max_angle_error": 0.3,`
			`"standing_time": 0.2,`
			`"velocity_threshold": 0.5`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00			`}`
The demo of get up 2026-03-16 05:00:20 -04:00			`)`


			`@configclass`
			`class T1EnvCfg(ManagerBasedRLEnvCfg):`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`scene = T1SceneCfg(num_envs=16384, env_spacing=2.5) # 5090 性能全开`
The demo of get up 2026-03-16 05:00:20 -04:00
			`def __post_init__(self):`
			`super().__post_init__()`
Add arm link rewards 2026-03-19 09:08:57 -04:00			`self.scene.robot.init_state.pos = (0.0, 0.0, 0.2)`
The demo of get up 2026-03-16 05:00:20 -04:00
			`observations = T1ObservationCfg()`
			`rewards = T1GetUpRewardCfg()`
Add reward to maintain an upright and stable position 2026-03-16 09:23:22 -04:00			`terminations = T1GetUpTerminationsCfg()`
			`events = T1EventCfg()`
Amend some bugs and make it training 2026-03-16 05:46:49 -04:00			`actions = T1ActionCfg()`
The demo of get up 2026-03-16 05:00:20 -04:00
Add arm link rewards 2026-03-19 09:08:57 -04:00			`episode_length_s = 6.0`
change reward function 2026-03-21 07:00:49 -04:00			`decimation = 4`