`ding.policy`¶

`ding.policy` ¶

`R2D2CollectTrajPolicy` ¶

Bases: Policy

Overview

Policy class of R2D2 for collecting expert traj for R2D3.

Config

`PPOSTDIMPolicy` ¶

Bases: PPOPolicy

Overview

Policy class of on policy version PPO algorithm with ST-DIM auxiliary model. PPO paper link: https://arxiv.org/abs/1707.06347. ST-DIM paper link: https://arxiv.org/abs/1906.08226.

`OffPPOCollectTrajPolicy` ¶

Bases: Policy

Overview

Policy class of off policy PPO algorithm to collect expert traj for R2D3.

`MBSACPolicy` ¶

Bases: SACPolicy

Overview

Model based SAC with value expansion (arXiv: 1803.00101) and value gradient (arXiv: 1510.09142) w.r.t lambda-return.

https://arxiv.org/pdf/1803.00101.pdf https://arxiv.org/pdf/1510.09142.pdf

Config

== ==================== ======== ============= ================================== ID Symbol Type Default Value Description == ==================== ======== ============= ================================== 1 learn._lambda float 0.8 | Lambda for TD-lambda return. 2 learn.grad_clip` float 100.0 | Max norm of gradients. 3 |learn.samplebool True | Whether to sample states or |_state`` | transitions from env buffer. == ==================== ======== ============= ==================================

.. note:: For other configs, please refer to ding.policy.sac.SACPolicy.

`STEVESACPolicy` ¶

Bases: SACPolicy

Overview

Model based SAC with stochastic value expansion (arXiv 1807.01675).\ This implementation also uses value gradient w.r.t the same STEVE target.

https://arxiv.org/pdf/1807.01675.pdf

Config

== ==================== ======== ============= ===================================== ID Symbol Type Default Value Description == ==================== ======== ============= ===================================== 1 learn.grad_clip` float 100.0 | Max norm of gradients. 2learn.ensemble_size`` int 1 | The number of ensemble world models. == ==================== ======== ============= =====================================

.. note:: For other configs, please refer to ding.policy.sac.SACPolicy.

`DREAMERPolicy` ¶

Bases: Policy

`SQLPolicy` ¶

Bases: Policy

Overview

Policy class of SQL algorithm.

`default_model()` ¶

Overview

Return this algorithm default model setting for demonstration.

Returns: - model_info (:obj:Tuple[str, List[str]]): model name and mode import_names

.. note:: The user can define and use customized network model but must obey the same inferface definition indicated by import_names path. For DQN, ding.model.template.q_learning.DQN

`DQFDPolicy` ¶

Bases: DQNPolicy

Overview

Policy class of DQFD algorithm, extended by Double DQN/Dueling DQN/PER/multi-step TD.

Config

`IQLPolicy` ¶

Bases: Policy

Overview

Policy class of Implicit Q-Learning (IQL) algorithm for continuous control. Paper link: https://arxiv.org/abs/2110.06169.

Config

`default_model()` ¶

Overview

Return this algorithm default neural network model setting for demonstration. __init__ method will automatically call this method to get the default model setting and create model.

Returns: - model_info (:obj:Tuple[str, List[str]]): The registered model name and model's import_names.

`MADQNPolicy` ¶

Bases: QMIXPolicy

`default_model()` ¶

Overview

Return this algorithm default model setting for demonstration.

Returns: - model_info (:obj:Tuple[str, List[str]]): model name and mode import_names

`PDPolicy` ¶

Bases: Policy

Overview

Implicit Plan Diffuser https://arxiv.org/pdf/2205.09991.pdf

`EpsCommandModePolicy` ¶

Bases: CommandModePolicy

`DDPGCommandModePolicy` ¶

Bases: DDPGPolicy, CommandModePolicy

`BCCommandModePolicy` ¶

Bases: BehaviourCloningPolicy, DummyCommandModePolicy

`get_epsilon_greedy_fn(start, end, decay, type_='exp')` ¶

Overview

Generate an epsilon_greedy function with decay, which inputs current timestep and outputs current epsilon.

Arguments: - start (:obj:float): Epsilon start value. For linear , it should be 1.0. - end (:obj:float): Epsilon end value. - decay (:obj:int): Controls the speed that epsilon decreases from start to end. We recommend epsilon decays according to env step rather than iteration. - type (:obj:str): How epsilon decays, now supports ['linear', 'exp'(exponential)] . Returns: - eps_fn (:obj:function): The epsilon greedy function with decay.

Full Source Code

../ding/policy/__init__.py

from .base_policy import Policy, CommandModePolicy, create_policy, get_policy_clsfrom .common_utils import single_env_forward_wrapper, single_env_forward_wrapper_ttorch, default_preprocess_learnfrom .dqn import DQNSTDIMPolicy, DQNPolicyfrom .mdqn import MDQNPolicyfrom .iqn import IQNPolicyfrom .fqf import FQFPolicyfrom .qrdqn import QRDQNPolicyfrom .c51 import C51Policyfrom .rainbow import RainbowDQNPolicyfrom .ddpg import DDPGPolicyfrom .d4pg import D4PGPolicyfrom .td3 import TD3Policyfrom .td3_vae import TD3VAEPolicyfrom .td3_bc import TD3BCPolicyfrom .dt import DTPolicyfrom .pg import PGPolicyfrom .a2c import A2CPolicyfrom .ppo import PPOPolicy, PPOPGPolicy, PPOOffPolicyfrom .vmpo import VMPOPolicyfrom .sac import SACPolicy, DiscreteSACPolicy, SQILSACPolicyfrom .cql import CQLPolicy, DiscreteCQLPolicyfrom .edac import EDACPolicyfrom .impala import IMPALAPolicyfrom .ngu import NGUPolicyfrom .r2d2 import R2D2Policyfrom .r2d2_gtrxl import R2D2GTrXLPolicyfrom .ppg import PPGPolicy, PPGOffPolicyfrom .sqn import SQNPolicyfrom .bdq import BDQPolicyfrom .qmix import QMIXPolicyfrom .wqmix import WQMIXPolicyfrom .coma import COMAPolicyfrom .collaq import CollaQPolicyfrom .atoc import ATOCPolicyfrom .acer import ACERPolicyfrom .qtran import QTRANPolicyfrom .il import ILPolicyfrom .r2d3 import R2D3Policyfrom .command_mode_policy_instance import *from .policy_factory import PolicyFactory, get_random_policyfrom .pdqn import PDQNPolicyfrom .bc import BehaviourCloningPolicyfrom .ibc import IBCPolicyfrom .pc import ProcedureCloningBFSPolicyfrom .bcq import BCQPolicyfrom .qgpo import QGPOPolicy# new-type policyfrom .ppof import PPOFPolicyfrom .prompt_pg import PromptPGPolicyfrom .prompt_awr import PromptAWRPolicyfrom .happo import HAPPOPolicy

ding.policy¶

ding.policy ¶

R2D2CollectTrajPolicy ¶

PPOSTDIMPolicy ¶

OffPPOCollectTrajPolicy ¶

MBSACPolicy ¶

STEVESACPolicy ¶

DREAMERPolicy ¶

SQLPolicy ¶

default_model() ¶

DQFDPolicy ¶

IQLPolicy ¶

default_model() ¶

MADQNPolicy ¶

default_model() ¶

PDPolicy ¶

EpsCommandModePolicy ¶

DDPGCommandModePolicy ¶

BCCommandModePolicy ¶

get_epsilon_greedy_fn(start, end, decay, type_='exp') ¶

Full Source Code

`ding.policy`¶

`ding.policy` ¶

`R2D2CollectTrajPolicy` ¶

`PPOSTDIMPolicy` ¶

`OffPPOCollectTrajPolicy` ¶

`MBSACPolicy` ¶

`STEVESACPolicy` ¶

`DREAMERPolicy` ¶

`SQLPolicy` ¶

`default_model()` ¶

`DQFDPolicy` ¶

`IQLPolicy` ¶

`default_model()` ¶

`MADQNPolicy` ¶

`default_model()` ¶

`PDPolicy` ¶

`EpsCommandModePolicy` ¶

`DDPGCommandModePolicy` ¶

`BCCommandModePolicy` ¶

`get_epsilon_greedy_fn(start, end, decay, type_='exp')` ¶