SAC
連続行動を持つ環境に適したオフポリシーのアルゴリズム。
エージェントが不確実性を管理しながら最適な行動を学ぶプロセスに焦点を当てます。
Discrete
離散行動の選択肢があるタスクに適したアルゴリズム。
例えば、「左」「右」「ジャンプ」のような固定アクションを選ぶ場合に利用します。
セルフプレイ
エージェントが自分と対戦し、難易度を段階的に高めて学習する方法。
Curiosity
報酬の少ない環境でエージェントが自主的に探索を促進する技法。
模倣学習
デモンストレーションに基づきエージェントが行動を学ぶ方法で、動きを模倣する技術。
VisualObservation
視覚情報(画像や映像)を基にした観察。
エージェントがカメラからの映像を分析し、物体の認識や位置情報を取得する学習を行います。
Raycast Observation
特定の方向にレイを飛ばして情報を取得する観察方法。
距離や衝突物体の情報を用いて、エージェントの空間認識力を高めます。