Unity_Lesson

  1. Unity公式サンプル

    1. 3DBall 
      観察の収集方法2種類
      • 「BehaviorParameters」とAgent.CollectObservations()
      • スクリプトで[Observale]を使う方法(Ball3DHardAgent.cs)

      提供されているシーン

        ・3DBall:観察に加速度がある
        ・3DBAllHard:観察に加速度がない
        ・Visual3DBall:カメラセンサーでの学習
      


    1. GridWorld 
      行動マスク(グリッド外に行かないように)


    1. PushBlock
      模倣学習(imitation)


    1. Pyramid
      Curiosity + 模倣学習
      (エージェントに好奇心を持たせ、未知の状態への探索を促し、「模倣学習」を使ってエージェントが報酬にたどり着く行動を人間が教えてあげることで、学習効率をあげることができる)


    1. WallJump
      カリキュラム学習
       レッスン0:ジャンプなしにゴールできる環境
       レッスン1:ジャンプしないとゴールできない環境
       レッスン2:ブロックを足場にしてジャンプしないとゴールできない環境
       レッスン3:常に壁が最も高い環境
      


    1. Hallway
      LSTM(Long Short-Term Memory) (模倣学習 imitationも用意されている)


    1. Worm JointDriveControllerを利用 速度報酬✖️方向報酬


    1. Crawler JointDriveControllerを利用 速度報酬✖️方向報酬


    1. Walker
      JointDriveControllerを利用 速度報酬✖️方向報酬


    1. FoodCollector
      GridSensorの利用


    1. Basic
      「カスタムセンサー」と「カスタムアクチュエータ」を利用する学習環境サンプル


    1. Match3
      独自のセンサーで独自の観察の定義を。独自のアクチュエータで独自の行動の定義を行なっている


    1. Sorter
      可変長な観察 BufferSensorの利用 カリキュラム学習


    1. Soccer
      MA-POCA(MultiAgent POsthumous Credit Assignment)による協調行動の学習


    1. CooperativePushBlock
      MA-POCAを利用して協調行動を学習する


    1. DungeonEscape
      RigidbodySensor と MA-POCA の利用