Unity_Lesson

Extrinsic Reward(外部報酬)とCumulative Reward(累積報酬)は、強化学習における報酬の異なる側面を表しています。以下にその違いを説明します。


例: アイテム収集ゲーム

エージェントはフィールド内に散らばっているアイテムを収集するタスクに挑みます。アイテムには得点を得られるものや、ペナルティを受けるものがあります。エージェントはできるだけ多くの得点を得て、ペナルティを回避することが目標です。

1. Extrinsic Reward(外部報酬)

2. Cumulative Reward(累積報酬)

まとめ

このように、Extrinsic Rewardは行動ごとのフィードバックで、Cumulative Rewardはエピソード全体の結果を評価するものです。



3. 違い