Extrinsic Reward(外部報酬)とCumulative Reward(累積報酬)は、強化学習における報酬の異なる側面を表しています。以下にその違いを説明します。
エージェントはフィールド内に散らばっているアイテムを収集するタスクに挑みます。アイテムには得点を得られるものや、ペナルティを受けるものがあります。エージェントはできるだけ多くの得点を得て、ペナルティを回避することが目標です。
これがExtrinsic Rewardです。この報酬はエージェントの行動に対して即座に与えられ、フィールド上でのアクションが良いか悪いかを示します。
このCumulative Rewardは、エピソード終了時に計算される総合的な評価です。つまり、エージェントがエピソード全体を通じてどれだけ成功したかを示します。
このように、Extrinsic Rewardは行動ごとのフィードバックで、Cumulative Rewardはエピソード全体の結果を評価するものです。