報酬信号(Reward Signal)は、強化学習においてエージェントが行動を評価するための指標です。具体的には、エージェントが環境内での行動を選択した後に得られる報酬の情報を指します。この報酬信号は、エージェントがどの行動を取るべきかを学習する際の重要なフィードバックとなります。
行動の評価: エージェントが行動を取った後、環境から得られる報酬信号によってその行動がどれだけ効果的であったかを評価します。
学習の促進: エージェントは得られた報酬信号をもとに、行動価値関数やポリシーを更新します。正の報酬を得た行動は強化され、負の報酬を得た行動は抑制されます。
目標の定義: 報酬信号は、エージェントが達成すべき目標を示します。例えば、特定のゴールに到達することが報酬として与えられる場合、エージェントはその目標に向かって行動を選択します。
環境報酬(Extrinsic Reward): 外部環境から与えられる報酬で、具体的なタスク達成(例: ゴールに到達)に対して与えられます。
内部報酬(Intrinsic Reward): エージェント自身の動機や探索欲求に基づいて与えられる報酬です。これは、特定の行動の結果ではなく、エージェントの学習や成長を促進するために利用されます。
報酬信号は、強化学習アルゴリズムの中核を成す要素であり、エージェントが効果的に学習し、最適な行動を選択するための基盤を提供します。