Unity_Lesson

マルコフ決定過程（MDP: Markov Decision Process）は、環境の「状態」「行動」「報酬」の関係が完全に分かっている状況下で、エージェントが最適な行動を選択し、報酬を最大化するように進めていくモデルです。

特徴として、「現在の状態と行動が次の状態を決定する」という「マルコフ性」があります。

わかりやすい例：迷路ゲーム

迷路の中でゴールを目指すエージェントを考えます。この迷路の各場所が「状態」を表し、エージェントの行動は「上下左右の移動」です。エージェントはゴールにたどり着いた場合に報酬を得られる仕組みで、以下のようなプロセスで行動が決まります。

状態（State）:
- 迷路の各場所を表し、たとえば「スタート地点」「中間地点A」「ゴール地点」などの状態に分かれています。
行動（Action）:
- エージェントが「上に進む」「下に進む」「右に進む」「左に進む」の4つの方向に移動する行動を取ることができます。
遷移（Transition）:
- 各行動により次の状態に移ります。たとえば、上に移動すると1つ上のマスに行きますが、壁があれば同じ場所に留まるなど、行動に対して次の状態が確率的に決定されます。
報酬（Reward）:
- ゴールに到達すれば高い報酬（例えば+10）を得られ、途中で特定の罠のマスに止まるとマイナスの報酬（例えば-1）を受けます。
- 他のマスを通過しても報酬はもらえませんが、最終的にゴールを目指して最適な経路を学習します。

MDPでは、エージェントの次の行動は「現在の状態と行動だけ」に依存し、それ以前の状態や行動の履歴には依存しません。つまり、エージェントは「現在の場所」と「移動方向」だけを基に次の状態に遷移し、累積報酬を最大化することを目指します。

この考え方は、迷路ゲームだけでなく、以下のような状況でも応用できます：

マルコフ決定過程を活用すると、このような意思決定の最適化が可能になり、さまざまな環境で効率的な意思決定を支援できます。