Legalscape の中山大地です。
Legalscape では、Legalscape Night というイベントを開催しています。この記事では、10月の Legalscape Night で LT をしたときに使ったスライドをみながら、社内勉強会で学んだ強化学習の内容のあらましをご紹介したいと思います。実際の LT のようにスライドをめくりながら読んでいただければと思います。
なお、勉強会の詳細については以下の記事をご覧ください。
ちなみにスライドタイトルはこの記事を書くにあたって改題したものですが、実際のLTが15分前後でしたので、このようなタイトルにいたしました。
このスライドについて
勉強会ではサットン・バルトの『強化学習』を1章ずつ読んでいきました。前半はテーブル形式の解法、後半は近似による解法という構成となっていました。
このスライドにおいては、簡潔さや流れを重視してそういった構成を一旦忘れ、強化学習の枠組みから始めてTD法という中心的なアイデアを紹介し、最終的に適格度トレースまで到達することで、今日的な深層強化学習に触れる心構えができることを目指しました。
内容の正確性には注意を払いましたが、もし誤りなどありましたら、ご指摘いただけますと幸いです。
強化学習とは
それではスライドの内容に入りましょう。
強化学習は、エージェントが環境と相互作用して報酬を最大化するという問題や、そういった問題を解くための解法、またそれらを研究する分野を指します。人工知能研究のなかでも探索や学習を主眼とする流れとして位置付けられます。
強化学習は機械学習の1分野です。教師あり学習とは何が違うのかというと、強化学習が扱う問題はラベル付きデータを得ることが難しく、各状態・行動に対する正解が直接は与えられないために経験から推定する必要があります。また、教師なし学習はそのような代表的事例に頼らないという点では似ていますが、強化学習は構造の探索だけではなく、報酬を最大化することを目的としています。
エージェントが行動をとるという問題設定から、より高い報酬が得られる行動を探索する必要がうまれます。しかし、探索すると報酬の低い行動を選んでしまうこともあります。このように探索と活用のトレードオフがあることも強化学習の特徴です。
強化学習はそのような行動を決めるための方策、状態と行動から導かれる報酬、経験から計算できる状態や行動の価値関数、そして環境を模倣する環境モデルから構成されます。
ある状態において、エージェントが行動をとることで次の状態と報酬が決まります。一連の状態、行動、報酬の組の連なりを軌道 (trajectory) と呼びます。この軌道において、ある状態におけるある行動の価値、または状態の価値を学習します。
方策は、ある状態においてどんな行動をとるかという確率を与えます。ある方策に従うとき、どんな状態にどれだけの価値が期待されるかを表すのが状態価値関数です。同様に、ある方策下である状態での行動の価値の期待値が行動価値関数です。これらの価値評価こそが強化学習の中心です。
行動した結果、得られる報酬の割引現在価値の総和が期待収益です。これを最大化したいわけです。
TD法
Temporal difference 法(TD法)は、強化学習の中心的なアイデアです。状態価値関数を推定します。
TD法では、1ステップあとの状態価値と報酬から、元の状態価値を引いた差分に学習率をかけて状態価値関数の推定値を更新します。この操作をすると、推定値の精度が上がることが期待できます。TD法の更新式の期待値をとるとベルマン作用素の右辺と一致するためです。
ベルマン作用素は価値関数をベルマン方程式で更新する操作です。ベルマン作用素で1回更新すると誤差が割引率のぶんだけ小さくなります。繰り返し適用すると、割引率をその回数かけたぶんだけ誤差が小さくなります。
TD(λ)法
誤差が小さくなるなら、1ステップだけではなく2ステップあとの状態価値と報酬から、元の状態価値を更新するとさらによさそうです。2ステップで満足することなく、nステップ繰り返せばすごくよさそうですね。
しかし、期待値が正確になる一方で、nを大きくすると分散が大きくなってしまい、学習が不安定になります。そのためちょうどいいnを選ばなければいけません。
どうせなら、すべてのnについて平均をとって状態価値関数を推定するとどうでしょうか。このアイデアは、TD(λ)法、または別の文脈で Generalized advantage estimation (GAE) と呼ばれます。λは離れたステップをどれだけ重みづけするかをあらわし、トレース減衰パラメータと呼ばれます。
後方観測TD(λ)法
TD(λ)はすべてのnのステップが終わらないと、推定値を更新できないのが欠点です。各ステップが終わった時点で更新できないと、実用的には困ってしまいます。
1ステップのTD法とnステップのTD法のステップごとの誤差の式を使って、TD(λ)法の更新式を書き換えると、TD(λ)の誤差を各ステップで決定できる誤差とあとから決まる誤差に分けられます。
これにより、任意の時刻においてそれまでの状態価値関数を更新できるようになります。これを後方観測TD(λ)といい、対比して通常のTD(λ)を前方観測的とも言います。
適格度トレース
ある時刻において計算できる状態価値関数の推定値の更新差分の式を変形すると、「過去において同じ状態を経験した時点の状態も貢献したものとして扱う」という量が出てきます。これを適格度トレースと呼びます。
強化学習において、何が結果に貢献したのかという credit assignment 問題への対処は非常に多彩な試みがなされていますが、適格度トレースはそれに対して「ある状態に直近どれだけ訪問したか」によって貢献度を加えています。
実務的には、適格度トレースは漸化式として扱えるため計算が軽くなります。
おわり
駆け足でしたが、勉強会で学んだ強化学習の雰囲気をお伝えできたら幸いです。
スライドにはここで触れていない残りのページもありますが、それはまた別の機会といたします。
参考
- AIcia Solid「強化学習の探検」 https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR
- Sutton, Barto『強化学習 第 2 版』(森北出版, 2022)
- 森村哲郎『強化学習』(講談社, 2019)
- Zhang et al., "A Survey of Reinforcement Learning for Large Reasoning Models", arXiv:2509.08827, 2025