サットン・バルト『強化学習』輪読会

こんにちは。株式会社 Legalscape でソフトウェアエンジニアを務めている中山と申します。

Legalscape では、技術力向上と知識共有を目的として、サットン・バルト原著『強化学習(第2版)』の輪読会を5月の末から3か月ほどやってきました。

Agentic なプロダクトが実用性を増しつつある中、チーム全体で強化学習の基本的理論を学ぶことを目的としています。

目次

 

輪読会について

目的

いわゆるAIエージェントとして、ユーザーの代わりにタスクをこなす様々なプロダクトがすでに人口に膾炙しつつあります。検索では各社が出している Deep Research 系機能、コーディングにおいては Devin, Claude Code, Gemini CLI など、汎用エージェントとしては Manus や ChatGPT Agent などがコンシューマー向けに公開され、簡単な日常的タスクなら委譲できる程度にはプロダクト的にも技術的にも成長してきているように思います。

これらのエージェンティックな機能・プロダクトの開発に、強化学習領域における知見が生かされています。強化学習は言語モデルそのもののトレーニングに用いられ(o1*1, o3*2, Claude*3, DeepSeek-R1*4)、さらにタスクをユーザーの望む形で達成できるよう言語モデルを特定タスクに対してチューニングする過程にも強化学習が使われています(Devin*5, OpenAI Deep Research*6)。

もちろん強化学習は魔法の杖ではありません。他の様々な技術や試行錯誤、数多の実験の上に前述のプロダクトたちが成り立っているはずです。しかしながら、エージェントが実際に環境と相互作用をしながらより良い結果を得ようとするという発想は、強化学習領域における主たる関心によく合致しており、このタイミングで強化学習の理論的側面について知っておくことは今後何らかの機会によい示唆を与えてくれると思います。

選書理由

サットンとバルトの本を選んだ理由としては、まず2025年にACMのチューリング賞をとった2人が書いた教科書というのがきっかけです。実際買って少し読んでみたところリファレンスや「この手法は誰がどの論文で初めて提示した」ということも詳しく書いてあり、分野の潮流を大掴みする上でも役立ちそうと思ったというのもあります。ちなみに、もっと手を動かす系で言うとゼロつくシリーズにも強化学習の巻があります。

とはいえ、輪読会には様々な人が参加することが予想されたため、会のスタイルは極めてカジュアルなものにしようというのは最初に決めていました。詳しくは後述しますが、こういった会は何より続けることに体力を使います。

参加メンバー

会社の Slack で呼びかけたところ、以下のようなメンバーが集まってくれました。

  • 参加人数: 筆者含め5名
  • 構成: 様々なチームから集まったエンジニア
  • 経験レベル: 初学者から少し独学したことがある人まで様々

開催スケジュール

とりあえず週1回、1時間、オンラインとしました。またI部とII部で合計10〜15回を予定しました。実際12回で終わる予定です。

進め方

発表スタイル

一般的な輪読会と同様に、事前準備をして主に発表者が話すという形式を取りました。

  • 担当制: 1章につき1名が担当し、内容をまとめて発表
  • 資料作成: 発表者は事前に資料を準備
  • 質疑応答: 参加者はいつでもカットインしてよいが、基本的には発表者に流れを任せる。発表者への質問も、逆に他の参加者への質問もいつでも適宜。議論もその場の流れで。

工夫している点

先にも少し触れたように、この輪読会はなるべく続くようにという点に重きを置いています。そのために、次のような工夫をしています。

  • 全体像を掴む: 社内輪読会自体が初めてでもあるため、まずは全体像を掴みながらとにかく続けることを目標にしました。
  • 楽をする: 1回に1人当たりの担当する分量がまるまる1章で数十ページと非常に多いにも関わらず発表時間が1時間しかなく、資料作成にかける時間を減らすためにも資料はスライド20枚程度に抑えることにしました。また内容的にも線形代数に一定慣れ親しんでいることが前提となっているため、Gemini でも ChatGPT でも NotebookLM でもなんでも理解の助けになるものはどんどん使おうという方針にしています。
  • アーカイブ化: 発表資料や Gemini による書き起こしを Google Drive にアップロードして Notion の輪読会ページにまとめ、後から参照可能にしています。

現在の進捗状況

第I部と第II部をやる計画で、たまに休みを入れつつ3か月で10章まで進んでいます。

  • 第I部 テーブル形式
    • 第1章 序、第2章 多腕バンディット
    • 第3章 マルコフ決定過程
    • 第4章 動的計画法
    • 第5章 モンテカルロ
    • 第6章 TD学習
    • 第7章 nステップブートストラップ
    • 第8章 テーブル形式手法におけるプランニングと学習
  • 第II部 近似
    • 第9章 近似を用いた方策オン型予測
    • 第10章 関数近似を用いた方策オン型制御(いまここ)
    • 第11章 近似を用いた方策オフ型手法
    • 第12章 適格度トレース
    • 第13章 方策勾配法

これまでの学び・所感

参加者からは以下のような声がありました。

Kさんの感想

本の内容について

  • 初歩的なものから最新のものまで様々な機械学習の学習手法とその歴史的経緯を体系的に抑えることができ、学びになった
  • 一方でそれぞれの手法についての理論的な背景(というか証明)を完全に理解できたかというと難しく、また、それまでの内容を前提にしている部分が多々あり、後ろの方に行くほど復習が必要で大変だった
  • 教養としては学びになったが、すぐに何かを実践できるかというと難しいという感じ
  • とはいえAI系の話題が出たときにこういうことやってんのかな?くらいの想像はできるようになったのでそこは非常によかった

輪読会そのものについて

  • 特に経験者や理系出身の参加者の力を借りてわかっていない部分を補完しながら進めることができた
  • 自分的には5週間に1度担当が回ってくるくらいのペース配分が程よい緊張感を生んでいて、通常業務への支障が出ない、それでいてダレすぎない絶妙なラインだったと感じている
  • 一方で自分の担当回じゃないときに手を抜きすぎていた(1ページも読んでいないこともあった)ので反省
  • なかなかこういった勉強会の機会がなかったので新鮮だった、題材がなんであれ、また参加したい
Hさんの感想

「輪読会がなるべく続くよう工夫されていた点が良かったことで、『続けるためには楽をしよう』という認識があったので、少し気持ちが楽になりました!」

「そして、輪読会でも日常業務でも、下記のような開発メンバーと働けることは良いことだと思っています!

  • 『これは大変だ』が言える関係性
  • 『楽をしよう』が言える関係性
  • 意見を尊重できるメンバーの集まり」

運営での Lessons learned

運営面でうまくいったこととして、教材が有名なため、参考になる資料が豊富です。本文中の例を実装したものや、問題に対する解答例が様々にあり、発表時間中に Colab やローカルで動かしてパラメータによる違いを試したりできました。

他方で課題もあり、準備負担が重いというのが全員の一致するところです。内容の難しさもさることながら分量が多いため、担当する章で重要なポイントを見定める必要があり、学習効果はありそうなものの業務時間外にやるには重すぎました。

また前述の感想にもあったとおり、理論が重たいぶん手を動かす時間を圧迫してしまい、結果として満足度を押し下げる一因になってしまったと認識しています。

今後の予定・展望

今後また強化学習や機械学習について勉強会をやるのであれば、より手を動かしやすいようにということでゼロつくシリーズをやるかもしれません。

他にも『型システムの仕組み』や『Looks Good To Me』、『スクラムブートキャンプ』などが候補として挙がっています。

最後に

今回の輪読会を通じて学んでいる強化学習は技術的選択肢の1つであり、他の選択肢同様にフィットするユースケースがあって役に立つものですから、明日やる仕事がすぐ変わるわけではありません。しかしながら長期的な技術トレンドの中で確実に重要性が増してきているものではあると思います。

そのような意味で、この勉強会が長い目で見てチーム全体の技術力向上と、より高度な課題解決能力の獲得に繋がることを目指しています。

社外の方へ

このような取り組みに共感いただける方がいらっしゃいましたら、ぜひご交流させていただければと思います。お気軽にご連絡ください: https://x.com/legalscape

参考資料

この記事は Legalscape ソリューションバリューチームの中山大地によって執筆されました。