その評価、本当に「モデルの改善」ですか? LLM-as-a-Judgeに潜む「Position Bias」の一例

こんにちは、LegalscapeでAIエンジニアを務めている富田です。

0. 問題意識

LLMを用いたプロダクト開発において、避けて通れないのが「評価(Evaluation)」です。 抽出タスクのように正解が一意に定まる(Ground Truthがある)タスクであれば、F1スコアなどの定量評価が可能ですが、LLMの本領である「生成」の結果をどう評価するべきでしょうか。

評価手法の一つに、プロンプトに評価基準を与えてLLM自身に判定させる、いわゆるLLM-as-a-Judgeがあります。特に、「既存モデルvs 新規モデル」というサイド・バイ・サイド(Side-by-Side)評価は、モデルを入れ替える際の改善を定量化する良いオプションの一つだと思います。

しかし、その「審判」が公平であるという保証はどこにあるのでしょうか?

今回は、LLM-as-a-Judgeにおける最も厄介なバイアスの一つ、Position Bias(提示順序バイアス) について、最新のモデル群を用いた検証結果を共有します。

1. LLM-as-a-judgeの持つバイアス群

LLM-as-a-Judgeがさまざまなバイアスを持ちうることは、これまで指摘されてきたところでした。

例えば、論文 「Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge」 では、LLM-as-a-Judgeが陥りやすいバイアス を体系的に定義・定量化しています。

Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge

この研究によれば、LLM評価者は単にランダムなミスをするのではなく、以下に代表される系統的な偏り(Systematic Bias)を持っているとされます。また、モデル間の比較ではClaude-3.5が、平均して最もConsistency=Biasが小さいと報告されていました。詳細は元論文をご確認ください。

カテゴリ バイアス名 内容の例
提示形式 Position 回答の提示順序(先か後か)によって評価が変動する。
回答特性 Verbosity 内容の質に関わらず、「文字数が多い回答」を高く評価する。
論理・内容 Fallacy-Oversight 推論過程に論理的な誤りがあっても、結論が正しければ高評価を与える。
外部要因 Authority 根拠が薄くても、もっともらしい引用文献(偽の出典等)があると信じる。
モデル由来 Self-Enhancement 評価者自身と同じモデルが生成した回答を、他モデルより好む。

今回はこの中でも、実務上無自覚だと致命的になりうる Position Biasに焦点を当て、2026年現在の最新モデル群(GPT-5.2等)ではどのような結果になるのか、Legalscapeが直面するリーガル領域の簡単なデータセットを用いて検証しました。

[重要] バイアスはサンプル数で解決しない 評価の「ばらつき(Variance)」は試行回数を増やせば平均化されます。しかし、「バイアス(Bias)」は系統的な誤差です。100回試しても1,000回試しても、例えば後に提示された選択肢を選びやすいという癖があれば、結果は常に一定の方向に歪み続けます。


2. 検証のセットアップ

今回は、2026年現在の主要なFrontier LLMモデル4つを「Judge」として採用し、そのバイアスの傾向を比較しました。

生成モデル

比較対象となる回答を生成するモデルは、Gemini 2.5 FlashGPT-4o miniです。 今回は、チャット終了後に提示される「次の関連質問候補リスト」の評価を題材とし、架空の質問を用いてデータセットを100問作成しました。

「次の関連質問候補リスト」の具体例としては、以下のようなイメージです。

- 憲法改正国民投票における有効投票総数の過半数とは具体的にどのように計算されるのか、またその法的根拠は何か。
- 国民投票無効訴訟が東京高等裁判所に提起される理由と、その後の上訴の可能性について詳細を知りたい。
- 憲法改正における「総議員の3分の2以上」という要件の「総議員」の解釈について、学説の対立とその実務上の扱いの詳細を比較検討したい。
- 憲法改正国民投票における投票率の最低限度を設けないことの合憲性について、学説の具体的な論拠と判例の動向を詳しく知りたい。

Judgeモデル

  • GPT-5.2
  • Claude 4.5 Sonnet
  • Gemini 2.5 Pro
  • Gemini 3 Pro Preview

実験デザイン

次のようなシンプルなプロンプトを用いて、100組のペア(Gemini 2.5 Flash と GPT-4o mini の出力)それぞれに対し、4つのJudgeモデル(GPT-5.2、Claude 4.5 Sonnet、Gemini 2.5 Pro、Gemini 3 Pro Preview)で、位置を入れ替えた2パターンを評価させました。

プロンプトイメージ

生成された2つの「関連質問候補リスト」を比較し、どちらがより優れているか判定してください。

# 評価基準
1. 法的関連性: 元の質問と法的に関連しているか
2. 実用性: 法律専門家にとって実務的に有用か
3. 具体性: 質問が具体的で明確か
4. 多様性: 異なる観点からの質問が含まれているか
5. 日本語自然性: 自然な日本語で書かれているか

# 判定方法
- 上記5つの基準を総合的に評価し、より優れている方を選択
- 明確に優劣がつけられない場合は "tie" を選択
- 判断理由を簡潔に説明

# 重要
- 両者の品質が同程度の場合は必ず "tie" を選択してください

# 元の質問
{query}

# 候補A
{modelA_text}

# 候補B
{modelB_text}

パターン

  1. Order-AB: Gemini 2.5 Flashの出力を候補A、GPT-4o miniの出力を候補Bとして提示
  2. Order-BA: GPT-4o miniの出力を候補A、Gemini 2.5 Flashの出力を候補Bとして提示

判定の分類

Judgeは候補A/Bのどちらが優れているか、または引き分け(tie)かを回答します。 各ペア×各Judgeについて、2つの順序での判定結果を突き合わせ、以下のように分類しました。

分類 条件 解釈
Model Consistent 順序に関係なく同じモデルを勝者に選んだ、または両方tieと判定した バイアスなし
Position Biased 順序に関係なく同じ位置を勝者に選んだ 提示位置に引きずられている
├ Position A Preference 両順序とも候補Aを選択 常に先頭を選好
└ Position B Preference 両順序とも候補Bを選択 常に後方を選好
その他 上記いずれにも該当しない(例: 一方でtie、他方で特定モデルを選択) 判定が不安定

3. 実験結果:残るバイアス

あくまで一つのシンプルなタスクについて実験しただけなので、過度に一般化することは慎まないといけませんが、次のような発見がありました。

発見1:全モデルにバイアスが存在

全てのモデルにおいて、数%のケースで、順序を入れ替えただけで判定が覆りました。これは、性能差が僅差である改善(ABテスト)を行う際、バイアスだけで勝敗が決まってしまうリスクを示唆しています。

発見2:モデルごとに異なる「癖」

興味深いことに、バイアスの方向性がモデルによって明確に分かれました。

  • GPT-5.2およびClaude 4.5 Sonnet は、 「後出し(Position B)」 を好む傾向があります。
  • Gemini 3 Pro Preview は、逆に 「先出し(Position A)」 を選好します。
  • Gemini 2.5 Proが、最もConsistentな結果を返していました。一方で、GPT-5.2は他モデルよりも、片方だけ"tie"判定するケースが多く、その結果、Model Consistencyが低くなりました。

まとめ:バイアスを「制御」し、評価の信頼性を担保する

このように、最新のFrontier LLMにおいても引き続きバイアスの存在が示唆されました。LLM-as-a-Judgeにおける位置バイアスをゼロにすることは困難ですが、例えば以下のような評価設計の工夫によって、その影響をできる限り制御することが重要です。

  • 順序の入れ替え(Swapping)と平均化: AB と BA の両パターンで評価を行い、結果を統合(両方勝利で「勝ち」とする、またはスコア合算)することで物理的な位置の影響を相殺します。

  • 複数モデルによる「合議制」: 特定のモデルのバイアスを打ち消しあうため、特性の異なる複数のLLMを組み合わせて判定させ、客観性を担保します。

私たちが「良くなった」と信じてリリースするモデルが、真にユーザーへ価値を届けているのか、それとも単なる評価のバイアスによるものではないか、AIプロダクトの改善には、評価の手法そのものを疑い、磨き続ける粘り強さが欠かせません。

Legalscapeでは、こうした生成AIの不確実性に挑み、法務という極めて高い信頼性が求められる領域でプロダクト開発を推進する仲間を募集しています。この難題に共に取り組んでいただけるエンジニアの方は、ぜひお気軽にご連絡ください!

参考文献

Ye, J., Wang, Y., Huang, Y., Chen, D., Zhang, Q., Moniz, N., ... & Zhang, X. (2024). Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge. arXiv preprint arXiv:2410.02736. https://doi.org/10.48550/arXiv.2410.02736