その評価、本当に「モデルの改善」ですか? LLM-as-a-Judgeに潜む「Position Bias」の一例

こんにちは、LegalscapeでAIエンジニアを務めている富田です。 0. 問題意識 LLMを用いたプロダクト開発において、避けて通れないのが「評価(Evaluation)」です。 抽出タスクのように正解が一意に定まる(Ground Truthがある)タスクであれば、F1スコアなど…

LLMコストの盲点: 日本語トークナイザー効率で変わる実質コスト比較(GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, PLaMo 2.1 Prime)

はじめに こんにちは、LegalscapeでAIエンジニア/データサイエンティストをしている富田です。 皆さんは各LLMの本当のコストを測ったことがありますか? 1Mtokenあたり○ドルという料金表は確認されていると思いますが、実は各LLMの日本語に対するトークン効…