LLMは法情報の欠落に気づいてるか? - メタ認知(metacognition)研究インスパイアの調査

こんにちは、LegalscapeのAIエンジニアのDannyです。 この前、日本の法律データを使っていくつかの実験を行い、そこで分かったのは「かなり強力なLLMであっても、重要な時間的・法律的情報が欠落している場合に、確実に回答を控えたり、不確実性に明示的に言…

NLP2026に初参加したAIエンジニアが気になった論文3選

こんにちは、LegalscapeのLabsチームでAIエンジニア/EMを務めている富田です。 2026年3月9日〜12日に宇都宮のライトキューブ宇都宮で開催された言語処理学会第32回年次大会(NLP2026)に参加してきました。私自身はNLPへの参加は今回が初めてだったのですが…

リーガルAI:時点情報の誤解によるハルシネーションの調査と抑制

はじめに こんにちは、LegalscapeのAIエンジニアのDannyです。今回の記事はLegalscapeのLabsチームが最近行ったリーガルAIの研究開発について共有します。 業務効率化のためのLLMベースのAIシステムは急速に法律ワークフローへ取り入れられています。驚異的…

その評価、本当に「モデルの改善」ですか? LLM-as-a-Judgeに潜む「Position Bias」の一例

こんにちは、LegalscapeでAIエンジニアを務めている富田です。 0. 問題意識 LLMを用いたプロダクト開発において、避けて通れないのが「評価(Evaluation)」です。 抽出タスクのように正解が一意に定まる(Ground Truthがある)タスクであれば、F1スコアなど…

LLMのコンテンツフィルターについて

3行でまとめる Azure OpenAIとGeminiでは、コンテンツフィルターの挙動が異なり、エラーハンドリングの実装方法も変わってくる Azure OpenAIは400エラーで明確にブロックする場合と200で一部ブロックする場合があり、Geminiは200レスポンスでブロック理由を…

LLMコストの盲点: 日本語トークナイザー効率で変わる実質コスト比較(GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, PLaMo 2.1 Prime)

はじめに こんにちは、LegalscapeでAIエンジニア/データサイエンティストをしている富田です。 皆さんは各LLMの本当のコストを測ったことがありますか? 1Mtokenあたり○ドルという料金表は確認されていると思いますが、実は各LLMの日本語に対するトークン効…

実践LLMをCoTで考えさせるリスク - AIの体調診察シリーズ (1)

はじめに こんにちは、LegalscapeでAIを開発しているエンジニア、Dannyと申します。 Legalscapeでの弁護士向けのリーガルAIを作る上で最も重要なことの一つは、基盤となるモデル(主に大規模言語モデル:LLM)のfailure mode(失敗モード)に注意を払うこと…