LLMは法情報の欠落に気づいてるか? - メタ認知(metacognition)研究インスパイアの調査

こんにちは、LegalscapeのAIエンジニアのDannyです。 この前、日本の法律データを使っていくつかの実験を行い、そこで分かったのは「かなり強力なLLMであっても、重要な時間的・法律的情報が欠落している場合に、確実に回答を控えたり、不確実性に明示的に言…

エンジニアは何をレビューすれば良いのか - ハーネスという概念

AI

AI エージェント時代、レビューはコードを「読む」からハーネスを「設計する」へ。フィードフォワード × フィードバックで品質を担保し、人間は方向性の判断に集中する。

Claude Code の Monitoring 機能を触ってみる

こんにちは。Legalscape の古矢です。 本記事では Claude Code の OpenTelemetry (OTel) ログやその計測結果を眺めてみたときの雑感を簡単にご紹介したいと思います。 本記事での Claude Code のバージョンは 2.1.84 です。 Claude Code の Monitoring 機能…

NLP2026に初参加したAIエンジニアが気になった論文3選

こんにちは、LegalscapeのLabsチームでAIエンジニア/EMを務めている富田です。 2026年3月9日〜12日に宇都宮のライトキューブ宇都宮で開催された言語処理学会第32回年次大会(NLP2026)に参加してきました。私自身はNLPへの参加は今回が初めてだったのですが…

リーガルAI:時点情報の誤解によるハルシネーションの調査と抑制

はじめに こんにちは、LegalscapeのAIエンジニアのDannyです。今回の記事はLegalscapeのLabsチームが最近行ったリーガルAIの研究開発について共有します。 業務効率化のためのLLMベースのAIシステムは急速に法律ワークフローへ取り入れられています。驚異的…

A2A のいま

AI

2026年2月時点での A2A のいまを概観。仕様やSDKの状況、プロキシに agentgateway を使う場合の所感、Agent Engine/ADK での開発上の注意点をまとめる。

Jupyter Notebookと再現性: 116万件の調査が示す96%が再現できない現実、その原因と対策

こんにちは!LegalscapeのLabsチームでAIエンジニアを務めている白水(@sorami)です。 Legalscapeは、AI技術の活用により「法情報の調査」を革新するサービスを開発するテックカンパニーです。その中でLabsチームは、AI・データサイエンスを担当し、情報検…

その評価、本当に「モデルの改善」ですか? LLM-as-a-Judgeに潜む「Position Bias」の一例

こんにちは、LegalscapeでAIエンジニアを務めている富田です。 0. 問題意識 LLMを用いたプロダクト開発において、避けて通れないのが「評価(Evaluation)」です。 抽出タスクのように正解が一意に定まる(Ground Truthがある)タスクであれば、F1スコアなど…

AI時代の並列開発:Gitワークツリーのポート衝突問題をドメインで解決する

こんにちは、橋本です。 この記事では、AIエージェント時代の開発において、Gitワークツリーを最大限活かすための開発環境構成を紹介します。 いきなりですが、みなさんはコーディングにおいて、どのAIツールを使っていますか? 私はClaude Code を使ってい…

UI をコードでなくデータとして送る? - A2UI が示す、思考の共有という UI

AI

AIと一緒に考える仕事が増えているのに、UIは相変わらず「質問して答えが返る」形のまま。 思考の途中や前提、迷いはどこに置けばいいのか。 A2UIという考え方から、AI時代のUIを問い直してみた。

LLMのコンテンツフィルターについて

3行でまとめる Azure OpenAIとGeminiでは、コンテンツフィルターの挙動が異なり、エラーハンドリングの実装方法も変わってくる Azure OpenAIは400エラーで明確にブロックする場合と200で一部ブロックする場合があり、Geminiは200レスポンスでブロック理由を…

LLMコストの盲点: 日本語トークナイザー効率で変わる実質コスト比較(GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, PLaMo 2.1 Prime)

はじめに こんにちは、LegalscapeでAIエンジニア/データサイエンティストをしている富田です。 皆さんは各LLMの本当のコストを測ったことがありますか? 1Mtokenあたり○ドルという料金表は確認されていると思いますが、実は各LLMの日本語に対するトークン効…

実践LLMをCoTで考えさせるリスク - AIの体調診察シリーズ (1)

はじめに こんにちは、LegalscapeでAIを開発しているエンジニア、Dannyと申します。 Legalscapeでの弁護士向けのリーガルAIを作る上で最も重要なことの一つは、基盤となるモデル(主に大規模言語モデル:LLM)のfailure mode(失敗モード)に注意を払うこと…

OpenTelemetryによるAI Agentの監視

AI

OpenTelemetryのGenerative AI Observability規約を使ったAI Agentの監視手法を解説。トークン使用量やレスポンス遅延を標準化されたトレース・メトリクスで可視化し、LangChain/LangGraphでの実装例、Jaeger/Prometheusによる可視化、さらにはSemantic Conv…