こんにちは、LegalscapeでAIエンジニアを務めている富田です。 0. 問題意識 LLMを用いたプロダクト開発において、避けて通れないのが「評価(Evaluation)」です。 抽出タスクのように正解が一意に定まる(Ground Truthがある)タスクであれば、F1スコアなど…
3行でまとめる Azure OpenAIとGeminiでは、コンテンツフィルターの挙動が異なり、エラーハンドリングの実装方法も変わってくる Azure OpenAIは400エラーで明確にブロックする場合と200で一部ブロックする場合があり、Geminiは200レスポンスでブロック理由を…
はじめに こんにちは、LegalscapeでAIエンジニア/データサイエンティストをしている富田です。 皆さんは各LLMの本当のコストを測ったことがありますか? 1Mtokenあたり○ドルという料金表は確認されていると思いますが、実は各LLMの日本語に対するトークン効…
はじめに こんにちは、LegalscapeでAIを開発しているエンジニア、Dannyと申します。 Legalscapeでの弁護士向けのリーガルAIを作る上で最も重要なことの一つは、基盤となるモデル(主に大規模言語モデル:LLM)のfailure mode(失敗モード)に注意を払うこと…