AIエージェント活用実践編／評価指標と失敗分析

LLM-as-Judge の基本

無料公開レッスン／読了目安 7 分

学習のねらい

LLM(大規模言語モデル)エージェントの性能を評価する際、従来の正解・不正解だけでは測りきれない複雑な側面があります。例えば、エージェントが生成した文章の「自然さ」「論理の一貫性」「ユーザーの意図との合致度」などは、人間が評価するように、別の LLM に評価させることができます。これを LLM-as-Judge (LLMを評価者として使う) と呼びます。本レッスンでは、LLM-as-Judge の基本的な考え方、評価モデルに何を渡すべきか、そして多角的な評価を可能にする「5軸ルーブリック」の作り方について学びます。

LLM-as-Judge とは何か

LLM-as-Judge は、LLM エージェントの出力を評価するために、別の LLM (評価用モデル、またはジャッジモデル)を使用する手法です。人間による評価は時間がかかり、コストも高くなる傾向がありますが、LLM-as-Judge は迅速かつ一貫性のある評価を大規模に行える可能性があります。

なぜ LLM-as-Judge が必要か

複雑な評価基準: エージェントの出力は単純な正誤だけでなく、創造性、表現の適切さ、ユーザー体験など、多岐にわたる評価基準が求められることがあります。
スケーラビリティ: 多数のテストケースやエージェントのバージョンアップのたびに人間が評価するのは現実的ではありません。
一貫性: 人間評価には評価者ごとのばらつき(評価者間信頼性、Inter-rater reliability)が生じやすいですが、適切にプロンプトされた LLM-as-Judge は比較的安定した評価を提供できる可能性があります。

Judge Model に何を渡すか

評価用モデルに渡すべき情報は、その評価の目的によって変わりますが、一般的には以下の要素を含めます。

プロンプト (指示): エージェントに与えられた元のタスク指示です。これにより、評価用モデルはエージェントが何を達成しようとしていたかを理解できます。
エージェントの出力: 評価対象となるエージェントが生成した最終的な回答や成果物です。
ゴールデンアンサー (期待される模範解答): もし存在すれば、人間が作成した、または事前に定義された模範的な回答です。これと比較することで、エージェントの出力の品質を客観的に評価しやすくなります。
評価基準 (ルーブリック): 評価用モデルがどのような観点で評価すべきかを具体的に示したものです。これが最も重要です。

5軸ルーブリックの作り方

評価用モデルに「良いか悪いか」だけを問うのではなく、複数の軸で詳細に評価させることで、より実用的なフィードバックを得られます。一般的な多角的な評価として、以下のような5軸ルーブリックがよく用いられます。これは、エージェントの改善点を特定しやすくするために役立ちます。

正確性 (Accuracy): 出力された情報が事実と合致しているか、誤情報を含んでいないか。
網羅性 (Completeness): 質問に対する必要な情報がすべて含まれているか、不足している情報はないか。
関連性 (Relevance): 出力が質問の意図や文脈にどれだけ合致しているか、無関係な情報を含んでいないか。
論理の一貫性 (Coherence): 出力の内容が論理的に破綻していないか、矛盾がないか。
表現の自然さ・分かりやすさ (Fluency/Clarity): 文章が自然で読みやすいか、専門用語が適切に使われているか、誤字脱字はないか。

ルーブリックの設計例

評価用モデルへのプロンプトには、これらの軸と、それぞれの軸でどのような回答が「良い」と判断されるかの具体例を含めると効果的です。例えば、各軸に対して1〜5段階で採点させ、その理由も記述させるように指示できます。

あなたは優秀な評価アシスタントです。以下の基準に従って、エージェントの出力を評価してください。

[評価基準]
- 正確性: 出力された情報は事実と一致していますか？ (1: 全く不正確 - 5: 完全に正確)
- 網羅性: 質問に答えるために必要な情報がすべて含まれていますか？ (1: 全く不十分 - 5: 完全に網羅)
- 関連性: 質問の意図に沿った回答ですか？ (1: 全く無関係 - 5: 完全に合致)
- 論理の一貫性: 回答に矛盾や論理の飛躍はありませんか？ (1: 矛盾だらけ - 5: 完全に一貫)
- 表現の自然さ・分かりやすさ: 自然な日本語で分かりやすく書かれていますか？ (1: 不自然で読みにくい - 5: 自然で非常に分かりやすい)

[質問]
<ユーザーの質問>

[エージェントの出力]
<エージェントの回答>

[期待される模範解答]
<ゴールデンアンサー (もしあれば)>

上記を参考に、各基準で1〜5点の評価と、その点数をつけた理由を具体的に記述してください。
最後に、総合評価と改善点も記述してください。

Human Agreement の測定

LLM-as-Judge が人間評価をどの程度再現できるかを確認するために、Human Agreement (人間との一致度) を測定することが重要です。これは、一部のサンプルデータに対して、人間が評価した結果と LLM-as-Judge が評価した結果を比較し、その一致度を統計的に分析するものです。

もし LLM-as-Judge と人間評価の間で大きな乖離がある場合、評価用モデルのプロンプトやルーブリックを見直す必要があります。

まとめ

LLM-as-Judge は、エージェントの性能を多角的に、かつスケーラブルに評価するための強力な手法です。評価用モデルに適切な情報と詳細なルーブリックを与えることで、エージェントの改善に役立つ具体的なフィードバックを得ることができます。

参考リンク

https://arxiv.org/abs/2306.05685