バイブコーディング実践編 — Claude Code を中心に AIで安全に作る力／生成コード読解とレビュー — 5層チェックリスト

LLM-as-Judge — 自動レビューの組み方

読了目安 7 分

学習のねらい

AI生成コードのレビューは重要ですが、手動でのレビューには時間とコストがかかります。そこで、LLM(大規模言語モデル)自身にコードレビューをさせる「LLM-as-Judge」というアプローチが注目されています。このレッスンでは、LLM-as-Judgeの基本的な考え方、プロンプトの設計方法、そしてその精度を評価し制御するための方法を学びます。

LLM-as-Judgeのコンセプト

LLM-as-Judgeは、人間のレビューアの代わりにLLMを使ってコードの品質を評価する手法です。 PRの差分(diff)や関連するコンテキスト(変更の目的、既存コードなど)をLLMに渡し、特定の基準に基づいて採点させたり、改善点を指摘させたりします。これにより、レビュープロセスの高速化、一貫性の向上、初期段階での基本的な問題発見が期待できます。

Judge Prompt (判定プロンプト) の定義

LLM-as-Judgeを成功させる鍵は、明確で具体的なプロンプト(指示)をLLMに与えることです。以下の要素を含めることを検討しましょう。

役割の明確化: 「あなたは熟練したソフトウェアエンジニアであり、コードレビューの専門家です。」のように、LLMに期待する役割を明確にします。
レビュー対象の指定: 「以下のPull Requestの差分をレビューしてください。」と明示し、差分コードを渡します。
評価基準の定義: 前レッスンで学んだ5層チェックリストのような具体的な基準を提示します。各基準に対して1〜5段階の点数をつけさせる、コメントを要求するなど。
- 例: 「Intent (意図) の一致度を1(全く一致しない)〜5(完全に一致する)で評価し、その理由を簡潔に述べてください。」
出力フォーマットの指定: LLMが生成するレビュー結果のフォーマットをJSONやMarkdownなど、構造化された形式で指定します。これにより、後続の処理(集計やレポート生成)が容易になります。
- 例: {"intent_score": 4, "intent_comment": "..."}
コンテキスト情報の提供: 変更の目的、関連するチケット情報、既存のコーディング規約へのリンクなど、レビューに必要な背景情報を提供します。

あなたは熟練したソフトウェアエンジニアであり、AI生成コードのレビュー専門家です。
以下のPull Requestの差分を、5つの観点(Intent, Integration, Security, Maintainability, Performance)で評価してください。
各観点について、1(非常に悪い)〜5(非常に良い)のスコアと、具体的なコメントをJSON形式で出力してください。

---
## Pull Request Diff:
```diff
... ここにPRの差分が入る ...

既存のコーディング規約 (抜粋):

Pythonはruff format + ruff checkを使用
update_stock APIのoperation引数は'add'か'subtract'のみ許可

出力フォーマット:

{
  "intent": {"score": 0, "comment": ""},
  "integration": {"score": 0, "comment": ""},
  "security": {"score": 0, "comment": ""},
  "maintainability": {"score": 0, "comment": ""},
  "performance": {"score": 0, "comment": ""}
}


## Human Agreement (人間との一致率) の計測

LLM-as-Judgeを導入する際は、そのレビュー結果が人間のレビューアとどの程度一致するか(Human Agreement)を計測することが重要です。
-   **評価データセットの準備**: 過去に人間がレビューしたPRの中から、AIにレビューさせたいタイプのPRを数件〜数十件選びます。
-   **比較と分析**: LLMによるレビュー結果と人間のレビュー結果を比較し、スコアの相関関係や指摘内容の一致度を定量的に評価します。
-   **フィードバックループ**: 一致率が低い場合は、Judge Promptを改善したり、LLMのモデルやパラメータを調整したりします。

## False Positive (誤検知) の制御

LLM-as-Judgeは、時に誤った指摘(False Positive)をすることがあります。
誤検知が多いと、開発者がレビュー結果を信頼しなくなり、ツールの導入が失敗する可能性があります。

-   **プロンプトの改善**: 「具体的なコード行番号を指摘してください」「推測ではなく、確実な問題点のみを指摘してください」といった指示を追加することで、誤検知を減らせる場合があります。
-   **閾値の設定**: LLMのスコアが特定の閾値(例: 3点未満)を下回った場合のみ、人間のレビューアにエスカレーション(上位への引き渡し)する、といったルールを設けます。
-   **人間による最終確認**: 重要なPRや、LLMが指摘した内容が疑わしい場合は、必ず人間が最終確認を行う体制を維持します。
-   **SASTツールとの併用**: 後続のレッスンで学ぶSAST(Static Application Security Testing)ツールと組み合わせることで、LLMの苦手な明確なセキュリティ脆弱性検知を補完できます。

## まとめ

LLM-as-Judgeは、AI生成コードのレビュープロセスを効率化する強力なツールです。
しかし、その効果を最大限に引き出すためには、明確なJudge Promptの設計、Human Agreementの継続的な計測、そしてFalse Positiveを制御するための工夫が不可欠です。
次の演習では、実際にAnthropic SDKを使ってLLM-as-Judgeを実装し、人間との一致率を測定してみましょう。