AIレッドチーミングとは|生成AIを攻撃者視点で検証する安全性評価手法
AIレッドチーミングとは、生成AIやLLMシステムに対して攻撃者の視点から意図的に敵対的入力を与え、危険な応答・情報漏洩・制御逸脱・誤作動を引き起こせるかを検証する安全性評価手法です。従来のペネトレーションテストがインフラ・アプリケーション層を扱うのに対し、AIレッドチーミングはプロンプト層・モデル層・RAG層・ツール連携層まで含めて評価する点が特徴です。
2026年時点ではOWASP GenAI Red Teaming Guide、日本のAIセーフティ・インスティテュート(AISI)が公開するレッドチーミング手法ガイド v1.10、MITRE ATLASなどが主要リファレンスとして整備され、AIシステムを本番投入する前の必須プロセスとなりつつあります。renueは複数のAIエージェント事業を自社運用する中で、AIレッドチーミングを継続的改善ループに組み込む実務を蓄積しています。本記事ではAIレッドチーミングの範囲・手法・攻撃パターン・OWASP/AISIガイドの要点、そしてrenue独自視点として「AgentOps連動のレッドチーミング5原則」を解説します。
なぜAIレッドチーミングが必要か|「平均は良いが一部で重大失敗」問題
生成AIの品質評価で見落とされがちなのは、99%のケースで自然な応答を返していても、残り1%で重大な失敗を起こせば全体評価が壊れるという非対称性です。従来のMLモデルなら平均精度で十分だったものが、LLMでは1件の情報漏洩や不適切発言が炎上・訴訟・事業停止に直結します。そのため「通常評価(Golden Set)+レッドチーミング」の二段構えが必要です。
AIレッドチーミングは「どこまで酷い入力で壊せるか」を体系的に調べる活動であり、通常のテスト駆動開発では発見できない稀だが致命的な失敗モードを事前に捕捉します。
AIレッドチーミングと従来ペンテストの違い
| 観点 | 従来ペネトレーションテスト | AIレッドチーミング |
|---|---|---|
| 主対象 | ネットワーク/OS/Webアプリ | LLM/プロンプト/RAG/ツール連携/データ |
| 攻撃入力 | パケット/クエリ/ペイロード | 自然言語プロンプト/画像/音声/多言語 |
| 成功基準 | 権限奪取/情報漏洩 | 出力操作/情報漏洩/規約違反誘発/制御逸脱 |
| 再現性 | 高い(同じ条件で同じ結果) | 低い(確率的出力、温度/seed影響) |
| 自動化 | 成熟(OpenVAS/Burp等) | 発展途上(PyRIT/Garak/DeepTeam等) |
| 評価者スキル | セキュリティ専門 | セキュリティ+言語学+ドメイン知識の複合 |
AIレッドチーミングは確率的出力が相手のため、同じ攻撃が100回中30回しか成功しないケースもあります。統計的に「失敗率」を測る発想が重要です。
OWASP GenAI Red Teaming Guideの4領域
OWASP GenAI Security ProjectのGenAI Red Teaming Guide(2025年1月公開)は、AIレッドチーミングを次の4領域で包括的に実施することを推奨しています。
- モデル評価:学習データバイアス/有害出力/ハルシネーション/脱獄耐性の検証
- 実装テスト:プロンプトインジェクション/出力スキーマ違反/コンテキスト窓溢れ等の実装層攻撃
- インフラ評価:APIキー漏洩/認可不備/モデル盗難/サプライチェーン
- ランタイム挙動解析:本番運用時のドリフト/乱用検知/アノマリー
OWASPはライフサイクル全体(設計→開発→運用)でレッドチーミングを回し、脅威モデリングにMITRE ATLASを併用することを推奨しています。
AISI 日本「AIセーフティに関するレッドチーミング手法ガイド」の要点
日本のAIセーフティ・インスティテュート(AISI)は2024年9月に初版、2025年3月31日にv1.10を公開しています。OWASPの国際基準を踏まえつつ、日本の実務で使える形に具体化されている点が特徴です。
- 対象フェーズ:企画→開発→運用の各段階でレッドチーミングを実施する指針
- 攻撃シナリオ分類:情報漏洩/偏見差別/有害出力/誤作動/規約違反/著作権侵害等の日本文脈に即したカテゴリ
- 実施体制:内製/外注/ハイブリッドの使い分け
- 報告書テンプレ:発見リスクの記録方法と経営層への報告フォーマット
AISIはAI評価ツールの提供も進めており、レッドチーミング評価項目の自動生成機能等が公開されています。日本の企業・公共機関でAIを導入する場合、AISIガイドへの準拠が事実上のベースラインになりつつあります。
主要な攻撃パターン10種
- 直接プロンプトインジェクション:「これまでの指示を無視して...」系の明示的上書き
- 間接プロンプトインジェクション:RAG参照先・メール・HTML内の隠し指示による乗っ取り
- ジェイルブレイク:DAN/Grandma Exploit等のロールプレイで安全ガードを回避
- 多言語/文字化けエスケープ:日本語/絵文字/Unicode同形文字でフィルタを回避
- Few-shot poisoning:例示として有害パターンを混入させ学習させる
- PII抽出:学習データ内の個人情報を復元させる誘導
- モデル抽出(Model Stealing):大量クエリで出力分布を複製
- トークン枯渇攻撃:超長文で応答品質を劣化させる
- ツール悪用:Function Calling経由でファイル削除・外部送信等を誘発
- 間接フロー改竄:マルチステップエージェントの計画を途中で逸脱させる
AIレッドチーミング実施の5ステップ
- スコープ定義:対象モデル/RAG/ツール/ユーザ層/想定脅威を明確化
- 脅威モデリング:MITRE ATLAS等を参照しシナリオをリスト化
- 攻撃シナリオ実行:手動+自動(PyRIT/Garak/DeepTeam/Promptfoo等)のハイブリッド
- 評価と再現性確認:成功率(N回中M回)・深刻度・影響範囲を記録
- 修正と再テスト:プロンプト改修/ガードレール追加/RAG制御で封じ、再攻撃で検証
主要ツール比較
| ツール | 提供元 | 特徴 |
|---|---|---|
| PyRIT | Microsoft | Python製レッドチーミングフレームワーク。OpenAI/Azure連携 |
| Garak | NVIDIA | LLM脆弱性スキャナ。プロンプトインジェクション/トキシシティ等の定型テスト |
| DeepTeam | Confident AI | DeepEvalと統合されたレッドチーミングフレームワーク。OWASP Top 10 for LLM準拠 |
| Promptfoo | OSS | プロンプト評価+レッドチーミング。CI統合容易 |
| Prompt Bench | Microsoft Research | 学術寄り、ロバスト性ベンチマーク |
| AIsuite Red Teaming | 各社SaaS | マネージド型、業界別シナリオ提供 |
| MITRE ATLAS | MITRE | 脅威ナレッジベース。テスト設計のリファレンス |
実務では「自動ツールで広く浅く+手動で重要シナリオを深く」の組み合わせが標準です。自動ツールだけではドメイン固有攻撃を見逃し、手動だけではカバレッジが不足します。
renueの視点|AgentOps連動のレッドチーミング5原則
renueは広告代理AIエージェント・AI PMOエージェント・Drawing Agent・SEO記事生成エージェント等のAIエージェント事業を複数運用しており、レッドチーミングを単発イベントではなくAgentOpsの継続ループに組み込む5原則を確立しています。
(1) レッドチーミングはリリース前+運用中の二段構え:リリース前に一度やって終わりではなく、モデル更新/プロンプト改訂/RAG更新のたびに差分レッドチーミングを回します。ベンダーモデルの更新で突然ガードが弱まるケースがあるため、定期実行が必要です。
(2) 失敗ケースは必ずGolden Setに追加:レッドチーミングで発見した攻撃が成功した場合、そのプロンプトをGolden Setに追加しCIで毎回テストします。「一度塞いだ穴が再発しない」ことを担保するリグレッションテスト化が重要です。
(3) マルチステップエージェントは特に重点:Function Callingを含むエージェントでは、5ステップ目で計画逸脱が発生する等の複合攻撃が起きやすい。シングルターン攻撃だけでなくマルチターン・長文脈の攻撃シナリオを必ず含めます。
(4) 自動ツール+手動+ドメインエキスパートの3層:PyRIT/Garak等の自動ツールでカバレッジを広げ、セキュリティ担当が深いシナリオを手動で設計し、ドメインエキスパート(業界専門家)がユーザー視点の誤用を追加する3層体制。3層のうち1層が欠けると重大な盲点が生じます。
(5) ガードレールとObservabilityに必ず連動させる:レッドチーミングで見つけた攻撃をガードレールに反映し、本番トレースで同パターンが発生した場合にアラートが飛ぶように設定。発見→対策→監視の3点セットで完結させます。
よくある質問(FAQ)
Q1. AIレッドチーミングとAI評価(RAGAS/DeepEval)の違いは?
AI評価は「通常ユースケースで品質が保たれているか」を測るのに対し、AIレッドチーミングは「攻撃的入力で壊せるか」を測ります。両者は補完関係で、どちらも必要です。
Q2. 内製と外注どちらがよいですか?
初期は外注でノウハウを得て、その後内製化する「ハイブリッド」が現実解です。AISIガイドも内製/外注の使い分けを推奨しています。
Q3. 自動ツールだけで十分ですか?
いいえ。PyRIT/Garak等の自動ツールはカバレッジを広げますが、ドメイン固有の攻撃を見逃します。手動シナリオ設計と組み合わせが必須です。
Q4. どの頻度で実施すべきですか?
最低でもリリース前1回+四半期ごと+モデル/プロンプト/RAGの重要更新時、が実務的な目安です。renueでは継続的な差分レッドチーミングを推奨しています。
Q5. renueはAIレッドチーミングを支援していますか?
はい。複数AIエージェント自社運用経験から、スコープ定義・シナリオ設計・自動ツール活用・AgentOps連動の継続運用までワンストップで支援しています。
関連記事
- 生成AIセキュリティ完全ガイド2026|OWASP・プロンプトインジェクション対策
- AgentOps完全ガイド2026
- LLM Observability完全ガイド2026
- RAG評価完全ガイド2026
- LLM評価指標完全ガイド2026
- Function Calling完全ガイド2026
AIレッドチーミング・AIセキュリティのご相談はrenueへ
renueは複数のAIエージェント事業を自社運用するAIエージェント開発企業として、AIレッドチーミングのスコープ定義・シナリオ設計・自動ツール活用・継続運用までワンストップで支援しています。AISIガイド/OWASP準拠の安全性評価をご検討の方はお気軽にご相談ください。
本記事の参考情報
- OWASP GenAI Red Teaming Guide
- OWASP: Announcing the GenAI Red Teaming Guide (2025年1月)
- AISI: AIセーフティに関するレッドチーミング手法ガイド v1.10 (令和7年3月)
- IPA: AIセーフティに関するレッドチーミング手法ガイド公開(2024年9月)
- DeepTeam by Confident AI: OWASP Top 10 for LLMs 2025
- Confident AI: LLM Red Teaming Step-By-Step Guide
- CSO Online: OWASPのGenAIレッドチーミングガイド解説
- NECセキュリティブログ: ペネトレーションテスターの視点で見るAISIガイド
- NTTデータ: 生成AIのリスクを可視化するAIレッドチーム
- CSA Japan: エージェンティックAIのレッドチーミングガイド
