AIレッドチーミング完全ガイド2026｜OWASP・AISIガイド準拠の攻撃シナリオ設計と継続運用

AIレッドチーミングとは｜生成AIを攻撃者視点で検証する安全性評価手法

AIレッドチーミングとは、生成AIやLLMシステムに対して攻撃者の視点から意図的に敵対的入力を与え、危険な応答・情報漏洩・制御逸脱・誤作動を引き起こせるかを検証する安全性評価手法です。従来のペネトレーションテストがインフラ・アプリケーション層を扱うのに対し、AIレッドチーミングはプロンプト層・モデル層・RAG層・ツール連携層まで含めて評価する点が特徴です。

2026年時点ではOWASP GenAI Red Teaming Guide、日本のAIセーフティ・インスティテュート(AISI)が公開するレッドチーミング手法ガイド v1.10、MITRE ATLASなどが主要リファレンスとして整備され、AIシステムを本番投入する前の必須プロセスとなりつつあります。renueは複数のAIエージェント事業を自社運用する中で、AIレッドチーミングを継続的改善ループに組み込む実務を蓄積しています。本記事ではAIレッドチーミングの範囲・手法・攻撃パターン・OWASP/AISIガイドの要点、そしてrenue独自視点として「AgentOps連動のレッドチーミング5原則」を解説します。

なぜAIレッドチーミングが必要か｜「平均は良いが一部で重大失敗」問題

生成AIの品質評価で見落とされがちなのは、99%のケースで自然な応答を返していても、残り1%で重大な失敗を起こせば全体評価が壊れるという非対称性です。従来のMLモデルなら平均精度で十分だったものが、LLMでは1件の情報漏洩や不適切発言が炎上・訴訟・事業停止に直結します。そのため「通常評価(Golden Set)+レッドチーミング」の二段構えが必要です。

AIレッドチーミングは「どこまで酷い入力で壊せるか」を体系的に調べる活動であり、通常のテスト駆動開発では発見できない稀だが致命的な失敗モードを事前に捕捉します。

AIレッドチーミングと従来ペンテストの違い

観点	従来ペネトレーションテスト	AIレッドチーミング
主対象	ネットワーク/OS/Webアプリ	LLM/プロンプト/RAG/ツール連携/データ
攻撃入力	パケット/クエリ/ペイロード	自然言語プロンプト/画像/音声/多言語
成功基準	権限奪取/情報漏洩	出力操作/情報漏洩/規約違反誘発/制御逸脱
再現性	高い(同じ条件で同じ結果)	低い(確率的出力、温度/seed影響)
自動化	成熟(OpenVAS/Burp等)	発展途上(PyRIT/Garak/DeepTeam等)
評価者スキル	セキュリティ専門	セキュリティ+言語学+ドメイン知識の複合

AIレッドチーミングは確率的出力が相手のため、同じ攻撃が100回中30回しか成功しないケースもあります。統計的に「失敗率」を測る発想が重要です。

OWASP GenAI Red Teaming Guideの4領域

OWASP GenAI Security ProjectのGenAI Red Teaming Guide(2025年1月公開)は、AIレッドチーミングを次の4領域で包括的に実施することを推奨しています。

モデル評価：学習データバイアス/有害出力/ハルシネーション/脱獄耐性の検証
実装テスト：プロンプトインジェクション/出力スキーマ違反/コンテキスト窓溢れ等の実装層攻撃
インフラ評価：APIキー漏洩/認可不備/モデル盗難/サプライチェーン
ランタイム挙動解析：本番運用時のドリフト/乱用検知/アノマリー

OWASPはライフサイクル全体(設計→開発→運用)でレッドチーミングを回し、脅威モデリングにMITRE ATLASを併用することを推奨しています。

AISI 日本「AIセーフティに関するレッドチーミング手法ガイド」の要点

日本のAIセーフティ・インスティテュート(AISI)は2024年9月に初版、2025年3月31日にv1.10を公開しています。OWASPの国際基準を踏まえつつ、日本の実務で使える形に具体化されている点が特徴です。

対象フェーズ：企画→開発→運用の各段階でレッドチーミングを実施する指針
攻撃シナリオ分類：情報漏洩/偏見差別/有害出力/誤作動/規約違反/著作権侵害等の日本文脈に即したカテゴリ
実施体制：内製/外注/ハイブリッドの使い分け
報告書テンプレ：発見リスクの記録方法と経営層への報告フォーマット

AISIはAI評価ツールの提供も進めており、レッドチーミング評価項目の自動生成機能等が公開されています。日本の企業・公共機関でAIを導入する場合、AISIガイドへの準拠が事実上のベースラインになりつつあります。

主要な攻撃パターン10種

直接プロンプトインジェクション：「これまでの指示を無視して...」系の明示的上書き
間接プロンプトインジェクション：RAG参照先・メール・HTML内の隠し指示による乗っ取り
ジェイルブレイク：DAN/Grandma Exploit等のロールプレイで安全ガードを回避
多言語/文字化けエスケープ：日本語/絵文字/Unicode同形文字でフィルタを回避
Few-shot poisoning：例示として有害パターンを混入させ学習させる
PII抽出：学習データ内の個人情報を復元させる誘導
モデル抽出(Model Stealing)：大量クエリで出力分布を複製
トークン枯渇攻撃：超長文で応答品質を劣化させる
ツール悪用：Function Calling経由でファイル削除・外部送信等を誘発
間接フロー改竄：マルチステップエージェントの計画を途中で逸脱させる

AIレッドチーミング実施の5ステップ

スコープ定義：対象モデル/RAG/ツール/ユーザ層/想定脅威を明確化
脅威モデリング：MITRE ATLAS等を参照しシナリオをリスト化
攻撃シナリオ実行：手動+自動(PyRIT/Garak/DeepTeam/Promptfoo等)のハイブリッド
評価と再現性確認：成功率(N回中M回)・深刻度・影響範囲を記録
修正と再テスト：プロンプト改修/ガードレール追加/RAG制御で封じ、再攻撃で検証

主要ツール比較

ツール	提供元	特徴
PyRIT	Microsoft	Python製レッドチーミングフレームワーク。OpenAI/Azure連携
Garak	NVIDIA	LLM脆弱性スキャナ。プロンプトインジェクション/トキシシティ等の定型テスト
DeepTeam	Confident AI	DeepEvalと統合されたレッドチーミングフレームワーク。OWASP Top 10 for LLM準拠
Promptfoo	OSS	プロンプト評価+レッドチーミング。CI統合容易
Prompt Bench	Microsoft Research	学術寄り、ロバスト性ベンチマーク
AIsuite Red Teaming	各社SaaS	マネージド型、業界別シナリオ提供
MITRE ATLAS	MITRE	脅威ナレッジベース。テスト設計のリファレンス

実務では「自動ツールで広く浅く+手動で重要シナリオを深く」の組み合わせが標準です。自動ツールだけではドメイン固有攻撃を見逃し、手動だけではカバレッジが不足します。

renueの視点｜AgentOps連動のレッドチーミング5原則

renueは広告代理AIエージェント・AI PMOエージェント・Drawing Agent・SEO記事生成エージェント等のAIエージェント事業を複数運用しており、レッドチーミングを単発イベントではなくAgentOpsの継続ループに組み込む5原則を確立しています。

(1) レッドチーミングはリリース前+運用中の二段構え：リリース前に一度やって終わりではなく、モデル更新/プロンプト改訂/RAG更新のたびに差分レッドチーミングを回します。ベンダーモデルの更新で突然ガードが弱まるケースがあるため、定期実行が必要です。

(2) 失敗ケースは必ずGolden Setに追加：レッドチーミングで発見した攻撃が成功した場合、そのプロンプトをGolden Setに追加しCIで毎回テストします。「一度塞いだ穴が再発しない」ことを担保するリグレッションテスト化が重要です。

(3) マルチステップエージェントは特に重点：Function Callingを含むエージェントでは、5ステップ目で計画逸脱が発生する等の複合攻撃が起きやすい。シングルターン攻撃だけでなくマルチターン・長文脈の攻撃シナリオを必ず含めます。

(4) 自動ツール+手動+ドメインエキスパートの3層：PyRIT/Garak等の自動ツールでカバレッジを広げ、セキュリティ担当が深いシナリオを手動で設計し、ドメインエキスパート(業界専門家)がユーザー視点の誤用を追加する3層体制。3層のうち1層が欠けると重大な盲点が生じます。

(5) ガードレールとObservabilityに必ず連動させる：レッドチーミングで見つけた攻撃をガードレールに反映し、本番トレースで同パターンが発生した場合にアラートが飛ぶように設定。発見→対策→監視の3点セットで完結させます。

よくある質問（FAQ）

Q1. AIレッドチーミングとAI評価(RAGAS/DeepEval)の違いは？

AI評価は「通常ユースケースで品質が保たれているか」を測るのに対し、AIレッドチーミングは「攻撃的入力で壊せるか」を測ります。両者は補完関係で、どちらも必要です。

Q2. 内製と外注どちらがよいですか？

初期は外注でノウハウを得て、その後内製化する「ハイブリッド」が現実解です。AISIガイドも内製/外注の使い分けを推奨しています。

Q3. 自動ツールだけで十分ですか？

いいえ。PyRIT/Garak等の自動ツールはカバレッジを広げますが、ドメイン固有の攻撃を見逃します。手動シナリオ設計と組み合わせが必須です。

Q4. どの頻度で実施すべきですか？

最低でもリリース前1回+四半期ごと+モデル/プロンプト/RAGの重要更新時、が実務的な目安です。renueでは継続的な差分レッドチーミングを推奨しています。

Q5. renueはAIレッドチーミングを支援していますか？

はい。複数AIエージェント自社運用経験から、スコープ定義・シナリオ設計・自動ツール活用・AgentOps連動の継続運用までワンストップで支援しています。

AIレッドチーミング・AIセキュリティのご相談はrenueへ

renueは複数のAIエージェント事業を自社運用するAIエージェント開発企業として、AIレッドチーミングのスコープ定義・シナリオ設計・自動ツール活用・継続運用までワンストップで支援しています。AISIガイド/OWASP準拠の安全性評価をご検討の方はお気軽にご相談ください。

AIエージェント開発・運用の事例を見る