renue

ARTICLE

高度プロンプトエンジニアリング完全ガイド2026|CoT/Self-Consistency/ToT/ReAct/Skeleton-of-Thought

公開日: 2026/4/6

高度プロンプトエンジニアリングとは|CoT/Self-Consistency/ToT/ReActの体系

2026年のプロンプトエンジニアリングは、単純な「指示の書き方」を超えて、推論プロセスを設計するエンジニアリング規律へと進化しました。Chain-of-Thought(CoT)・Self-Consistency・Tree of Thoughts(ToT)・ReAct・Skeleton-of-Thought等の高度技法を組み合わせることで、数学・論理推論・知識集約タスクで従来の数倍の精度を引き出せます。Google DeepMindの古典研究では、CoTの一文「Let's think step by step」だけでGSM8K数学精度を17.7%→78.7%に引き上げたことが報告されています。

本記事では7つの主要技法、各技法の適用領域、コスト/精度トレードオフ、そしてrenue独自視点として「高度プロンプト実装7原則」を解説します。プロンプト設計の上位概念はコンテキストエンジニアリング、エージェント設計は設計パターン、RAGはプロンプト vs RAG vs FT、評価はLLM評価指標を併読してください。

7つの主要技法

1. Chain-of-Thought (CoT)|「ステップで考えて」の威力

モデルに中間推論ステップを明示させることで、複雑な推論タスクの精度を劇的に改善する手法です。Zero-shot CoTは「Let's think step by step」を加えるだけ、Few-shot CoTは数例の推論プロセス付き例を与えます。

  • 古典実証:GSM8K数学でPaLM 17.7% → 78.7%(Google DeepMind 2022)
  • 適用:数学・論理推論・段階的判断
  • コスト:出力トークンが増えるが精度向上が圧倒的
  • 2026年の現実:推論モデル(推論モデルガイド)はCoTを内蔵しており、「明示的CoT」は非推論モデル+複雑タスクで効く

2. Self-Consistency|複数推論の多数決

同じ質問に対して複数のCoT推論を生成し、最も一貫性のある回答を多数決で選ぶ手法。CoTにさらに+12〜18%の精度向上が報告されています(GSM8K +17.9% / SVAMP +11.0% / AQuA +12.2%)。

  • サンプル数:5サンプルで効果の80%が得られ、10サンプルでほぼ飽和
  • 適用:数値・分類・正解が一意なタスク
  • コスト:サンプル数倍にコスト増
  • 実務原則:本番では5サンプルがコスト/精度のスイートスポット

3. Tree of Thoughts (ToT)|枝分かれ探索と剪定

問題をツリー構造で捉え、各ノードで複数の候補ステップを生成し、有望な枝を選択・剪定しながら探索する手法。1本の線形チェーンではなく探索木として推論を進めます。

  • 適用:24ゲーム/数独/クリエイティブライティング/プランニング
  • コスト:非常に高い(複数枝×評価×剪定で数十〜数百LLM呼び出し)
  • 2026年の位置付け:オフライン研究や高価値タスクで選択的に利用、汎用には過剰

4. Graph-of-Thoughts (GoT)|さらに自由なグラフ探索

ツリーよりさらに柔軟な有向グラフで思考を表現し、思考を統合・分解・再利用する手法。複雑な合成タスク(複数の小タスクから最終解を組み立てる)で効果的。論文「Demystifying Chains, Trees, and Graphs of Thoughts」(arXiv 2401.14295)で体系化。

5. ReAct (Reasoning + Acting)|思考と行動の交互ループ

「考える(Reason)→ ツールを使う(Act)→ 結果を見る → 次の思考」のループを回す手法。Function Callingと組み合わせることで、外部情報を取りに行きながら推論を進められます。

  • 適用:Web検索・DB照会・計算・コード実行が必要なタスク
  • 強み:外部知識を取り込みながら推論
  • 2026年の主流:エージェント実装の事実上のベースライン

6. Skeleton-of-Thought (SoT)|骨子を作って並列展開

まず骨子(Skeleton)を生成し、各セクションを並列で展開する手法。レイテンシ短縮+一貫性向上に効きます。長文生成・レポート作成で有効です。

7. Few-shot + Structured Prompting|エンタープライズ実務の現実解

2026年のエンタープライズ実装では、システムロール+背景+指示+入力データ+Few-shot例+出力フォーマット+制約+エラーハンドリングを構造化した「Mega-prompt」が実務標準です。構造化出力と組み合わせて呼び出し間の一貫性を担保します。

技法の組み合わせ|ハイブリッドが最強

組み合わせ効果適用
CoT + Self-ConsistencyCoT精度に+12-18%数学・分類・正解一意
ReAct + CoT + Self-Consistency知識集約タスクで個別技法を上回る研究・調査・複雑QA
Few-shot + CoTZero-shot CoT を超える専門ドメイン
ToT + 評価LLM枝の品質判定を別LLMに委譲創造性・計画
SoT + Parallelization長文をレイテンシ短縮+一貫性向上で生成レポート/記事/ドキュメント

研究も実務も「単一技法より組み合わせの方が常に優れる」という結論で一致しています。

推論モデル時代の位置付け

2024年9月のOpenAI o1以降、推論モデル(o3/Claude Extended Thinking/Gemini Deep Think/DeepSeek R1等)はCoTをモデル内蔵しています。これにより以下の変化が起きています:

  • 明示的CoTの相対的重要度低下:推論モデルでは「ステップで考えて」が不要
  • Self-Consistencyは引き続き有効:推論モデルでも複数サンプル投票は精度向上
  • ReActの重要度上昇:推論モデル+ツールでエージェントの中核に
  • ToTは推論モデルが代替:多くの探索的推論を内部で行うため外部ToTの必要性が減る

「推論モデルがあれば全ての技法不要」ではなく、用途と予算に応じてモデル選択+技法選択を組み合わせるのが2026年実務です。

renueの視点|高度プロンプト実装7原則

renueは広告代理AIエージェント・AI PMOエージェント・Drawing Agent・SEO記事生成エージェント等を複数自社運用する中で、高度プロンプト技法選定の7原則を確立しています。

(1) ベースラインを必ず先に測る:Zero-shotプロンプトの精度をGolden Setで先に測ります(評価指標)。これがないと「複雑にしたが効果不明」になります。

(2) Few-shot CoTを最初の選択肢に:推論モデル以外なら、まずFew-shot+CoTで大半の改善が得られます。最もコスト効率が良い改善策です。

(3) Self-Consistencyは5サンプルで止める:10サンプルでも効果は飽和します。コスト×効果で5が黄金比。

(4) ToTは費用対効果が見えるときだけ:汎用業務では過剰です。研究・難易度の高い意思決定・正解の品質が最優先な場面に限定。

(5) ReActはツール呼び出しが必要なときの第一選択:エージェント実装は基本ReActパターンから始めます(設計パターン+Function Calling)。

(6) 推論モデルが使える場面では明示CoT不要:Claude Extended Thinking等を使うなら、明示的CoT指示は冗長になります。「考える」は内部に任せます。

(7) 評価CIで技法ごとに効果を計測:技法を追加するたびにGolden Setで前後比較し、効果のないものは捨てます。プロンプトもバージョン管理(Git)します(Observability)。

よくある失敗パターン

  • ベースラインなしで複雑化:効果が分からないまま技法を積む
  • すべての場面でToT:コスト爆発・レイテンシ悪化
  • 推論モデルでも明示CoT:冗長なプロンプトで品質低下
  • Self-Consistency 20サンプル:5サンプルとほぼ同じ精度でコスト4倍
  • プロンプトをDB管理せずGitに入れない:変更履歴・レビュー不能
  • 評価CIなし:技法追加の効果が測れない

よくある質問(FAQ)

Q1. 推論モデルがあればCoTは不要ですか?

明示的なCoT指示は不要ですが、Self-ConsistencyやReActは引き続き有効です。技法ごとに役割が違います。

Q2. ToTを実務で使うべきですか?

多くの場合過剰です。研究・正解の品質が最優先・コストが副次的なタスクに限定するのが現実解です。

Q3. Self-Consistencyのサンプル数は?

5サンプルで効果の80%が得られ、10サンプルでほぼ飽和します。本番では5が標準です。

Q4. プロンプトをコードとして管理する方法は?

テキストファイルとしてGit管理し、PRレビューとCIテスト(Golden Set評価)を通す方法が標準です。LangSmith Prompts等の管理ツールも選択肢ですが、Git+評価CIから始めるのが堅実です。

Q5. renueは高度プロンプト設計を支援していますか?

はい。技法選定・Mega-prompt設計・Golden Set構築・評価CI統合まで一貫して支援しています。

関連記事

高度プロンプト設計・LLMアプリ品質改善のご相談はrenueへ

renueは複数のAIエージェント事業を自社運用するAIエージェント開発企業として、高度プロンプト技法の選定・Mega-prompt設計・Golden Set構築・評価CI統合までワンストップで支援しています。LLMアプリの品質頭打ちでお困りの方はお気軽にご相談ください。

AIエージェント開発の事例を見る

本記事の参考情報