renue

ARTICLE

RAGチャンク戦略完全ガイド2026|Recursive/Semantic/Late Chunkingの使い分けと日本語特有の注意点

公開日: 2026/4/7

RAGチャンク戦略とは|検索精度の8割はチャンク設計で決まる

RAG(Retrieval-Augmented Generation)の精度改善で、多くのチームが見落とすのがチャンク戦略です。2026年時点の業界合意は「検索精度の7〜8割はチャンク設計とEmbedding選定で決まる」で、Reranker やプロンプト工夫より前段のチャンキングが最大のテコです。

本記事では7つの主要チャンキング戦略(Recursive Character/Semantic/Page-level/LLM-based/Size-based/Sentence-based/Late Chunking)の詳細比較、2026年のベストプラクティス(Recursive 400-512 tokens + 10-20% overlap がデフォルト)、文書タイプ別の選定マトリクス、そしてrenue独自視点として「RAG運用者視点のチャンク戦略7原則」を解説します。

関連: ハイブリッド検索完全ガイドEmbeddingモデル徹底比較Reranker完全ガイドマルチモーダルRAGGraphRAGRAG評価

なぜチャンキングが重要か|Embedding は「塊単位」でしか理解しない

ベクトル検索は文書を「チャンク」という単位に分割してEmbeddingを計算し、クエリベクトルとの類似度で検索します。このため:

  • チャンクが大きすぎる → 1つのベクトルに複数トピックが混在し、類似度が希釈される
  • チャンクが小さすぎる → 文脈が切れて意味不明、関連する情報が分断される
  • 境界が不自然 → 文の途中で切れてEmbeddingが崩れる

Embeddingモデルを最高級のものに替えても、入力となるチャンクの質が悪ければ検索精度の上限が決まるのです。

7つの主要チャンキング戦略

1. Recursive Character Chunking(再帰的文字分割)|2026年のデフォルト

指定したトークン上限とオーバーラップに従い、階層的な区切り文字(`\n\nclass`, `\n\ndef`, 段落, 行, 文, 単語)を上から順に試して分割する手法。LangChain の RecursiveCharacterTextSplitter が代表実装です。

  • 推奨パラメータ: 400〜512 tokens + 10〜20% overlap
  • 実測 Recall: 85〜90%(業界ベンチマーク値)
  • コスト: 極めて安い(文字列操作のみ)
  • 向く: ほぼ全ての汎用文書、コード、Markdown
  • 2026年の立ち位置: 何を選ぶか迷ったらこれ。デフォルト選択

2. Semantic Chunking(セマンティック分割)

Embedding 類似度に基づき「意味的な境界」で分割する手法。各文の Embedding を計算し、隣接文との類似度が急落する箇所で分割します。

  • 実測 Recall: 91〜92%(Recursive比 +2〜3 ポイント)
  • コスト: 高い(すべての文を Embedding する必要あり)
  • 向く: トピックが多岐にわたる長文、論文、研究レポート
  • トレードオフ: 2〜3%の精度向上にコストを何倍も払う価値があるか要検証

3. Late Chunking(レイトチャンキング)

文書全体を先にトークンレベル Embedding してから、あとでチャンク境界を適用して mean-pool する手法。全文双方向 Attention を経た Embedding なので、代名詞解決や前後参照が効いた文脈付きベクトルになります。

  • 特に有効な文書: 技術マニュアル、法的契約、研究論文、「それ」「前述の通り」等の代名詞が多い文書
  • コスト: Embedding 計算は全文1回だけで済む(Semanticより安い場合も)
  • 2026年の注目度: Jina AI 等が実装を進めており、長文narrative向けに急速に普及中

4. Page-level Chunking(ページ単位)

PDF等のページ区切りをそのままチャンク境界にする手法。シンプルだが、ページ跨ぎの情報は失われがち。

5. LLM-based Chunking(LLM生成チャンク)

LLM に「この文書を意味単位で分割せよ」と指示して分割させる手法。最も柔軟だがコストとレイテンシが重い。

  • 向く: 小規模だが構造複雑な文書、少量文書の高精度インデックス
  • コスト: 文書量に比例して高騰、大量文書には不向き

6. Size-based / Fixed-size Chunking(固定サイズ)

単純に N トークン毎に切る原始的手法。境界を考慮しないため品質は低い。

  • 向く: 実装の最初の1日、素早く動かすテスト用
  • 本番では推奨されない: Recursive Character が同じコストで上位互換

7. Sentence-based Chunking(文単位)

文境界で分割。日本語の場合は句読点認識が英語より難しく、専用ライブラリ(GiNZA/spaCy等)が必要。

  • 向く: FAQ、Q&A ペア、短文が多いデータセット
  • 日本語の注意点: 英語の nltk.sent_tokenize は日本語に使えない

2026年ベストプラクティスまとめ

選択推奨
デフォルト(まず試す)Recursive Character 400-512 tokens + 10-20% overlap
長文narrative(論文/契約/マニュアル)Late Chunking
トピック多岐の長文Semantic Chunking (コスト許容時)
PDF主体・図表ありPage-level + マルチモーダルRAG
FAQ/Q&ASentence/Pair-based
プロダクションで最高精度Recursive + Semantic + Late のハイブリッド

業界のコンセンサスは「複数手法の組み合わせは単独より常に優れる」です。まずRecursive Character を堅実に動かし、評価で頭打ちになったら Semantic/Late を加えるのが王道です。

チャンクサイズとオーバーラップの調整軸

  • 小さいチャンク(100-300 tokens): 精密な検索、FAQ、短い事実、Recall 重視
  • 中サイズ(400-600 tokens): 汎用デフォルト、バランス最良
  • 大サイズ(800-1500 tokens): 文脈保持、narrative 文書、複雑な推論タスク

オーバーラップ(隣接チャンク間の重複部分)は10〜20%が標準。0%は境界情報が失われ、30%超はストレージとコストが急増します。

評価すべき3指標

  • Recall@K: 上位K件に正解チャンクが含まれる率 → チャンキング品質の主指標
  • Precision@K: 上位K件のうち実際に有用なチャンクの率
  • MRR(Mean Reciprocal Rank) / NDCG: 正解の順位品質

これらをRAG評価で継続計測し、チャンク戦略を変えたときの前後比較をします。

日本語特有の注意点

  • トークナイザーの問題: OpenAI tiktoken は日本語で1文字=1〜2トークンでカウントが不安定。character ベースで切る方が安定することも
  • 句読点認識: 英語の nltk.sent_tokenize は使えない。GiNZA / spaCy-ja 等の日本語NLPライブラリ推奨
  • 漢字とかなの混在: Embeddingモデルの選定が特に重要(ruri-v3 等の日本語特化モデルと相性確認)
  • 縦書き・表・図注: 多くのPDF抽出ツールが日本語縦書きを壊す。マルチモーダルRAG(ColQwen)で画像ベース処理の方が有利な場合あり

renueの視点|RAG運用者視点のチャンク戦略7原則

renueは広告代理AIエージェント・AI PMOエージェント・Drawing Agent・SEO記事生成エージェント等の複数AIエージェント事業を自社運用しており、各事業で異なる文書特性のRAGを運用する中で、チャンク戦略の7原則を確立しています。

(1) Recursive Character 400-512+10-20%オーバーラップから始める: 何を選ぶか迷ったら、まずこれ。85-90% recall が出ればそれ以上を求める必要がないケースは多く、コストも極めて安いです。複雑な戦略から始めると「動く前に止まる」罠に陥ります。

(2) 評価セットを先に作ってから戦略を変える: Golden Set + Recall@K の計測がないまま Semantic/Late に切り替えても効果は見えません。20〜100件の代表クエリ+期待チャンクの対応表を先に作ります。

(3) Late Chunking は長文narrative(論文/契約/マニュアル)でのみ試す: 向かない文書タイプに適用しても計算コストだけ増えて恩恵が薄いです。代名詞・前後参照が多い文書でこそ真価を発揮します。

(4) ハイブリッドは評価後に追加する: 最初から「Recursive + Semantic + Late」の三段階を組んでも、どれが効いているか分かりません。Recursive → 評価 → Semantic 追加 → 評価 → Late 追加 → 評価、の順で段階的に組み立てます。

(5) 日本語は日本語専用ライブラリとEmbeddingで: tiktoken + OpenAI Embedding 英語デフォルト設定のまま運用すると日本語品質が頭打ちします。ruri-v3等の日本語特化モデル+ GiNZA/spaCy-jaの組み合わせが実務標準。

(6) PDF・図表が中心の文書はマルチモーダルRAGも検討: テキスト抽出→チャンク の古典フローで苦戦するなら、ColPali/ColQwen 系の「画像のままベクトル化」方式を並行検討します。チャンク戦略の土俵を変える選択肢です。

(7) チャンク戦略もコスト SLO に組み込む: Semantic/Late chunking は文書数に応じて Embedding 計算コストが線形〜二次で増えます。FinOps for AIのコスト上限を意識しないと、本番投入後に請求書ショックが発生します。

よくある失敗パターン

  • いきなり Semantic Chunking:Recursive で足りるかを試さず高コスト戦略から始める
  • オーバーラップ 0% or 50%:境界情報喪失 or ストレージ爆発
  • 日本語で英語用ツール:nltk/tiktoken デフォルトで日本語品質頭打ち
  • 評価セットなしで戦略変更:どれが効いているか不明
  • 単一戦略に固執:文書タイプが混在しているのに同じ戦略を適用
  • PDF の図表無視:テキスト抽出段階で情報が失われている
  • チャンクサイズを固定で決める:文書ごとに最適サイズは違う、実験で見つける

よくある質問(FAQ)

Q1. 最初に選ぶべき戦略は何ですか?

Recursive Character Chunking、400-512 tokens、10-20% overlap が2026年のデフォルトです。これで85-90%のRecallが出る想定で、まず評価してから次の戦略を検討します。

Q2. チャンクサイズは大きい方が良いですか?

いいえ、トレードオフです。大きいと文脈保持に有利ですが、複数トピック混在で類似度が希釈されます。400-600 tokens がバランスの良い中庸です。

Q3. 日本語と英語で戦略を変えるべきですか?

戦略自体は同じですが、トークナイザー・Embedding・文分割ライブラリを日本語対応のものに変えます。英語用ツールを日本語に流用するのは品質が頭打ちする主原因の1つです。

Q4. 精度の頭打ちを突破するには?

Recursiveで頭打ちしたら順に: (1)ハイブリッド検索(BM25+ベクトル)、(2)Reranker追加、(3)Semantic/Late Chunking、(4)マルチモーダルRAG、(5)GraphRAGを段階評価します。

Q5. renue はチャンク戦略の設計を支援していますか?

はい。文書特性分析・戦略選定・評価セット設計・段階評価・本番運用までワンストップで支援しています。特に日本語の長文narrative/PDF/図表混在文書での実績があります。

関連記事

RAGチャンク戦略の設計相談はrenueへ

renueは複数のAIエージェント事業を自社運用するAIエージェント開発企業として、文書特性に応じたチャンク戦略選定・評価セット設計・段階評価・日本語特化対応まで一貫して支援しています。「Recursiveで頭打ち」「日本語PDFで精度が出ない」等でお困りの方はお気軽にご相談ください。

AIエージェント開発の事例を見る

本記事の参考情報