1. これは何の話?
RAGシステムを構築する開発者向けに、回答精度を73.3%から100%に改善した検証結果を紹介します。社内規程文書を対象に5つのチャンキング戦略を比較した結果、意外にも最もシンプルな「Large Chunk」戦略が最高精度を達成しました。
検証結果サマリー:
Standard (1000文字) → 73.3% (11/15問)
Large (2000文字) → 100% (15/15問) ★最強
Parent-Child → 93.3% (14/15問)
Hypothetical Questions → 93.3% (14/15問)
Re-ranking → 60.0% (9/15問) ★悪化
さらに「Re-rankingを導入すれば精度が上がる」という通説に反し、逆に精度が下がるという予想外の結果も報告されています。

2. 何がわかったか
Large Chunk戦略(2000文字/オーバーラップ500文字)が全15問中15問正解を達成しました。この検証では社内規程文書を対象とし、一般規則と例外規定の関係性を問う15種類のクエリでテストしています。
Standard Chunking(1000文字)では、一般規則と例外規定が別々のチャンクに分離されてしまい、例外規定に関する質問で失敗が発生しました。Large Chunkでは2000文字の単位であれば両方を含むケースが増え、情報の完全性が保たれた結果です。
Parent-Child方式(子400文字・親2000文字)は93.3%でしたが、比較クエリ(例:正社員とアルバイトの差額)で2つの金額が異なる親チャンクに分かれるケースで失敗しました。

3. 他とどう違うのか
従来のRAG精度改善手法では、Parent-Child ChunkingやHypothetical Questions、Re-rankingなどの複雑な手法が推奨されてきました。しかし本検証では、単純なチャンクサイズ拡大が最も効果的だったという逆説的な結果が得られています。
特にRe-rankingについては、Precision(精度)向上ツールとして知られていますが、今回の問題はRecall(再現率)不足が本質だったため効果がありませんでした。初回検索で取得できなかった情報は、Re-rankingでも救えないという構造的限界が明らかになっています。

4. なぜこれが重要か
この検証結果は、RAG精度改善において「データ構造に合わせた手法選択」が不可欠だと示しています。複雑な手法を盲目的に導入するのではなく、まず「どのような検索失敗が起きているか」を分析することの重要性を具体的に実証しました。
Re-rankingが精度を悪化させた事例は、ツールの誤用リスクを警告するものです。Precision向上ツールをRecall問題に適用しても解決しないどころか、辛うじて下位に入っていた関連チャンクが除外されて悪影響を与えることがあります。
5. 未来の展開・戦略性
本検証の知見は、社内文書以外のRAGシステムにも応用可能です。ただし「Large Chunkが常に最強」ではなく、データセットごとに最適なチャンクサイズは異なります。例外規定が1000文字以上離れている文書では、Large Chunkでも失敗する可能性があります。
今後の改善案として、著者はGraphRAGなどの関係性を明示的に扱う手法や、クエリ単位で判定を行うDynamic Chunkingの検討を挙げています。チャンキング戦略だけでなく、文書の前処理やメタデータ付与といったデータ品質改善が根本的な解決策になりうるとも述べています。
6. どう考え、どう動くか
あるエンジニアが社内FAQシステムのRAG精度に悩んでいたとします。まずは現在の検索失敗パターンを分析し、「Recall不足」なのか「Precision不足」なのかを切り分けることが第一歩です。
指針(3項):
- まずは自分のデータセットで検索失敗パターンを分類し、Recall問題かPrecision問題かを特定する。
- 初手としてチャンクサイズ拡大(1000→2000文字)を試し、複雑な手法は効果測定後に導入する。
- Re-rankingは「ノイズ除去」ツールであり、検索漏れ対策には使わない。
次の一歩:
- 今日やること:現在のRAGシステムで失敗しているクエリを5件抽出し、取得チャンクを確認する。
- 今週やること:チャンクサイズを変えた3パターンで精度を比較検証し、結果を記録する。

7. 限界と未確定
- 今回の検証は社内規程文書(相対的に短い文書)に限定されており、長文技術文書やFAQでの再現性は未確認です。
- GPT-4を使用した検証であり、他のLLMやEmbeddingモデルでの結果は不明です。
- チャンクサイズ拡大はコスト増(トークン消費増)につながるため、大規模運用時の費用対効果は別途検討が必要です。
8. 用語ミニ解説
「情報の取りこぼし率」を測る指標です(Recall / 再現率)。検索結果に正解が含まれているかどうかを評価します。
9. 出典と日付
Zenn oharu121(公開日:2026-01-03 / 最終確認日:2026-01-03):https://zenn.dev/oharu121/articles/efd3d038afc6da








