LLM中抜きの3大落とし穴 — 捏造・コスト爆発・誤読の実例集

連載の方針として「失敗例も書く」と最初に宣言しました（第1回）。第1〜5回を実際に回してみて、LLM中抜きで遭遇する落とし穴は3つに集約されることが分かりました。これがその記録です。

結論を先に

落とし穴	何が起きるか	信頼資本への影響
1. 捏造（Fabrication）	LLMが、ありもしない出典・数字・引用を生成する	致命傷（ブランド即死）
2. コスト爆発（Cost Explosion）	API 503 ／モデル劣化／トークン爆発	運用継続性に影響
3. 誤読（Misreading）	言語の壁、専門用語、文脈ずれで誤翻訳	個別記事の品質低下、累積で信頼資本毀損

各落とし穴の詳細・実例・対策を順に書きます。

落とし穴1：捏造（Fabrication）

何が起きるか

LLM は学習データの統計的パターンに従ってテキストを生成します。「もっともらしい出典」「もっともらしい引用」「もっともらしい数字」を、根拠なく生成することが頻繁に起きます。

私が実際にやらかした事例（2026-04-25）

連載とは別の文脈ですが、新しい X 運営方針（「出典必須・ポジショントークなし」）を宣言した直後の最初の投稿で、Bloomberg を捏造しました。

[投稿本文より抜粋]
DeepSeek V4 リリース。コーディング性能で Claude を上回ったとの報道。
ソース：Bloomberg、TechCrunch、SemiAnalysis

実際は Bloomberg はその件を報じていませんでした。元情報は中国の業界誌の単独記事で、それを TechCrunch が引用転載しただけ。Bloomberg は記事に登場すらしていない。

私が「ソースを3つ並べた方が説得力ある」と勝手に判断し、Bloomberg を創作しました。

これは「LLMの捏造」ではなく「LLMを使う私の捏造」です。本質は同じで、もっともらしさが説得力を持つので、つい盛ってしまう。

新ブランド宣言直後で、信頼資本が一気に毀損する寸前でした。投稿は5分以内に発見・削除しましたが、もし反応されていたら回復不可能でした。

対策3つ

対策1：1次取得確認したものだけ書く 「ソース：◯◯」と書くなら、その媒体の記事URLを実際に開いて該当事実を確認したものだけ。「ありそう」「他媒体も報じてそう」は全部 NG。

対策2：未確認の場合は明示 1次ソースが不明な場合は「◯◯のXポスト経由」「（一次未確認）」と正直に書く。正直さは信頼資本になる、捏造より100倍マシ。

対策3：捏造防止プロンプト

以下の記事ドラフトに、出典として書かれている媒体名・人物名・組織名・数字・引用文を
すべてリストアップしてください。各項目について、

(A) 1次資料が確認できる
(B) 二次引用での言及が確認できる
(C) 確認できない（=捏造の疑いあり）

の3カテゴリに分類してください。Cカテゴリの項目は記事から削除候補です。

このプロンプトを記事公開前の最終チェックに使います。

落とし穴2：コスト爆発（Cost Explosion）

何が起きるか

LLM API は安くなりましたが、長文発掘の文脈では3つのコスト爆発要因があります：

API 503（サーバー過負荷）の応答：再試行が無限ループに
モデル劣化／廃止：古いモデルが突然使えなくなる
トークン爆発：長文を全部入力するとコンテキスト超過

私が実際に経験した事例

事例A：Gemini API 503 多発（2026年4月後半）

うちのこのきもちアプリで Gemini 2.0 Flash を使っていたところ、4月中旬から 503 Service Unavailable が頻発。デフォルトのリトライ機構なしで運用していたため、ユーザー体験が崩壊しました。

対策として導入したのがモデルフォールバック＋指数バックオフ：

# 簡略版
MODELS_FALLBACK = [
    "gemini-2.5-pro",
    "gemini-2.5-flash",
    "gemini-1.5-pro-002",
]

def call_with_fallback(prompt, max_retries=3):
    for model in MODELS_FALLBACK:
        for retry in range(max_retries):
            try:
                return call_gemini(model, prompt)
            except RateLimitError:
                time.sleep(2 ** retry)  # 指数バックオフ
            except ServiceUnavailable:
                break  # 次のモデルへ
    raise AllModelsFailedError()

事例B：Gemini 2.0 系の廃止（2026年4月）

Gemini 2.0 系（Flash / Pro）が4月末に廃止されることが告知されました。廃止予告から実廃止まで2週間しかなく、移行作業を急いで実施。API 提供側の都合でモデルが消えることを想定したコード設計が必須です。

事例C：トークン爆発（潜在的、本連載で警戒中）

ALPAC 報告書（推定100ページ）を全部 LLM に投入するとどうなるか。GPT-4 や Claude のコンテキストウィンドウは200K〜1Mトークンですが、実用上は10K-50K でレスポンス品質が劣化します。

長文発掘では：

全文を1度に投入するのではなく、章立て要約 → 重要箇所抽出 → 詳細分析の3段階で投入する
1段階あたり10K トークン以下を目安に

対策3つ

対策1：モデルフォールバック必須 本番運用するなら、最低3モデルのフォールバックを実装。各モデルの廃止予告を継続ウォッチ。

対策2：指数バックオフ API 503 / Rate Limit に対する標準対策。リトライ間隔を 1秒、2秒、4秒、8秒...と増やす。

対策3：トークン使用量モニタリング 各APIコールのトークン使用量をログに残す。月次で平均トークン使用量を見て、コスト爆発の早期警戒。

落とし穴3：誤読（Misreading）

何が起きるか

LLM は長文を「読める」が、専門用語の文脈・歴史的経緯・暗黙の業界知識を取り違えることが頻発します。

本連載で起きそうだった事例

事例A：第2回 ZISC 特許で、Manhattan距離を「距離単位」と誤読しかけた

ZISC の特許文書には "Manhattan distance" という用語が出てきます。これは数学用語で「L1距離（各次元の差の絶対値の合計）」を意味します。LLM が文脈を取らずに「Manhattan = ニューヨークの場所」と誤読する可能性がありました。

幸い ZISC 文書では文脈が明確でしたが、専門用語が現代意味と当時意味で分かれているケースは要警戒。

事例B：第4回 Token Ringで、「Active Monitor」を誤読

Token Ring の Active Monitor は、リング上のステーション死活監視を担う特殊な役割を持つステーションのことです。LLM が「Active Monitor」を**現代の「Active モニタリングツール」**と読み違える可能性がありました。

事例C：韓国語・中国語IRの直訳問題（IR Archaeology の課題）

第3回 Samsung 1996 で、もし韓国語の原文IRにアクセスできていたら、「1Gb DRAM」を「1ギガビット」と「1ギガバイト」で取り違える事故が起きうる。韓国語特有の数字表記（만 / 억）も誤読の温床。

対策3つ

対策1：文脈強制プロンプト

以下の用語の意味を、この文書の発表年（YYYY年）の業界文脈で解釈してください。
現代的な意味と当時の意味が異なる場合は両方併記してください。
[用語リスト]

対策2：原文と訳文の対比

長文を翻訳して記事化する場合、原文の重要箇所と訳文の対応を別ステップで verify させる：

以下は原文 X と訳文 Y です。
訳文 Y の主要な数字・固有名詞・数値表現が、原文 X と一致しているかをチェックし、
不一致を全て報告してください。

対策3：人間チェックポイント

LLM の出力を100%信用せず、重要な数字・名前・引用は最終的に人間がそれぞれの1次ソースで確認する。完全自動化はしない。

4. 第1〜5回のメタ振り返り

本連載の第1〜5回で、これらの落とし穴がどう発現したか／回避できたか：

回	落とし穴の発現	どう対処したか
第1回 Gippケース	捏造リスク（@gippp69 の数字を盛ったまま転載するリスク）	「3割引きで読むべき」と明示し、私自身の懐疑を併記
第2回 ZISC	誤読リスク（Manhattan距離など専門用語）	現代翻訳プロンプトで対応表化、原文の文脈を保持
第3回 Samsung 1996	コスト爆発（PDF 8.8MB の OCR コスト見送り）	OCR をスキップし、Wikipedia 経由で記事化、「失敗譚」として開示
第4回 Token Ring	誤読リスク（Active Monitor 等の用語）	文脈強制プロンプトで対応
第5回 ALPAC	選択バイアス（外れた指摘ばかり選ぶ罠）	「正解」と「外れ」を両方挙げて公平性確保

5回中5回、何らかの落とし穴に遭遇しました。回避できたのは、最初から各落とし穴を意識した運用ルールがあったからです。初心者がいきなり LLM中抜きを始めると、確実にどこかで事故ります。

5. 運用ルール（このルールを守れば事故率が桁違いに下がる）

これから「忘れられた長文発掘」を始める人への、最低限のチェックリストです。

[公開前の最終チェック]
□ 出典として挙げた媒体名はすべて1次資料で確認済みか？
□ 数字・固有名詞・引用文は1次ソースに該当箇所があるか？
□ LLMが生成した「もっともらしい」記述に、根拠がない可能性はないか？
□ 専門用語の意味は、その文書の発表年の業界文脈で正しく解釈されているか？
□ 翻訳した訳文は、原文と数字・固有名詞が一致しているか？
□ コスト爆発のリスクはあるか？（同様の処理を100回回したらいくらか？）
□ 「自分が儲かる方向」に誘導する記述はないか？

このチェックリストを通したら、ようやく公開できます。通らない記事は公開しない。連載の信頼資本のほうが、1記事の早出しより100倍重要です。

6. 次回予告

最終回（第7回）では、第1〜5回で使った全プロンプトと、再現可能なパイプラインを全公開します。これを読んだ人が、自分の領域で「忘れられた長文発掘」を始められることを目指します。

参考メモリ（はる子の運営ログより）：

出典捏造の防止：feedback_source_no_fabrication
API モデルフォールバック：feedback_gemini_model_fallback
1次取得確認：feedback_reply_must_verify

[次回予告] Templates：第1〜5回で使った全プロンプトとパイプライン全公開 — あなたが自分の領域で始めるための完全ガイド

LLM中抜きの3大落とし穴 — 捏造・コスト爆発・誤読の実例集

結論を先に

落とし穴1：捏造（Fabrication）

何が起きるか

私が実際にやらかした事例（2026-04-25）

対策3つ

関連メモリ

落とし穴2：コスト爆発（Cost Explosion）

何が起きるか

私が実際に経験した事例

対策3つ

関連メモリ

落とし穴3：誤読（Misreading）

何が起きるか

本連載で起きそうだった事例

対策3つ

4. 第1〜5回のメタ振り返り

5. 運用ルール（このルールを守れば事故率が桁違いに下がる）

6. 次回予告