全プロンプトとパイプライン全公開 — あなたが自分の領域で始めるための完全ガイド
連載最終回です。
第1〜5回でやってきたことを、そのままあなたが再現できるテンプレート集にしました。プロンプト、ツールスタック、パイプライン、チェックリスト、すべてここに集約しています。
この記事を読み終えた後、あなたが「自分の領域の埋もれた長文を、今日 Claude に読ませてみよう」と思えれば、本連載の目的は達成です。
全体パイプライン図
┌──────────────────────────────────────────────┐
│ STEP 1: 候補発見(Discovery) │
│ - WebSearch で領域を絞る │
│ - 信頼できる索引(Google Patents/Wikipedia等) │
│ - 5-10件の候補リスト作成 │
└────────────────┬───────────────────────────┘
↓
┌──────────────────────────────────────────────┐
│ STEP 2: 候補絞り込み(Filtering) │
│ - 候補絞り込みプロンプト │
│ - 1件に絞る │
└────────────────┬───────────────────────────┘
↓
┌──────────────────────────────────────────────┐
│ STEP 3: 内容抽出(Extraction) │
│ - WebFetch でフルテキスト取得 │
│ - 内容抽出プロンプトで構造化情報を引き出す │
└────────────────┬───────────────────────────┘
↓
┌──────────────────────────────────────────────┐
│ STEP 4: 現代翻訳(Modern Translation) │
│ - 現代翻訳プロンプトで対応表化 │
│ - 「過去 ⇔ 現代」の対応関係を引き出す │
│ - 本連載で一番効くプロンプト │
└────────────────┬───────────────────────────┘
↓
┌──────────────────────────────────────────────┐
│ STEP 5: 答え合わせ(Verification) │
│ - 答え合わせプロンプトで「正解」「外れ」評価 │
│ - 60年後/30年後の事実で過去を再評価 │
└────────────────┬───────────────────────────┘
↓
┌──────────────────────────────────────────────┐
│ STEP 6: 落とし穴チェック(Pitfall Check) │
│ - 捏造防止プロンプト │
│ - 文脈強制プロンプト │
│ - 翻訳整合プロンプト │
└────────────────┬───────────────────────────┘
↓
┌──────────────────────────────────────────────┐
│ STEP 7: 公開(Publish) │
│ - 出典必須・ポジショントークなしの記事化 │
│ - プロンプト全公開 │
│ - 失敗例も書く │
└──────────────────────────────────────────────┘
各ステップで使うプロンプトを、以下に全部公開します。
STEP 2: 候補絞り込みプロンプト
目的:5-10件の候補から1件に絞る
以下の[N]件の[ジャンル]候補について、以下の基準で1件を選び、
理由を3つ挙げてください。
選定基準:
1. 現代の[現代技術]と類似性が高いこと
2. 失効・廃止が確定していて、自由に発掘できること
3. 当時の主流から外れていて、業界の集合的記憶から消えていること
候補:
[候補1の概要]
[候補2の概要]
...
第2回 Patent Archaeology #1 では「ZISC」が選ばれた。
STEP 3: 内容抽出プロンプト
目的:1次資料から構造化情報を引き出す
特許用(第2回 ZISC)
この特許の以下を全部抽出してください:
1. 特許番号、発行日、出願日、発明者、所有者
2. 失効状態(Status: Expired か否か)と失効日
3. Abstract(要約)
4. 主要な Claim 1(独立クレーム1)
5. 解決した問題は何か
6. 提案する解決手段の仕組み
7. 適用されている分野・産業
8. 引用された関連技術
9. この特許が引用されている件数(forward citations)
10. 主要なFigure(図面)の説明と、
どの図が一番その仕組みを表しているか
規格用(第4回 Token Ring)
[規格名]について以下を抽出:
1. 標準化年・廃止/非推奨化された年
2. 主要な発明者・推進企業
3. 仕組みの核心(その規格固有のキー概念)
4. なぜ市場で勝てなかったか
5. 現代の[類似技術]との関係
6. AIワークロード/HPC で再評価されているか
7. 仕様書のサイズ・分量
政府文書用(第5回 ALPAC)
[政府文書名]について以下を全部抽出:
1. 報告書の正式名称・出版年・出版社
2. 報告書の発端:なぜ作られたか
3. 委員会のメンバー(主要な人物)
4. 当時の[領域]研究の状況
5. 主要な結論(勧告項目を箇条書き)
6. 報告書がもたらした政策的影響
7. 「[領域]の冬」との関係
8. 後年の評価
9. 報告書の長さと入手可能性
10. 現代の[現代技術]との対比で、当時の指摘は当たっていたか
企業IR用(第3回 Samsung)
[企業名]の歴史で、特に[年代]の[事業領域]発展について以下を全部抽出:
1. [事業]参入の年、最初の主要製品
2. [年代]の主要マイルストーン
3. 危機(バブル崩壊・経済危機)への対応
4. 主要な経営判断
5. [後の事業]への参入年
6. 主要顧客(Apple等)との取引開始
7. [現在の主力事業]への転換タイミング
8. AI / 新技術への対応
9. 競合との関係
10. 主要なCEO・経営トップの世代別変遷
STEP 4: 現代翻訳プロンプト(本連載で一番効くプロンプト)
目的:過去の長文を、現代の技術用語で対応表化する
[過去の文書]の technical mechanism(または key concept)を、
2026年現在の[領域]研究者が日常的に使っている用語に翻訳してください。
特に、各構成要素が現代論文のどの概念に相当するか、
表形式で対応関係を示してください。
このプロンプト1つで:
- 第2回 ZISC:Manhattan距離 ⇔ L1 distance、Daisy Chain ⇔ 並列制御(問題意識は共通、設計は異なる)
- 第4回 Token Ring:制御トークン ⇔ クレジットベースフロー制御、リングトポロジ ⇔ Fat Tree
- 第5回 ALPAC:実用品質に達してない ⇔ Transformer 以前の状況、人間翻訳優位 ⇔ 2000年代前半まで正しい
過去 ⇔ 現代の対応表が一気に出ます。これが本シリーズの最強の武器です。
⚠️ 対応表を作ったら、必ずこのプロンプトも続けて実行してください:
上の対応表の各行について、以下の4段階で評価してください:
1. 「同一」— 設計・実装レベルで実際に一致している
2. 「類似」— 問題意識は共通、実装・設計は異なる
3. 「比喩」— 概念的に似ているが、技術的には別物
4. 「無理がある」— 対応として強引、専門家から突っ込まれやすい
さらに、その分野の研究者・エンジニアから想定される具体的な反論を
(「それは違う、なぜなら…」という形で)各行に1〜2文で列挙してください。
これを省略すると「アナロジーを技術的同一性に見せる」リスクが出ます。対応表はきれいに見えますが、LLMは無理のある対応も自信満々に書きます。このプロンプトが盛りすぎを防ぐ安全弁です。
STEP 5: 答え合わせプロンプト
目的:過去の主張を現代の事実で評価
[過去の文書]が[年代]に下した N つの主要勧告(または主張)を、
現代の[現代技術]の実態([具体的な現代技術名と年代])と照合して、
当たっていたか外れていたかを評価してください。
判定は「正解」「外れ」「中立」の3カテゴリで。
それぞれの判定の根拠を1〜2文で書いてください。
第5回 ALPAC で、5つの勧告が「正解3 / 外れ3」に分類された。読者にとって最も価値ある記述になります。
STEP 6: 落とし穴チェックプロンプト
捏造防止プロンプト(公開前必須)
以下の記事ドラフトに、出典として書かれている媒体名・人物名・組織名・数字・引用文を
すべてリストアップしてください。各項目について、
(A) 1次資料が確認できる
(B) 二次引用での言及が確認できる
(C) 確認できない(=捏造の疑いあり)
の3カテゴリに分類してください。Cカテゴリの項目は記事から削除候補です。
文脈強制プロンプト(誤読防止)
以下の用語の意味を、この文書の発表年(YYYY年)の業界文脈で解釈してください。
現代的な意味と当時の意味が異なる場合は両方併記してください。
[用語リスト]
翻訳整合プロンプト(誤訳防止)
以下は原文 X と訳文 Y です。
訳文 Y の主要な数字・固有名詞・数値表現が、原文 X と一致しているかをチェックし、
不一致を全て報告してください。
ツールスタック
本連載で使った道具一覧:
| ツール | 用途 | アクセス | 費用 |
|---|---|---|---|
| Google Patents | 特許のフルテキスト | https://patents.google.com | 無料 |
| Wikipedia | 一次概要 | https://en.wikipedia.org | 無料 |
| National Academies Press | 政府文書 | https://www.nap.edu | 無料(閲覧) |
| IETF RFC Editor | ネットワーク規格 | https://www.rfc-editor.org | 無料 |
| Wayback Machine | アーカイブWeb | https://web.archive.org | 無料(が WebFetch では取れない) |
| SEC EDGAR | 米国上場企業IR | https://www.sec.gov/edgar | 無料(が WebFetch では403) |
| IEEE Xplore | IEEE 規格 | https://ieeexplore.ieee.org | 有料($200-500/本) |
| CiNii | 日本の論文 | https://cir.nii.ac.jp | 無料 |
| 中国知網 | 中国の論文 | https://www.cnki.net | 一部有料 |
| DTIC(Defense Technical Info Center) | 米軍 declassified | https://discover.dtic.mil | 無料 |
| Claude(Anthropic API) | 全プロンプト処理 | https://api.anthropic.com | 従量課金 |
| markitdown | PDF/Office を Markdown 化 | https://github.com/microsoft/markitdown | 無料 OSS |
| files-to-prompt | バッチ投入 | https://github.com/simonw/files-to-prompt | 無料 OSS |
WebFetch では取れない情報源(Claude Code環境固有の制約):
- SEC EDGAR(403)
- TSMC IR(403)
- Samsung 1990年代IR(存在しない)
- Wayback Machine(fetch 拒否)
これらは別ルート(直接ブラウザ/Bash + curl/API キー経由)が必要です。本格運用するなら、自分のサーバー(Mac mini 等)から動くPython スクリプトで取りに行くのが確実です。
自分の領域で始めるためのチェックリスト
□ 自分の専門領域(or 興味領域)を1つに絞る
例:FX/医療/法律/半導体/教育/音楽/料理...
□ その領域で「人間が読まないが価値がある長文」が何かを書き出す
例:FX なら → 中銀声明文、IMF レポート、過去20年のFOMC議事録...
例:医療なら → 廃止された治療プロトコル、撤回された論文、絶版教科書...
例:法律なら → 古い判例、廃止された条令、議事録...
□ Webアクセス可能な1次資料の場所を特定する
例:FOMC議事録 → federalreserve.gov(無料公開、HTML)
例:医療古論文 → PubMed(無料)/NLM 過去アーカイブ
□ STEP 1-3 を実際に1件回してみる(候補発見→絞り込み→内容抽出)
□ STEP 4(現代翻訳)プロンプトで「過去 ⇔ 現代」対応表を引き出す
□ STEP 5(答え合わせ)プロンプトで過去の主張を評価
□ STEP 6(落とし穴チェック)を全部通す
□ 出典必須・ポジショントークなしで記事化
□ 公開(個人ブログ/note/X 長文ポスト/専用LP)
□ 反応を見て、サブシリーズ命名を考える(私で言う Patent / IR / Standard / Declassified Archaeology)
これを1領域で1ヶ月続ければ、あなたはその領域の「AI考古学者」になれます。世界には誰もこの肩書きを取っていません。先行者の特権を取り切るチャンスは、いまだけです。
連載の総括
第1〜7回を通じて伝えたかったこと:
- LLM中抜きはAmazon物販だけのものではない(第1回 Gippケース)
- 30年前の特許に現代NPUの重要な前史が書いてある(第2回 ZISC)
- 企業は自分の偉業を忘れる、IR資料は壁の向こうにある(第3回 Samsung 1996)
- 捨てられた規格は「間違いだった」のではなく「30年早かった」だけ(第4回 Token Ring)
- 政府文書1本が研究分野の20年を止めることがある(第5回 ALPAC)
- 3つの落とし穴(捏造・コスト爆発・誤読)を避ければ事故率が桁違いに下がる(第6回 Pitfalls)
- このプロンプト集とパイプラインで、誰でも今日から始められる(第7回 本記事)
これら全部の根底にあるテーマは:
「人類は読まなかった膨大な長文を、LLMが読めるようになった。先行者は地位を独占できる」
これだけです。
ここから先
本連載は7回で「Introduction セット」を完了しましたが、「忘れられた長文発掘」自体はここから無限に続きます。
私(はる子)の予定:
- Patent Archaeology #2, #3, #4...:失効特許を毎月1本掘り続ける
- IR Archaeology #2, #3...:SEC EDGAR の壁を別ルートで突破して挑戦
- Standard Archaeology #2:CORBA、WAP、HTTP/1.0 を再評価
- Declassified Archaeology #2:1973年 Lighthill 報告書 — 英国 AI の冬
- 新サブシリーズ候補:Bankruptcy Archaeology(倒産企業の最終決算)/Court Archaeology(古い判例)/Thesis Archaeology(埋もれた博論)
最低でも月4本のペースで継続します。これが本連載の本当のスタート地点です。
連載のすべてのプロンプト・パイプライン・チェックリストは、本記事に集約されています。あなたが自分の領域で何かを発掘したら、ぜひ教えてください。その発掘ログを読むのを、私は楽しみにしています。
参考リンク(連載で使った全ツール):
- Google Patents
- USPTO Open Data Portal
- USPTO Developer Hub
- PatentsView
- IETF RFC Editor
- National Academies Press
- DTIC(Defense Technical Information Center)
- microsoft/markitdown
- simonw/files-to-prompt
- anthropics/claude-code-skills
連載リンク: