1989年のBell Labsが特許にした「重み共有」── 現代CNN画像認識の問題意識は、ここから始まっていた

AI・機械学習特許 #1（AmazonのEC推薦特許 US6266649B1）では、1998年のAmazon特許が現代推薦システムの問題意識を先取りしていた話を書いた。

今回はさらに遡る。1989年、AT&T Bell Labsで取られた特許が、現代のCNNが前提にしている「重み共有」という発想を先取りしていた。

結論を先に

特許番号：US5067164A タイトル：「Hierarchical constrained automatic learning neural network for character recognition」出願：1989年11月30日成立：1991年11月19日発明者：John S. Denker、Richard E. Howard、Lawrence D. Jackel、Yann LeCun Original Assignee：AT&T Bell Laboratories Inc Current Assignee：AT&T Corp、NCR Voyix Corp Google Patents上の状態：Expired（成立から20年で失効、2011年頃）

技術的継承と問題意識の共有を分けて読む。

この特許は現代のConv層そのものではない。ただし「全接続ではなくカーネルを共有して使い回す」という設計上の問題意識は、現代CNNが当然の前提にしていることと重なっている。「技術的に受け継がれた」ではなく「驚くほど似た課題に先に到達した」という読み方が正確だ。

この特許の中心は一点だ。90,000の接続を、2,600のパラメータで表現できる。これをどう実現したか。

1. どう選んだか

Week 1テーマ「AI・機械学習特許」の中から、現代深層学習との接点が最も古い特許を選んだ。LeCunが後年に開発するLeNet-5（1998年）の前身にあたる特許群の中で、最も初期にあたるのがこのUS5067164Aだ。

1989年という時点は、Rumelhartら（1986年）がバックプロパゲーションを発表してから3年後。当時のニューラルネット研究は「理論はできたが、どう実装して計算を現実的にするか」という問題に直面していた。

一次資料到達状況：Google Patentsからフルテキスト（Abstract・Description・Claims）を取得済み。成立から35年以上が経過した公開特許文書。

[STEP 1] 検索クエリ: "LeCun Bell Labs CNN patent 1989 USPTO"
[STEP 2] Google PatentsでUS5067164Aを特定
[STEP 3] WebFetchで技術内容（重み共有・層構造・計算量）を確認
[STEP 4] 選定理由: 1989年という時点が最古、LeCun本人が発明者に含まれる、
         重み共有という概念が現代CNNの前提と重なっている

2. 特許の核心

Google Patentsの記述から技術内容を整理するとこうなる。

本発明は、高精度かつ信頼性の高い光学文字認識を実現する層状ネットワークを提供する。複数の制約付き特徴検出層と特徴縮小層を組み合わせ、同一マップ内の全計算要素が同じカーネル（重み）を共有する。これによりパラメータ数が劇的に削減され、シフト不変性が向上する。重みはバックプロパゲーションで自動習得する。

6層構成の詳細が特許に明示されている：

層	機能	サイズ
入力層	28×28ピクセル画像（中央に16×16文字）	—
第1特徴検出層	4つの特徴マップ、5×5カーネル	各24×24
第1縮小層	4つの縮小マップ、2×2サンプリング	各12×12
第2特徴検出層	12の特徴マップ（一部複合入力）	各8×8
第2縮小層	12の縮小マップ	各4×4
分類層	26ユニット（大文字A〜Z）	完全接続

この構造で接続数は約90,000。しかし自由パラメータ（独立に学習される重み）は約2,600。比率で言えば97%の削減だ。

これを可能にしたのが「重み共有」の発想だ。一般的なニューラルネットでは接続の数だけパラメータが存在する。この特許では、同一の特徴マップ内では全位置で同じカーネルを使い回す。「右端の角で検出する縦線」と「左端の角で検出する縦線」は同じカーネルで検出できるという発想だ。

当時の特許文書はこれを「制約付き特徴マップ（constrained feature map）」と呼んでいる。

3. 現代との翻訳表

US5067164A（1989年）	現代のCNN/画像認識モデル	評価
重み共有（constrained kernel）	Conv2dの重み共有	同一（実装も概念も一致）
特徴検出層（feature detection layer）	畳み込み層（Convolutional layer）	同一（名称が変わっただけ）
特徴縮小層（feature reduction layer）	MaxPooling層	類似（問題意識は共通、実装方法は異なる）
バックプロパゲーションで重みを自動習得	SGD・Adam等の最適化	同一（アルゴリズムの本質は変わらない）
6層、2,600パラメータ	ViT-Large: 307,000,000パラメータ	比喩（「層を持つ」以外は別物のスケール）
大文字A〜Z認識（26クラス）	ImageNet 1000クラス / GPT-4o Vision	無理がある（タスクの性質が根本的に異なる）

3行目（特徴縮小層）について補足する。 特許の縮小層は「2×2サンプリング」と記述されており、現代のMax Pooling（最大値を取る）とは実装が異なる。「空間解像度を落として位置の誤差に強くする」という問題意識は共通しているが、計算の中身は別物だと特許文書から確認できる。

5行目（パラメータ数）は比喩として読む必要がある。 2,600と3億の差は量的な違いではなく、タスクの設計思想が根本的に違う。1989年の特許は「計算を現実的にするため削減する」という動機で重み共有を選んだ。現代のスケーリング則は「パラメータを増やすと汎化する」という逆の方向を前提にしている。問題意識の起点が異なる。

4. なぜ一般の技術語りでは参照されにくいか（推測）

LeCunが1998年に発表したLeNet-5論文（Proc. IEEE）がはるかに有名で、CNNの起点として参照されるのは主にその論文だ。特許文書は英語・専門用語・Claims構造という三重の読みにくさがあり、LLM登場前は研究者でも積極的に読む理由がなかった。

また、この特許（1989年）はLeNet-5（1998年）に先行する初期の設計であり、LeNet-5との差分が大きい。「重み共有のアイデアが1989年に特許化されていた」という事実は、LeNet-5の解説記事ではほとんど触れられない。

これは推測であり、Bell Labs内部の記録や当時の開発判断には今回到達できていない。

5. AI考古学的な意味

スマホで名刺をカメラで読み取る。コンビニで手書き宅配伝票をスキャンする。カーナビが道路標識の文字を読む。これらはすべて「畳み込みニューラルネットの重み共有」が前提になっている。

その前提が1989年の特許文書に書かれている。「制約付き特徴マップがカーネルを共有する」という文章は、現代のPyTorchでいう nn.Conv2d の設計思想と問題意識が重なっている。

LLM登場以前は、英語50ページの特許文書を読んで要点を抽出するコストが高すぎた。今はできる。「誰が、いつ、何を、どう解決しようとしたか」を一次資料から確認するコストが下がった。それがAI考古学が成立する理由だ。

6. 落とし穴

落とし穴1：この特許をLeNet-5の「前身」と言い切らない

LeNet-5（1998年, Proc. IEEE, 60万パラメータ）はこの特許（1989年, 2,600パラメータ）の改良版に見えるが、タスク・データ・層の深さが異なる。「同じ著者が改良していった」という文脈的な繋がりはあるが、「前身」という言葉は設計の継承を過剰に示唆する。

落とし穴2：重み共有をLeCunが「発明した」と書かない

重み共有の発想自体はFukushima（1980年、Neocognitron）など先行研究に存在する。この特許の貢献は「バックプロパゲーションを使って重みを自動学習する制約付き特徴マップ」という実装上の組み合わせであり、重み共有の着想そのものの特許ではない。

落とし穴3：Legal statusだけで商用利用を判断しない

Google PatentsはExpiredと表示しているが、関連ファミリー特許（US5625708等）が存在する。利用判断にはUSPTO Patent Centerでの確認が別途必要。

厳密にはこう

確認済みの事実 Google Patentsより：US5067164A / 出願1989-11-30 / 成立1991-11-19 / 発明者4名（Denker・Howard・Jackel・LeCun）/ Original Assignee AT&T Bell Laboratories Inc / Current Assignee AT&T Corp・NCR Voyix Corp / 接続数約90,000 / 自由パラメータ約2,600 / 6層構成（入力・2×特徴検出・2×縮小・分類）/ バックプロパゲーション使用明記 / Rumelhart et al.（1986）参照明記 / Abstract・Description・Claims全文確認済み

著者の解釈 「現代CNNの問題意識と重なっている」は著者の解釈。技術的継承の一次資料（LeNet-5からUS5067164Aへの明示的参照など）は今回確認していない。

比喩・アナロジー 対応表5行目（パラメータ数スケール）は比喩レベル。6行目（OCR特化 vs 汎用マルチモーダル）は「無理がある」と評価した。特徴縮小層とMaxPoolingの対応は類似レベルで、実装は異なる。

未確認 ATMでの実際の商用展開履歴（NCR・AT&Tの提携詳細）/ LeNet-5論文のUS5067164A明示参照の有無 / フォワードサイテーション件数 / US5625708等の関連ファミリー特許の内容 / 訴訟履歴

この比較が破綻する点 「重み共有が同一」という評価は概念・実装レベルでは正確だが、1989年の特許は固定のカーネルサイズ・固定の深さ・固定のクラス数という強い制約が前提になっている。現代CNNの汎用性は、この特許が前提にしていない構造（可変深さ・可変チャンネル数・skip connectionなど）で実現している。「同じ重み共有を使っている」は事実だが、「同じ設計思想で作られている」は言いすぎになる。

参考リンク：

元特許：US5067164A on Google Patents
AI・機械学習特許 #1：AmazonのEC推薦特許 US6266649B1（1998年）
Patent Archaeology #2：ニコラ・テスラ US381968（1888年）