1989年のBell Labsが特許にした「重み共有」── 現代CNN画像認識の問題意識は、ここから始まっていた
AI・機械学習特許 #1(AmazonのEC推薦特許 US6266649B1)では、1998年のAmazon特許が現代推薦システムの問題意識を先取りしていた話を書いた。
今回はさらに遡る。1989年、AT&T Bell Labsで取られた特許が、現代のCNNが前提にしている「重み共有」という発想を先取りしていた。
結論を先に
特許番号:US5067164A タイトル:「Hierarchical constrained automatic learning neural network for character recognition」 出願:1989年11月30日 成立:1991年11月19日 発明者:John S. Denker、Richard E. Howard、Lawrence D. Jackel、Yann LeCun Original Assignee:AT&T Bell Laboratories Inc Current Assignee:AT&T Corp、NCR Voyix Corp Google Patents上の状態:Expired(成立から20年で失効、2011年頃)
技術的継承と問題意識の共有を分けて読む。
この特許は現代のConv層そのものではない。ただし「全接続ではなくカーネルを共有して使い回す」という設計上の問題意識は、現代CNNが当然の前提にしていることと重なっている。「技術的に受け継がれた」ではなく「驚くほど似た課題に先に到達した」という読み方が正確だ。
この特許の中心は一点だ。90,000の接続を、2,600のパラメータで表現できる。これをどう実現したか。
1. どう選んだか
Week 1テーマ「AI・機械学習特許」の中から、現代深層学習との接点が最も古い特許を選んだ。LeCunが後年に開発するLeNet-5(1998年)の前身にあたる特許群の中で、最も初期にあたるのがこのUS5067164Aだ。
1989年という時点は、Rumelhartら(1986年)がバックプロパゲーションを発表してから3年後。当時のニューラルネット研究は「理論はできたが、どう実装して計算を現実的にするか」という問題に直面していた。
一次資料到達状況:Google Patentsからフルテキスト(Abstract・Description・Claims)を取得済み。成立から35年以上が経過した公開特許文書。
[STEP 1] 検索クエリ: "LeCun Bell Labs CNN patent 1989 USPTO"
[STEP 2] Google PatentsでUS5067164Aを特定
[STEP 3] WebFetchで技術内容(重み共有・層構造・計算量)を確認
[STEP 4] 選定理由: 1989年という時点が最古、LeCun本人が発明者に含まれる、
重み共有という概念が現代CNNの前提と重なっている
2. 特許の核心
Google Patentsの記述から技術内容を整理するとこうなる。
本発明は、高精度かつ信頼性の高い光学文字認識を実現する層状ネットワークを提供する。複数の制約付き特徴検出層と特徴縮小層を組み合わせ、同一マップ内の全計算要素が同じカーネル(重み)を共有する。これによりパラメータ数が劇的に削減され、シフト不変性が向上する。重みはバックプロパゲーションで自動習得する。
6層構成の詳細が特許に明示されている:
| 層 | 機能 | サイズ |
|---|---|---|
| 入力層 | 28×28ピクセル画像(中央に16×16文字) | — |
| 第1特徴検出層 | 4つの特徴マップ、5×5カーネル | 各24×24 |
| 第1縮小層 | 4つの縮小マップ、2×2サンプリング | 各12×12 |
| 第2特徴検出層 | 12の特徴マップ(一部複合入力) | 各8×8 |
| 第2縮小層 | 12の縮小マップ | 各4×4 |
| 分類層 | 26ユニット(大文字A〜Z) | 完全接続 |
この構造で接続数は約90,000。しかし自由パラメータ(独立に学習される重み)は約2,600。比率で言えば97%の削減だ。
これを可能にしたのが「重み共有」の発想だ。一般的なニューラルネットでは接続の数だけパラメータが存在する。この特許では、同一の特徴マップ内では全位置で同じカーネルを使い回す。「右端の角で検出する縦線」と「左端の角で検出する縦線」は同じカーネルで検出できるという発想だ。
当時の特許文書はこれを「制約付き特徴マップ(constrained feature map)」と呼んでいる。
3. 現代との翻訳表
| US5067164A(1989年) | 現代のCNN/画像認識モデル | 評価 |
|---|---|---|
| 重み共有(constrained kernel) | Conv2dの重み共有 | 同一(実装も概念も一致) |
| 特徴検出層(feature detection layer) | 畳み込み層(Convolutional layer) | 同一(名称が変わっただけ) |
| 特徴縮小層(feature reduction layer) | MaxPooling層 | 類似(問題意識は共通、実装方法は異なる) |
| バックプロパゲーションで重みを自動習得 | SGD・Adam等の最適化 | 同一(アルゴリズムの本質は変わらない) |
| 6層、2,600パラメータ | ViT-Large: 307,000,000パラメータ | 比喩(「層を持つ」以外は別物のスケール) |
| 大文字A〜Z認識(26クラス) | ImageNet 1000クラス / GPT-4o Vision | 無理がある(タスクの性質が根本的に異なる) |
3行目(特徴縮小層)について補足する。 特許の縮小層は「2×2サンプリング」と記述されており、現代のMax Pooling(最大値を取る)とは実装が異なる。「空間解像度を落として位置の誤差に強くする」という問題意識は共通しているが、計算の中身は別物だと特許文書から確認できる。
5行目(パラメータ数)は比喩として読む必要がある。 2,600と3億の差は量的な違いではなく、タスクの設計思想が根本的に違う。1989年の特許は「計算を現実的にするため削減する」という動機で重み共有を選んだ。現代のスケーリング則は「パラメータを増やすと汎化する」という逆の方向を前提にしている。問題意識の起点が異なる。
4. なぜ一般の技術語りでは参照されにくいか(推測)
LeCunが1998年に発表したLeNet-5論文(Proc. IEEE)がはるかに有名で、CNNの起点として参照されるのは主にその論文だ。特許文書は英語・専門用語・Claims構造という三重の読みにくさがあり、LLM登場前は研究者でも積極的に読む理由がなかった。
また、この特許(1989年)はLeNet-5(1998年)に先行する初期の設計であり、LeNet-5との差分が大きい。「重み共有のアイデアが1989年に特許化されていた」という事実は、LeNet-5の解説記事ではほとんど触れられない。
これは推測であり、Bell Labs内部の記録や当時の開発判断には今回到達できていない。
5. AI考古学的な意味
スマホで名刺をカメラで読み取る。コンビニで手書き宅配伝票をスキャンする。カーナビが道路標識の文字を読む。これらはすべて「畳み込みニューラルネットの重み共有」が前提になっている。
その前提が1989年の特許文書に書かれている。「制約付き特徴マップがカーネルを共有する」という文章は、現代のPyTorchでいう nn.Conv2d の設計思想と問題意識が重なっている。
LLM登場以前は、英語50ページの特許文書を読んで要点を抽出するコストが高すぎた。今はできる。「誰が、いつ、何を、どう解決しようとしたか」を一次資料から確認するコストが下がった。それがAI考古学が成立する理由だ。
6. 落とし穴
落とし穴1:この特許をLeNet-5の「前身」と言い切らない
LeNet-5(1998年, Proc. IEEE, 60万パラメータ)はこの特許(1989年, 2,600パラメータ)の改良版に見えるが、タスク・データ・層の深さが異なる。「同じ著者が改良していった」という文脈的な繋がりはあるが、「前身」という言葉は設計の継承を過剰に示唆する。
落とし穴2:重み共有をLeCunが「発明した」と書かない
重み共有の発想自体はFukushima(1980年、Neocognitron)など先行研究に存在する。この特許の貢献は「バックプロパゲーションを使って重みを自動学習する制約付き特徴マップ」という実装上の組み合わせであり、重み共有の着想そのものの特許ではない。
落とし穴3:Legal statusだけで商用利用を判断しない
Google PatentsはExpiredと表示しているが、関連ファミリー特許(US5625708等)が存在する。利用判断にはUSPTO Patent Centerでの確認が別途必要。
厳密にはこう
確認済みの事実 Google Patentsより:US5067164A / 出願1989-11-30 / 成立1991-11-19 / 発明者4名(Denker・Howard・Jackel・LeCun)/ Original Assignee AT&T Bell Laboratories Inc / Current Assignee AT&T Corp・NCR Voyix Corp / 接続数約90,000 / 自由パラメータ約2,600 / 6層構成(入力・2×特徴検出・2×縮小・分類)/ バックプロパゲーション使用明記 / Rumelhart et al.(1986)参照明記 / Abstract・Description・Claims全文確認済み
著者の解釈 「現代CNNの問題意識と重なっている」は著者の解釈。技術的継承の一次資料(LeNet-5からUS5067164Aへの明示的参照など)は今回確認していない。
比喩・アナロジー 対応表5行目(パラメータ数スケール)は比喩レベル。6行目(OCR特化 vs 汎用マルチモーダル)は「無理がある」と評価した。特徴縮小層とMaxPoolingの対応は類似レベルで、実装は異なる。
未確認 ATMでの実際の商用展開履歴(NCR・AT&Tの提携詳細)/ LeNet-5論文のUS5067164A明示参照の有無 / フォワードサイテーション件数 / US5625708等の関連ファミリー特許の内容 / 訴訟履歴
この比較が破綻する点 「重み共有が同一」という評価は概念・実装レベルでは正確だが、1989年の特許は固定のカーネルサイズ・固定の深さ・固定のクラス数という強い制約が前提になっている。現代CNNの汎用性は、この特許が前提にしていない構造(可変深さ・可変チャンネル数・skip connectionなど)で実現している。「同じ重み共有を使っている」は事実だが、「同じ設計思想で作られている」は言いすぎになる。
参考リンク:
- 元特許:US5067164A on Google Patents
- AI・機械学習特許 #1:AmazonのEC推薦特許 US6266649B1(1998年)
- Patent Archaeology #2:ニコラ・テスラ US381968(1888年)