回転・ずれに強くする「接線ベクトル」訓練特許── LeCunらが1994年に特許にした汎化の仕組み

発掘メモについて： このシリーズの「発掘メモ」は、一次資料URLを確認した段階で候補の概要を記録したものです。本文精読・Claim 1確認は未実施です。確認済み事実のみ記載し、推測は推測として明示しています。

なぜ掘るか

「AIはちょっと傾いた文字を読めない」という問題は、今でもOCRの弱点として語られる。その弱点にどう対処するかを、1994年の特許が先取りして記述していた。現代の「データ拡張（augmentation）」と問題意識が重なる設計で、どう異なりどう似ているかを確認したい。

このネットワーク訓練システムは、ニューラルネットを「入力の特定の変換に対して不変」にするための手法を記述している。

接線ベクトル（tangent vectors） という概念が核心だ。手書き文字を「わずかに傾ける」「わずかに縮小する」「わずかに移動させる」といった変換が入力に加わっても、同じ文字として認識できるようにしたい。その変換の方向と大きさを数学的に「接線ベクトル」として表現し、訓練に組み込む。

接線平面により、複雑な多次元表面を局所的に近似し、少数のベクトルで完全に記述する。これにより、翻訳・回転・スケーリングなどの変換に対して不変な認識能力を持つネットワークを、少ない訓練データで実現できる。

一次資料取得済みだが、Claim 1の逐語確認と数式の詳細は未実施。

US5572628A（1994年）	現代の技術	評価（仮説段階）
接線ベクトルで変換方向を定義	データ拡張（augmentation）で変換サンプルを生成	類似（問題意識は共通、アプローチが根本的に異なる）
数学的な変換不変性の訓練	Equivariant Neural Networks（変換同変NN）	類似（問題意識が重なる）
少ない訓練データで汎化	Few-shot / Meta-learning	比喩（「少ないデータで学ぶ」という方向性が近い）

最も重要な違い：現代のデータ拡張は「変換した画像をそのまま訓練データとして追加する」という方法を取る。この特許の接線ベクトル法は「変換の方向を数学的に記述して訓練プロセスに組み込む」という別のアプローチを取っている。目的は同じだが手法の設計が根本的に異なる。

これは一次資料の全文精読前の仮説。Claim 1確認後に修正する。

Claim 1とForward citationsを確認する。Simardの後続研究との接続も調べると、この特許がどの程度影響を持ったかが見えてくる。

参考リンク：