次元圧縮を行わず入力画像をそのまま出力できるオートエンコーダを学習させると、学習に用いた画像は単なる「固定点」ではなくアトラクターとなる（ノイズを乗せて入力しても元の画像が出力される）。つまりホップフィールドモデルのような連想記憶が実現されている。https://t.co/oNk82E1UOu pic.twitter.com/hbHpzr9Efp
— Kohei Ichikawa / 市川航平 (@tripdancer0916) 2020年11月6日

論文概要

次元圧縮をしないオートエンコーダは入力画像を一切変えずにそのまま出力するように学習を行うことができる（memorization）が、この時入力画像は単なる固定点になってるわけではなくアトラクターになっている（その入力画像を少し変えてオートエンコーダーに入れても元の画像が返ってくる）→Hopfield network的な連想記憶が実現されている。
連続するデータ（e.g. 動画の1コマ1コマ、手書き文字の0~9）を「オートエンコーダが入力画像の次の画像を出力する」ように学習させると一連のデータがマップのリミットサイクルとしてコードされる（ある画像を入力するとその次の画像が出力され、その画像を入力するとさらにその次の画像が出力される）。このタイプの記憶は1.のタイプの記憶よりも記憶容量が大きい。
トイモデル（3層のオートエンコーダを用いて1つの入力信号を学習させる）を用いて学習後のネットワーク（入力信号は固定点になっている）のヤコビアンの最大固有値を解析的に計算し、学習の初期値を適切に選ぶとこの固定点がアトラクターになることを示した。

感想

Denoising AutoEncoderという手法もあるぐらいだし、（学習が安定して進むためにはランドスケープを安定させたいだろうから）AEを学習することで固定点がアトラクターになるという結果はまあそうなりそう、という気持ち。ただニューラルネットワーク界隈で嫌われがちなmemorization（要するに過学習してしまっているため）を逆手に取って(？)連想記憶のモデルとして扱うのは逆転の発想感があって面白い。
Discussionでは触れられていなかったが、この性質が人の記憶の性質と結びつくと面白いかなって思った。人も何かものを覚える時時系列順に覚えたりしているので（現在の観測を基に未来を予測するpredictive coding的な機構が長期記憶にも働いてたりしたらかなり面白そう）
解析パートだけど、想像するに「固定点がアトラクターになるのが非自明なこと」というのを明示したいのかなと思った（アトラクターになることを示したというより。実質的に初期値の取り方でいくらでも調節できるという話なので）。