Learning Credit Assignment

journals.aps.org

シナプス結合を決定論的な値ではなく確率分布として表現して、そのパラメータを誤差逆伝播法で学習させるモデルを提案。学習済みNNのシナプスは常に値を持つもの、常に0のもの、その中間の3タイプに分かれ、推論に寄与するのがサブネットワークであるという仮説を実証した。https://t.co/DMRwl3I6np pic.twitter.com/TLKh9BBUyI
— Kohei Ichikawa (@tripdancer0916) 2020年11月9日

論文概要

Lottery-ticket hypothesis（ランダムネットワークの中にタスクがそのまま解けてしまう「良い」サブネットワークが存在している）という仮説が知られているが、ここから予想されることとして - ニューラルネットワークがタスクを解く際、全てのシナプスを用いる必要はない。 - シナプスにランダム性があってもタスクが解けるがある。そこでシナプスが値を持つか否か、値を持つとしたらどの値になるかを確率分布として表現してその確率分布を誤差逆伝播法で学習させるモデルを提案。

f:id:tripdancer0916:20201201115909p:plain

このモデルでMNISTを学習させることができ、学習済みモデルを調べると以下のことが分かった。 - 3割程度の常に値を持つシナプスの他に、常に値を持たない（0になる）シナプスと値を持つか否かが確率的に定まっているシナプスに分かれている。 - 値を持たないシナプスの割合（sparsity）は中間層で最も大きくなっている。

f:id:tripdancer0916:20201201115931p:plain

感想

結果としてはシナプスが3つのタイプに分かれるのがlottery-ticket hypothesisの裏付けにもなっていて重要かなと思った（値を持つか否かを制御するパラメータは[0,1]の値をとるが、このパラメータは一様に分布するのではなく(0,1,その他)に分かれるL字型の分布を持つことから非自明な結果）。

ただ論文の趣旨としては、シナプス結合を確率分布としてきちんと学習できるフレームワークを構築したことの方が重要度が高いと考えている。

Data-driven effective model shows a liquid-like deep learning

arxiv.org

DNNのシナプス重み空間におけるlandscapeの解析にはこれまでランダム行列のようなtoy modelか数値実験ベースのものしかなかったが、シナプスを確率分布として学習する枠組みを用いることで「タスクが解けるDNN」をイジングモデルとして統計力学的に解析することに成功した。https://t.co/XDhJ4DBESF pic.twitter.com/mlCJVt6mvs
— Kohei Ichikawa (@tripdancer0916) 2020年11月19日

論文概要

Learning Credit Assignmentの続報的な研究。

DNNのシナプス重み空間における誤差関数のlandscapeやシナプス重みの統計力学的性質の研究はこれまでランダム行列のようなtoy modelを用いたもの（現実的なタスクは解けない）か、数値実験的にシナプス重みを調べたもの（イジングモデルのような有効モデルは構築できていない）しかなかったが、Learning Credit Assignment で提案された平均場近似学習を用いることで現実的なタスクを解くニューラルネットワークをシナプス重みを確率分布として学習できるため上記の問題を解決できる。 f:id:tripdancer0916:20201201120454p:plain

得られたモデルを解析することで以下のような結果が得られた。 - deep networkにおいてはunder-parametrizationでもover-parametrizationでもlandscapeの性質がほぼ同じで滑らか→過学習しない - shallow networkだと相転移が見られる（landscapeにgapがある） - deep networkの中心層（隠れ層）は液体的に（自由度が高く）振舞う

f:id:tripdancer0916:20201201120505p:plain