AIエンジニアの探求

計算論的神経科学で博士号取得後、AIエンジニアとして活動中。LLMの活用や脳とAIの関係などについて記事を書きます。

【論文まとめ】Learning Credit Assignment / Data-driven effective model shows a liquid-like deep learning

Learning Credit Assignment

journals.aps.org

論文概要

Lottery-ticket hypothesis(ランダムネットワークの中にタスクがそのまま解けてしまう「良い」サブネットワークが存在している)という仮説が知られているが、ここから予想されることとして - ニューラルネットワークがタスクを解く際、全てのシナプスを用いる必要はない。 - シナプスにランダム性があってもタスクが解ける がある。そこでシナプスが値を持つか否か、値を持つとしたらどの値になるかを確率分布として表現してその確率分布を誤差逆伝播法で学習させるモデルを提案。

f:id:tripdancer0916:20201201115909p:plain f:id:tripdancer0916:20201201115920p:plain

このモデルでMNISTを学習させることができ、学習済みモデルを調べると以下のことが分かった。 - 3割程度の常に値を持つシナプスの他に、常に値を持たない(0になる)シナプスと値を持つか否かが確率的に定まっているシナプスに分かれている。 - 値を持たないシナプスの割合(sparsity)は中間層で最も大きくなっている。

f:id:tripdancer0916:20201201115931p:plain

感想

結果としてはシナプスが3つのタイプに分かれるのがlottery-ticket hypothesisの裏付けにもなっていて重要かなと思った(値を持つか否かを制御するパラメータは[0,1]の値をとるが、このパラメータは一様に分布するのではなく(0,1,その他)に分かれるL字型の分布を持つことから非自明な結果)。

ただ論文の趣旨としては、シナプス結合を確率分布としてきちんと学習できるフレームワークを構築したことの方が重要度が高いと考えている。

Data-driven effective model shows a liquid-like deep learning

arxiv.org

論文概要

Learning Credit Assignmentの続報的な研究。

DNNのシナプス重み空間における誤差関数のlandscapeやシナプス重みの統計力学的性質の研究はこれまでランダム行列のようなtoy modelを用いたもの(現実的なタスクは解けない)か、数値実験的にシナプス重みを調べたもの(イジングモデルのような有効モデルは構築できていない)しかなかったが、Learning Credit Assignment で提案された平均場近似学習を用いることで現実的なタスクを解くニューラルネットワークシナプス重みを確率分布として学習できるため上記の問題を解決できる。 f:id:tripdancer0916:20201201120454p:plain

得られたモデルを解析することで以下のような結果が得られた。 - deep networkにおいてはunder-parametrizationでもover-parametrizationでもlandscapeの性質がほぼ同じで滑らか→過学習しない - shallow networkだと相転移が見られる(landscapeにgapがある) - deep networkの中心層(隠れ層)は液体的に(自由度が高く)振舞う

f:id:tripdancer0916:20201201120505p:plain

感想

得られた結果自体はこれまでの結果(トイモデルや数値計算的シミュレーション)と整合するものであり、新しいものが得られているわけではない。しかし、今後このモデルからトイモデルとは異なる振る舞いが見られる可能性はあるし、方法論として重要な進展ではないかと思う。