Biologically plausible backpropagationまとめ②：Feedback Alignment

こんにちは、タイトルの通り「生物学的に妥当な誤差逆伝播法」の分野で、具体的に提案されている手法を紹介していきます。

ちなみに概要的な話はここに書いてあります。

tripdancer0916.hatenablog.com

今回紹介するのはFeedback Alignmentという手法で、2016年にnature communicationsから出版されています（初出はarxivで2014年）。

Random synaptic feedback weights support error backpropagation for deep learning | Nature Communications

[1411.0247] Random feedback weights support learning in deep neural networks

Feedback Alignmentは「誤差逆伝播法の実行のためには順方向のシナプスと逆方向のシナプスが対称である必要があるが、現実の神経系と照らし合わせるとそれは不自然な仮定である(※)」という問題に対応するための手法です。

(※)この問題はweight transport problemと呼ばれ、あのフランシス・クリックも言及しています。

f:id:tripdancer0916:20181025215749p:plain — 順方向に情報を伝えるシナプスと逆方向に情報を伝えるシナプスは別物で、それが等しいと仮定するのは不自然。

Back propagationとFeedback Alignmentの計算

　
Feedback Alignmentの発想は極めてシンプルで、「対称なシナプスの代わりに、誤差を伝えるためのランダム行列をあらかじめ用意しておいてそれで勾配を計算しても案外学習はうまくいくんじゃないか？」というものです。これでほぼ尽きています。

f:id:tripdancer0916:20181025215743p:plain — feedback alignmentの概念図（画像は論文中より）

具体的な計算を以下に書いていきます。ここでは簡単のために出力層の活性化関数はsoftmaxとして、タスクはクラス分類とします。
入力を $x$ 、出力を $y$ 、重み行列を $W^i$ 、活性化関数を $f(\cdot)$ として、順伝播計算は $i \in \{1,2,...,k\}$ に対して以下のようになります。

$a^i = W^i\cdot h^{i-1}, \\ h^i = f(a^i), \\ y = softmax(h^k)$

ここで、 $h^0 = x$ とします。
通常の逆伝播計算であれば、targetを $d$ としたときに誤差関数の各層毎の勾配 $\nabla_{W^i}L$ は次のように計算されます。

$\delta_i = (W^i)^T \delta_{i+1} \odot f'(a^i), \\ \delta_k = \frac{1}{N}(y-d), \\ \nabla_{W^i}L = \delta_i(h^{i-1})^T$
ただし、Nはここではバッチサイズ、 $\odot$ は要素毎の積（Frobenius積）を表します。

これによって $W^i$ を
$W^i \leftarrow W^i - \lambda \odot \delta_{BP} W^i \\ = W^i - \lambda \odot \nabla_{W^i}L$
と更新していきます。

一方でFeedback Alignmentでは $delta_i$ を計算するときに、 $(W^i)^T$ の代わりにランダム行列 $B^i$ （学習中固定しておく）を使います。具体的には、
$\delta^{FA}_i = B^i \delta_{i+1} \odot f'(a^i)$
とします。