研究のこと - AIエンジニアの探求

ネッカーの立方体（下図、立方体が置かれている向きが2通りに見えて、しかもその見え方が時間とともに切り替わる）をCNNで再現しよう、そしてそのメカニズムを力学系的な立場で解析してみようというのが今やってる試み。

f:id:tripdancer0916:20180607225309p:plain

ただ普通のCNNだとstaticすぎて時間変化を扱えないので、一工夫が必要になる。

そこでニューラルネットの隠れ層が（入力画像が変わっても）引き継がれるとし、再帰的な結合を考えた。ベースのモデルはrecurrent CNN*1を参考にしている。

あと、*1では再帰的な結合はlateraなものしか考えてないけど、top-downなものも考えようというモデルもある。*2で、どうやらCNNのtop-downなフィードバックはpredictive codingとの関連もあるらしい。

ちなみにネッカーの立方体や両眼視野闘争はtop downな脳の信号、もっというとpredictive codingで説明できるとする説*3もあって、なんか色々繋がった感じ。研究はまだやってる途中だからなんとも言えないけれど、うまい具合にここら辺の話題を繋げられたら面白そうだなあ。

「機械学習と認知科学の橋渡しをして相互の発展をもたらす」という目標にもしかしたら少し近づけるかもしれない。

*1:

Liang, M., & Hu, X. (2015). Recurrent convolutional neural network for object recognition. Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference On, (Figure 1), 3367–3375. https://doi.org/10.1109/CVPR.2015.7298958

*2:

Spoerer, C. J., McClure, P., & Kriegeskorte, N. (2017). Recurrent convolutional neural networks: A better model of biological object recognition. Frontiers in Psychology, 8(SEP), 1–14. https://doi.org/10.3389/fpsyg.2017.01551

*3:

Hohwy, J., Roepstorff, A., & Friston, K. (2008). Predictive coding explains binocular rivalry: An epistemological review. Cognition, 108(3), 687–701. https://doi.org/10.1016/j.cognition.2008.05.010