ニューロンの混合選択性と高次認知

はじめに
mixed selectivityとは何か
なぜmixed selectivityが必要なのか？
- pure selectivity neuronのみの時
- mixed selectivity neuronが存在する時
実験の紹介
分離可能性と汎化性能
神経表現の次元と学習効率
- 設定
  - 学習期間
  - テスト
- 結果
まとめ

はじめに

この記事は神経科学アドベントカレンダー2019の一部です。

ニューロンの刺激に対する反応性に関して、近年注目を集めている概念である混合選択性（mixed selectivity、もっといい和訳があるかもしれないです）の紹介と、その計算論的意義について解説します。

本記事は主に以下の論文を参考にしています。

Rigotti, M., et al. 2013

www.nature.com
Barak, O., et al. 2013

www.jneurosci.org
Fusi, S., Miller, E. K., & Rigotti, M. 2016

www.sciencedirect.com
Tang, E., et al. 2019

www.nature.com

それぞれの内容としては、Rigotti, M., et al. 2013が（おそらくmixed selectivityが注目されるきっかけになった）実験論文、Barak, O., et al. 2013がモデルの研究、そして Fusi, S., Miller, E. K., & Rigotti, M. 2016はレビュー論文となっています。

Tang, E., et al. 2019は直接的に混合選択性を扱っているわけではありませんが、神経表現の次元と学習能力が相関しているという研究です。

mixed selectivityとは何か

元々ニューロンの刺激に対する反応性は例えば形に反応するニューロンや色に反応するニューロンというように、それぞれ機能分化した形で情報を符号化しているという考え方が主流でした。しかし前頭前皮質のような高次領野を調べると、刺激が持つ情報の様々な側面の組み合わせに対して反応するニューロンが存在していることが分かりました。

このようなニューロンがmixed selectivity neuronsと呼ばれています。ちなみに、刺激が持つ情報のうち単一のパラメータにしか反応しないニューロンはpure selectivity neuronsと呼ばれています。

このようなニューロンが「混合」する対象は非常に広く、例えば視覚情報と聴覚情報の組み合わせに対して反応するニューロンや、（文脈に依存して求められる出力が変わるような設定において）同じ刺激でも異なる文脈に応じて全く異なる反応性を示すニューロンがいたりします。

なぜmixed selectivityが必要なのか？

mixed selectivityは神経表現が持つ次元と深く関わっていると考えられています。これを理解するために、以下のようなトイモデルを考えてみます。

ニューロンが3つあり、それぞれの発火頻度は $f_1, f_2, f_3$ で表されるとします。外部刺激は聴覚情報( $x_1$ )と視覚情報( $x_2$ )があり、それぞれ0または1の値を持つとします。また刺激は4種類入力され、それぞれ $(x_1, x_2)=(0, 0), (0, 1), (1, 0), (1, 1)$ の値を持つとします。

pure selectivity neuronのみの時

3つのニューロンの反応性が以下のように書けるとします。

$f_1 = x_1$
$f_2 = x_2$
$f_3 = 2x_2$

$f_1$ は聴覚情報に反応し、 $f_2, f_3$ は視覚情報に反応するニューロンですね。この時それぞれの刺激は以下のようにマップされます。
f:id:tripdancer0916:20191214184230p:plain:w300

図を見ると分かるとおり、ニューロンは3つあるため3次元空間内で符号化できるはずですが、実際には平面上に拘束されています。別の刺激を考えても必ずこの平面上にマップされます。つまり、この時神経表現の次元が2に減ってしまっているのです。線形代数におけるランク落ちと同じと考えると理解しやすいかもしれません。また重要な点として、刺激に対する反応性をどれだけ複雑にしようが、3つのニューロンがpure selectiveである限りランク落ちは避けられません。

mixed selectivity neuronが存在する時

今度は、以下のような反応性を持つと考えます。

$f_1 = x_1$
$f_2 = \frac{1}{3}x_1 + x_2$
$f_3 = x_1 x_2$

この時それぞれの刺激は以下のようにマップされます。
f:id:tripdancer0916:20191214184106p:plain:w300

これを見ると3次元をフルに使えていることが分かります。ここで注意点として、混合反応性を持っていたとしてもそれが線形のみの場合（例えば $f_3=x_1-x_2$ の時）ですとランク落ちしてしまいます。
non-linear mixed selectivityが重要というわけです。

それではなぜ高次元である必要があるのか。それは線形分離可能性と関係があります。4つの刺激を2クラスに分ける分類問題を解くと考えて、それぞれラベルが図の赤・黄で表されている（XORのような設定ですね）とすると、二次元平面に拘束されている時は線形変換によってこの問題を解くことはできないことが分かります。

実験の紹介

Rigotti, M., et al. 2013ではサルを使ってmixed selectivityの性質を調べる実験が行われています。その内容を簡単に紹介したいと思います。

設定

サルに入力刺激として、4つの画像（A,B,C,D）の中からランダムに選ばれた2つの画像を時間間隔を空けて提示します。

f:id:tripdancer0916:20191214191733p:plain — 入力刺激の例

その後サルが解くべき課題は2種類あり、1つめのrecognition taskでは提示されるテスト画像が入力に現れた画像かどうかを判別します。また別のrecall taskでは入力された画像を含む3つの画像が同時に提示され、その中から入力された画像を入力された順番に目で追う必要があります。この2つのタスクは100-150試行ごとに切り替わります。

以上の設定では、「混合」される情報のパラメータの候補として、

1つめに提示された画像が何であるか
2つめに提示された画像が何であるか
タスクがrecognitionかrecallのどちらであるか

があります。

結果1: 混合選択性を持つニューロンの確認

f:id:tripdancer0916:20191214192803p:plain — 混合選択性を持つニューロンの例

上の図はあるニューロンについて、各パラメータごとの発火頻度を記録したものです。このニューロンは「recognition taskにおいて、1つめの刺激が画像Cの時」に発火頻度が大きくなります。実験によって、このようなニューロンの存在が確認されました。

また、外界からの情報がmixed selectivity neuronによって符号化されているとすると、単一ニューロンではなくニューロン集団によって情報（例えばタスクが今どちらであるか）が保持されていることが示唆されます。

結果2: 神経表現の持つ次元

mixed selectivityが持つ計算論的意義として、「神経表現が高次元になる」ことを上で説明しました。そこで実際そのようになっているのかを確かめたいのですが、次元の測り方に関して問題があります。ニューロンの反応性にノイズが含まれない場合は、刺激とそれに対するニューロンの応答を並べた行列を用意してそのランクを計算すればいいのですが、ノイズが含まれる場合は（ノイズが相関でもしていない限り）基本的にフルランクになってしまいます。

しかし、ノイズによってできた「隙間」に無理矢理分離超平面を引いても、分類タスクに関して一切汎化性能という意味では貢献しないことが想像できると思います。つまり、ノイズによってフルランクになっても「本質的に」高次元になっているとは言えません。

f:id:tripdancer0916:20191214194827p:plain

そこでここでは発想の転換を行い、「2クラス分類問題を解く能力」を次元の指標として採用しています。発想としては上の図を見ていただくと理解しやすいのではないかと思います。

具体的にはc種類の異なる条件（例えば今回だと1つめに提示する刺激:4種類×2つめに提示する刺激:3種類×タスクの種類:2=24）に対して2つのラベルを設定します（この時設定の方法は $2^{24}$ 通りあります）。ニューロンの発火頻度データから各ラベルの設定に対してSVMなどでクラス分類タスクを解きます。この時解けるラベル設定の数が $N_c$ だとすると、神経表現の次元は $d=\log_2 N_c$ であると定義します。

f:id:tripdancer0916:20191214200147p:plain

上がこの指標に基づいて次元を測定した結果です。図aは2つめの刺激が提示される前の神経活動データを使ったものなので最高でも $2\times4=8$ 次元しかありません。また、記録されたニューロンは全部で237しかないので、ニューロンの反応性をモデル化したものでaugmentationしています。グレーのラインはpure selectivityを持つニューロンを同様にモデル化したもので測定した時の結果を表しています。

これを見ると、確かに混合選択性によって高次元な神経表現が得られていることが分かります。

分離可能性と汎化性能

「混合選択性によって高次元の神経表現が得られる」と書いてきましたが、高次元であればあるほどいいかと言われるとそうではありません。次元が大きくなると、データにノイズが乗った時に分離超平面の引き方に多様な可能性が残り、汎化性能が落ちてしまうことが考えられます。
f:id:tripdancer0916:20191214201613p:plain:w400

そこで高次元表現と次元圧縮の両立が問題になってくるわけですが、これに関しては今でも議論が続いています。

f:id:tripdancer0916:20191214202403p:plain:w300

また、本記事では深入りはしませんが、Barak, O., et al. 2013ではランダム結合行列の「反応しやすさ」を調整する（バイアス項を調整することで可能です）ことで最適性能が得られることが示されています。

神経表現の次元と学習効率

最後に紹介するのは、神経表現の次元と学習効率の関係を人で調べた研究(Tang, E., et al. 2019)です。ただし、fMRIデータから次元を測定しているのでニューロンの反応性とどれだけ関係しているかは分かりません（次元の測定方法は上に述べたのと同じ方法を使っています）。

設定

12種類それぞれに「価値」が設定されている抽象的な図形が用意されており、その図形の価値を推定するというタスクです。
f:id:tripdancer0916:20191214203708p:plain:w300

ただし、価値は明示的には与えられず、以下の「学習期間」で得られる情報を元に推定する必要があります。タスクの到達度は「テスト」の正解率で測られます。

学習期間

2つの図形が同時に提示され、どちらの図形の方が価値が高いかを被験者は予想します。その後どちらの図形の方が価値が高いか（正解）がフィードバックとして与えられます。

テスト

1つの図形が提示され、それが12種類の図形のうち価値が高い方のものであるか、低い方のものであるかを判別します。ただし、正解のフィードバックは与えられません。

結果

f:id:tripdancer0916:20191214204313p:plain:w300

学習期間は4日間続きますが、1日めの時点でのテストの正解率（＝学習の「早さ」＝学習効率）と4日間の学習期間における神経表現の次元が正の相関を示すという結果が得られました。下の表は脳領野ごとに相関を測定したものです。

再現性がどうなのかとか、BOLD信号とニューロンが符号化している情報の関連はどうなっているのかなど疑問点はまだまだ多いですが、「知能の基盤としての神経表現の高次元性」を人で確認したという意味で非常に意義の大きい研究だと思います。

まとめ

以上が、ニューロンの混合選択性と神経表現の次元に関するレビューになります。

私見ですが、最近神経ダイナミクスの次元がホットな話題になっている気がします（Engel, T. A., & Steinmetz, N. A. 2019., Cayco-Gajic, N. A., & Silver, R. A. 2019, Stringer, C., st al. 2019など）まだまだ分かっていない部分が多い領域ですが、実験と理論が両方とも進んでおり目が離せなくなりそうです。