tripdancer’s blog

勉強したことの記録と時々妄想

ニューロンの混合選択性と高次認知

 

はじめに

この記事は 神経科学アドベントカレンダー2019の一部です。

ニューロンの刺激に対する反応性に関して、近年注目を集めている概念である混合選択性(mixed selectivity、もっといい和訳があるかもしれないです)の紹介と、その計算論的意義について解説します。

本記事は主に以下の論文を参考にしています。

それぞれの内容としては、Rigotti, M., et al. 2013が(おそらくmixed selectivityが注目されるきっかけになった)実験論文、Barak, O., et al. 2013がモデルの研究、そして Fusi, S., Miller, E. K., & Rigotti, M. 2016はレビュー論文となっています。

Tang, E., et al. 2019は直接的に混合選択性を扱っているわけではありませんが、神経表現の次元と学習能力が相関しているという研究です。


mixed selectivityとは何か


元々ニューロンの刺激に対する反応性は例えば形に反応するニューロンや色に反応するニューロンというように、それぞれ機能分化した形で情報を符号化しているという考え方が主流でした。しかし前頭前皮質のような高次領野を調べると、刺激が持つ情報の様々な側面の組み合わせに対して反応するニューロンが存在していることが分かりました。

このようなニューロンがmixed selectivity neuronsと呼ばれています。ちなみに、刺激が持つ情報のうち単一のパラメータにしか反応しないニューロンはpure selectivity neuronsと呼ばれています。

このようなニューロンが「混合」する対象は非常に広く、例えば視覚情報と聴覚情報の組み合わせに対して反応するニューロンや、(文脈に依存して求められる出力が変わるような設定において)同じ刺激でも異なる文脈に応じて全く異なる反応性を示すニューロンがいたりします。

なぜmixed selectivityが必要なのか?

mixed selectivityは神経表現が持つ次元と深く関わっていると考えられています。これを理解するために、以下のようなトイモデルを考えてみます。

ニューロンが3つあり、それぞれの発火頻度はf_1, f_2, f_3で表されるとします。外部刺激は聴覚情報( x_1)と視覚情報( x_2)があり、それぞれ0または1の値を持つとします。また刺激は4種類入力され、それぞれ (x_1, x_2)=(0, 0), (0, 1), (1, 0), (1, 1)の値を持つとします。

pure selectivity neuronのみの時

3つのニューロンの反応性が以下のように書けるとします。

  •   f_1 = x_1
  •  f_2 = x_2
  •  f_3 = 2x_2

 f_1は聴覚情報に反応し、 f_2, f_3は視覚情報に反応するニューロンですね。この時それぞれの刺激は以下のようにマップされます。
f:id:tripdancer0916:20191214184230p:plain:w300


図を見ると分かるとおり、ニューロンは3つあるため3次元空間内で符号化できるはずですが、実際には平面上に拘束されています。別の刺激を考えても必ずこの平面上にマップされます。つまり、この時神経表現の次元が2に減ってしまっているのです。線形代数におけるランク落ちと同じと考えると理解しやすいかもしれません。また重要な点として、刺激に対する反応性をどれだけ複雑にしようが、3つのニューロンがpure selectiveである限りランク落ちは避けられません。

mixed selectivity neuronが存在する時

今度は、以下のような反応性を持つと考えます。

  •   f_1 = x_1
  •  f_2 = \frac{1}{3}x_1 + x_2
  •  f_3 = x_1 x_2

この時それぞれの刺激は以下のようにマップされます。
f:id:tripdancer0916:20191214184106p:plain:w300

これを見ると3次元をフルに使えていることが分かります。ここで注意点として、混合反応性を持っていたとしてもそれが線形のみの場合(例えば f_3=x_1-x_2の時)ですとランク落ちしてしまいます。
non-linear mixed selectivityが重要というわけです。

それではなぜ高次元である必要があるのか。それは線形分離可能性と関係があります。4つの刺激を2クラスに分ける分類問題を解くと考えて、それぞれラベルが図の赤・黄で表されている(XORのような設定ですね)とすると、二次元平面に拘束されている時は線形変換によってこの問題を解くことはできないことが分かります。

実験の紹介

Rigotti, M., et al. 2013ではサルを使ってmixed selectivityの性質を調べる実験が行われています。その内容を簡単に紹介したいと思います。

設定


サルに入力刺激として、4つの画像(A,B,C,D)の中からランダムに選ばれた2つの画像を時間間隔を空けて提示します。

f:id:tripdancer0916:20191214191733p:plain

入力刺激の例

その後サルが解くべき課題は2種類あり、1つめのrecognition taskでは提示されるテスト画像が入力に現れた画像かどうかを判別します。また別のrecall taskでは入力された画像を含む3つの画像が同時に提示され、その中から入力された画像を入力された順番に目で追う必要があります。この2つのタスクは100-150試行ごとに切り替わります。

以上の設定では、「混合」される情報のパラメータの候補として、

  •  1つめに提示された画像が何であるか
  • 2つめに提示された画像が何であるか
  • タスクがrecognitionかrecallのどちらであるか

があります。

結果1: 混合選択性を持つニューロンの確認

 

f:id:tripdancer0916:20191214192803p:plain

混合選択性を持つニューロンの例

上の図はあるニューロンについて、各パラメータごとの発火頻度を記録したものです。このニューロンは「recognition taskにおいて、1つめの刺激が画像Cの時」に発火頻度が大きくなります。実験によって、このようなニューロンの存在が確認されました。

また、外界からの情報がmixed selectivity neuronによって符号化されているとすると、単一ニューロンではなくニューロン集団によって情報(例えばタスクが今どちらであるか)が保持されていることが示唆されます。

結果2: 神経表現の持つ次元

 

mixed selectivityが持つ計算論的意義として、「神経表現が高次元になる」ことを上で説明しました。そこで実際そのようになっているのかを確かめたいのですが、次元の測り方に関して問題があります。ニューロンの反応性にノイズが含まれない場合は、刺激とそれに対するニューロンの応答を並べた行列を用意してそのランクを計算すればいいのですが、ノイズが含まれる場合は(ノイズが相関でもしていない限り)基本的にフルランクになってしまいます。

しかし、ノイズによってできた「隙間」に無理矢理分離超平面を引いても、分類タスクに関して一切汎化性能という意味では貢献しないことが想像できると思います。つまり、ノイズによってフルランクになっても「本質的に」高次元になっているとは言えません。

f:id:tripdancer0916:20191214194827p:plain

そこでここでは発想の転換を行い、「2クラス分類問題を解く能力」を次元の指標として採用しています。発想としては上の図を見ていただくと理解しやすいのではないかと思います。

 

具体的にはc種類の異なる条件(例えば今回だと1つめに提示する刺激:4種類×2つめに提示する刺激:3種類×タスクの種類:2=24)に対して2つのラベルを設定します(この時設定の方法は 2^{24}通りあります)。ニューロンの発火頻度データから各ラベルの設定に対してSVMなどでクラス分類タスクを解きます。この時解けるラベル設定の数が N_cだとすると、神経表現の次元は d=\log_2 N_cであると定義します。

f:id:tripdancer0916:20191214200147p:plain

上がこの指標に基づいて次元を測定した結果です。図aは2つめの刺激が提示される前の神経活動データを使ったものなので最高でも 2\times4=8次元しかありません。また、記録されたニューロンは全部で237しかないので、ニューロンの反応性をモデル化したものでaugmentationしています。グレーのラインはpure selectivityを持つニューロンを同様にモデル化したもので測定した時の結果を表しています。

これを見ると、確かに混合選択性によって高次元な神経表現が得られていることが分かります。

分離可能性と汎化性能


「混合選択性によって高次元の神経表現が得られる」と書いてきましたが、高次元であればあるほどいいかと言われるとそうではありません。次元が大きくなると、データにノイズが乗った時に分離超平面の引き方に多様な可能性が残り、汎化性能が落ちてしまうことが考えられます。
f:id:tripdancer0916:20191214201613p:plain:w400

そこで高次元表現と次元圧縮の両立が問題になってくるわけですが、これに関しては今でも議論が続いています。

f:id:tripdancer0916:20191214202403p:plain:w300

 

また、本記事では深入りはしませんが、Barak, O., et al. 2013ではランダム結合行列の「反応しやすさ」を調整する(バイアス項を調整することで可能です)ことで最適性能が得られることが示されています。

神経表現の次元と学習効率

 

最後に紹介するのは、神経表現の次元と学習効率の関係を人で調べた研究(Tang, E., et al. 2019)です。ただし、fMRIデータから次元を測定しているのでニューロンの反応性とどれだけ関係しているかは分かりません(次元の測定方法は上に述べたのと同じ方法を使っています)。

設定

 

12種類それぞれに「価値」が設定されている抽象的な図形が用意されており、その図形の価値を推定するというタスクです。
f:id:tripdancer0916:20191214203708p:plain:w300

ただし、価値は明示的には与えられず、以下の「学習期間」で得られる情報を元に推定する必要があります。タスクの到達度は「テスト」の正解率で測られます。

 

学習期間


2つの図形が同時に提示され、どちらの図形の方が価値が高いかを被験者は予想します。その後どちらの図形の方が価値が高いか(正解)がフィードバックとして与えられます。

テスト

1つの図形が提示され、それが12種類の図形のうち価値が高い方のものであるか、低い方のものであるかを判別します。ただし、正解のフィードバックは与えられません。


結果

f:id:tripdancer0916:20191214204313p:plain:w300
f:id:tripdancer0916:20191214205316p:plain:w300
学習期間は4日間続きますが、1日めの時点でのテストの正解率(=学習の「早さ」=学習効率)と4日間の学習期間における神経表現の次元が正の相関を示すという結果が得られました。下の表は脳領野ごとに相関を測定したものです。

再現性がどうなのかとか、BOLD信号とニューロンが符号化している情報の関連はどうなっているのかなど疑問点はまだまだ多いですが、「知能の基盤としての神経表現の高次元性」を人で確認したという意味で非常に意義の大きい研究だと思います。

まとめ

 

以上が、ニューロンの混合選択性と神経表現の次元に関するレビューになります。

私見ですが、最近神経ダイナミクスの次元がホットな話題になっている気がします(Engel, T. A., & Steinmetz, N. A. 2019., Cayco-Gajic, N. A., & Silver, R. A. 2019, Stringer, C., st al. 2019など)まだまだ分かっていない部分が多い領域ですが、実験と理論が両方とも進んでおり目が離せなくなりそうです。

 

Average Controllabilityの導入の背景を理解する(計算メモ)

はじめに

Network Controllability系の論文に出てくる量の「気持ち」を理解するために、導出を追ってみました。

問題設定

離散的なlinear time invariant systemを考える。
\displaystyle x(t+1) = Ax(t)+Bu(t) \ \ \ \cdot \cdot \cdot (1)
Aはノード数nの有向グラフ \mathcal G := (\mathcal V , \mathcal E)の接続行列 A=[a_{ij}], a_{ij} \in \mathbb Rを表し、control nodes setを \mathcal K := \{k_1, ..., k_m\} \subseteq \mathcal Vとした時に B := [e_{k_1}, ..., e_{k_m}]とする。

 x(t) \in \mathbb R^nをシステムの状態、 u(t)\in \mathbb R^mを入力信号とする。

この系において状態の始状態を x(0)=0, 終状態を x_fとした時に x(T) = x_fとなるような入力列 u: \mathbb N_{\geqslant 0} \rightarrow \mathbb R^mを求めることを考える。

Controllability Gramian

そのような uが存在するための必要十分条件は次の可制御性行列
 \displaystyle C := [B, AB ,... ,A^{T-1}B ]
の階数が nであることである。

次に具体的な uを求める。(1)より、
 \displaystyle 
\begin{eqnarray}
x_f &=& A^{T-1}Bu(0) + \dotsb + A^{T-t-1}Bu(t) + \dotsb + Bu(T-1)\\ &=& C[u(T-1), \dotsb ,u(0)]^\mathsf{T} \ ... \ (2) \end{eqnarray}
 Cがランク落ちしていないためこれを満たす uは存在するが C \in \mathbb R^{n\times nm}より方程式は不定となる。

そこで \|u\|^2=\sum_{\tau=0}^{T-1}\|u(\tau)\|^2が最小となるノルム最小解 u^\astを求めることを考える。

ここで、Contrllability Gramian \mathcal Wを次のように定義する。
 \displaystyle \mathcal W := \sum_{\tau=0}^{T-1}A^{\tau}BB^{\mathsf{T}}(A^{\mathsf T})^{\tau} = CC^{\mathsf T}
天下り式になるが、射影行列 P=C^{\mathsf T} \mathcal W^{-1} Cを導入すると(2)を満たす任意の uについて u^\ast = Puになることが次のように示される。
まず、
 \displaystyle
\begin{eqnarray}
Cu^\ast &=& CPu \\ &=& CC^{\mathsf T}\mathcal W^{-1} Cu \\ &=& \mathcal W \mathcal W^{-1} Cu = x_f
\end{eqnarray}
より u^\ast は(2)を満たす。
次にノルムが最小になることについて。
P^{\mathsf T} = P
 P^2 = P
に注意して、
 \displaystyle
\begin{eqnarray}
\|u\|^2 &=& \|Pu + (I-P)u\|^2 \\
&=& \|Pu\|^2 + 2\langle Pu, (I-P)u \rangle + \|(I-P)u\|^2
\end{eqnarray}

ここで、
 \displaystyle
\begin{eqnarray}
\langle Pu, (I-P)u\rangle  &=& \langle u, P^{\mathsf T}(I-P)u \rangle \\
&=& \langle u, P(I-P)u\rangle \\
&=& \langle u,0\rangle = 0
\end{eqnarray}
より、
 \|u\|^2 = \|Pu\|^2 + \|(I-P)u\|^2 \geq \|Pu\|^2 = \|u\ast\|^2
が成立することから u\ast = Pu = C^{\mathsf T}\mathcal W^{-1} x_fはノルム最小解になる。
なお、一時刻ごとの u^\astの値は u^\ast(t) = B^{\mathsf T}(A^{\mathsf T})^{T-t-1}\mathcal W^{-1}x_fと書ける。

なお、Controllability Gramianについて、
 \displaystyle
\begin{eqnarray}
0 \leq \|u^\ast\|^2 &=& u^\ast\mathsf T u^\ast \\
&=& x_f^{\mathsf T} (\mathcal W^{-1})^{\mathsf T} CC^{\mathsf T} \mathcal W^{-1} x_f \\ 
&=& x_f^{\mathsf T}\mathcal W^{-1} x_f \ \dotsb \ (3)
\end{eqnarray}
から半正定値であることが分かるが、 \mathcal W^{-1}が正則であるため
 \forall x \neq 0, \mathcal W^{-1}x \neq 0
 \therefore x^{\mathsf T}\mathcal W^{-1} x \neq 0
より正定値。

Control Energy

 x_fを単位超球面上の点に制限した時( \|x_f\|=1)、 \|u^\ast \|^2 をControl Energyとする。
 \displaystyle E(u,T) := \|u^\ast \|^2 = \sum_{\tau=0}^{T-1} \|u^\ast (\tau) \|^2
Control Energyについて次のことが分かる。
 E(u,T) = x_f \mathcal W^{-1} x_f \geq \lambda_{max}(\mathcal W^{-1}) = \lambda_{min}^{-1}(\mathcal W)
なお、一つ目の等式は(3)に基づき、2つめの不等式は \mathcal W^{-1} の直交変換を行えば成り立つことが分かる。
これよりControllability Gramianの最小固有値はnetwork controllabilityの指標として採用されることがあり、そこでは「最もエネルギーが必要な終状態(=最も悪いケース)を実現するために必要になるエネルギー」という考え方に基づいて定義されている。

Average Energy, Average Controllability

一方、 x_fに到達させるために必要なエネルギーの平均をnetwork controllabilityの指標として採用する場合も考えられる。この時は \|x_f\|=1という条件下での E(u, T)の期待値を考え、これをAverage Energyと呼ぶ。
 \displaystyle \int_{ \|x\|=1}x_i x_j dx = \frac{1}{n}\delta_{ij}に注意して、
 \displaystyle
\begin{eqnarray}
\int_{\|x\|=1} x^{\mathsf T} \mathcal W^{-1} x dx &=& \sum_i \int_{\|x\|=1} x_i \sum_j \mathcal W^{-1}_{ij}x_j dx \\
&=& \sum_{ij} \mathcal W^{-1}_{ij} \int_{\|x\|=1}x_i x_j dx \\
&=& \frac{1}{n} \mathrm{Tr}(\mathcal W^{-1})
\end{eqnarray}
より、Average ControllabilityはControllability Gramianの逆行列のトレースとなる。

ただし、 \mathrm{Tr}(\mathcal W^{-1})は計算が安定しなく、また以下の不等式により \mathrm{Tr}(\mathcal W)によって下から押さえられるため、Danielle S. Bassettらは \mathrm{Tr}(\mathcal W)をAverage Controllabilityとしてnetwork controllabilityの指標(の一つ)にしている。
 \mathrm{Tr}(\mathcal W) = \sum_{i=1}^{n} \lambda_i \leq n\lambda_{max}より、
 \displaystyle 
\begin{eqnarray}
\mathrm{Tr}(\mathcal W^{-1}) &=&  \sum_{i=1}^n \frac{1}{\lambda_i} = \frac{1}{\lambda_{min}} + \ \dotsb \  +  \frac{1}{\lambda_{max}} \\
&\geq & \frac{n}{\lambda_{max}} \geq \frac{n^2}{  \mathrm{Tr}(\mathcal W)}
\end{eqnarray}

論文メモ

The Rediscovery of Slowness: Exploring the Timing of Cognition.

www.ncbi.nlm.nih.gov

安静時の脳活動をwhole-brain computational modelの助けも借りて解析すると特徴的な「遅い」時間スケールでの活動が見られた。これは力学系におけるmetastabilityもしくはmultistabilityに対応しており、この時間スケールで最適な情報処理が行えると考えられる。

f:id:tripdancer0916:20190331210217p:plain

実際計測データに基づいて作成したモデルに入力刺激を入れた時のtemporal binding(=the entropy of all nodes across time; 情報量の大きさ)を計算すると、安静時脳活動で見られた時間スケールを持つ入力でこのbindingが最大という結果を得た。

f:id:tripdancer0916:20190331210234p:plain

脳は生存のために刺激に対する「早い」応答と思考する際の「遅い」処理を両方ともこなす必要があり、その機能を進化させてきたはずと筆者らは仮定している。

この認知プロセスにおける時間スケールの考察を最後は禅の話まで拡張していて面白い。

Nonetheless, by learning to optimally balance fast and slow processes in the maximally metastable brain, we may be able to extend the ‘now’ into the ‘long now’. This balancing act could potentially be extended to a Zen-like perspective of observing infinite gratitude for the past, infinite service to the present, and infinite responsibility for the future.

Rethinking segregation and integration: Contributions of whole-brain modelling.

doi.org

 

脳は生み出せる情報量の大きさとその統合性のバランスを取ることが正しく機能する上で大切な条件であるとして、その指標をin vivoのデータに基づくモデルによるシミュレーションで求めることを提案。

f:id:tripdancer0916:20190331204712p:plain

segregationとintegrationのバランスを見る指標としては、既にいくつか提案されている(neural complexityやΦなど)が筆者らもtemporal-bindingという指標を新たに提案していて、従来の観測データのみに基づく指標よりもawake-sleepの違いを鮮明に浮き出させることに成功している。

f:id:tripdancer0916:20190331204731p:plain