AIエンジニアの探求

計算論的神経科学で博士号取得後、AIエンジニアとして活動中。LLMの活用や脳とAIの関係などについて記事を書きます。

統合情報量の情報幾何的定義

Oizumi, M., Tsuchiya, N., & Amari, S. (2015).

A unified framework for information integration based on information geometry. 

www.pnas.org

ビッグネームが名を連ねるIIT関連論文ということで前々から読もうと思っていたのを、この間やっと読めたのでそのメモ。

情報幾何知らないと理解できないかなと思っていたけれど、恐れていたほど使われているわけではなく直感的にも理解しやすかった。

(とは言っても情報幾何はちゃんと理解した方が良さそうなので勉強中です、、、)

 

内容としては確率的に時間発展するシステムが持つ特徴を定量的に評価する種々の量(相互情報量、輸送エントロピー、stochastic interaction(日本語訳が分からない)、統合情報量Φ)を統一的に記述する枠組みを提案するもので、それによって見通しを良くすることが目標だったりする。

 

unified framework

ここで導入されている概念は「上にあげた種々の量は『"full model p(X,Y)"と"disconnected model q(X,Y)"間のKLダイバージェンスの最小値』として捉えられる」というもの。ここでXは過去の状態、Yの状態を表していて、full modelは元々の系をそのまま考えたもの、そしてdisconnected modelはそれとは別の確率分布で元の系の一部の相互作用(≒因果関係)を消したものとしている。

f:id:tripdancer0916:20180804102305p:plain

例えば相互情報量についてはXとYが独立、つまり時間的因果関係を消したものをq(X,Y)としている。他の量についても、輸送エントロピーは過去のある要素x_iと現在のある要素y_j間の因果関係を消したもの、そして統合情報量は系をいくつかの部分に分けて、その部分間の相互作用を消したものという具合にq(X,Y)を定めている。

実際、相互情報量の場合は

q(X,Y) = q(X)(Y)より、

D_{KL}(p\|q) = \int dXdYp(X,Y)log\frac{p(X,Y)}{q(X,Y)} = \int dXdYp(X,Y)log\frac{p(X,Y)}{q(X)q(Y)}

これが最小化されるのは
q(X) = p(X),q(Y)=p(Y)

の時で相互情報量の元々の定義と一致している。 

 

ちなみに統合情報量\Phi_G

系をP_1, P_2, ... ,P_Mと部分に分けて

q(Y[P_i]|X) = q(Y[P_i]|X[P_i]) (\forall i)として(系の部分同士間の相互作用を消すことに対応)、

\Phi_G = \min_q D_{KL}(p\|q)

 と定義している。

情報幾何的には、p(X,Y)が定める多様体の部分多様体としてq(X,Y)の多様体(M_D)があり、p(X,Y)を固定した状態でq(X,Y)がM_D上を動いてp(X,Y)との「距離」が最小になる値として上の量を定義することができる。

f:id:tripdancer0916:20180804104047p:plain

そしてそれによって部分多様体同士の関係性として今出てきた量同士の関係を考えることができる。

情報幾何を導入するメリット

disconnected modelを導入する時になんでわざわざ別の確率分布qを仮定したのかが疑問だった(結局最小化するときに元々の確率分布p(に制限がかかった形)に書けてしまう)けど、qの張る部分多様体を考えることに意味があるんだと解釈した。

f:id:tripdancer0916:20180804105948p:plain

それによって、例えば統合情報量(この論文中で定義された形)\Phi_G

0\leq \Phi_G \leq I(X;Y)

という関係式を満たすことが明らかになったり統合情報量の別の指標として導入された'stochastic interaction'が相互情報量を超えてしまう可能性があってこの指標として不適切だったりすることが示される。

さらに論文中に出てきた量以外にもq(X,Y)の作り方を変えることで様々なバリエーションの特徴量(意味あるとは限らないけど)を考えることができそれらの関係性も同じように議論できる。

浮かんだ疑問

  • 2014年のIIT3.0論文では統合情報量をものすごい複雑なやり方で定義しているけど、ここで定義した\Phi_G(統合情報量としての性質を最低限満たしたものと考えられる)との関係性はどうなっているんだろう?
  • IITのqualia spaceの議論とかにも情報幾何を導入することはできるのだろうか?