情報幾何に入門した (2): チェンツォフの定理

入門 情報幾何―統計的モデルをひもとく微分幾何学―』の復習メモ。

記号

$$
\begin{align}
\Omega_n &= \{ 0, 1, \ldots, n \} \\
\Xi_n &= \{ (\xi_1, \ldots, \xi_n) \mid \xi_1, \ldots, \xi_n > 0, \, \sum_{1 \le i \le n} \xi_i < 1 \} \\
\overline{\Xi}_n &= \text{the closure of } \, \Xi_n \\
S_n &= \{p(\cdot;\boldsymbol{\xi}) \mid \boldsymbol{\xi} \in \Xi_n \} \\
\overline{S}_n &= \{p(\cdot;\boldsymbol{\xi}) \mid \boldsymbol{\xi} \in \overline{\Xi}_n \} \\
p(0;\boldsymbol{\xi}) &= 1 – \sum_{1 \le j \le n} \xi_j \\
p(i;\boldsymbol{\xi}) &= \xi_i \quad (i \ge 1)
\end{align}
$$

写像 \( \Phi \colon \overline{\Xi}_m \to \overline{\Xi}_n \) が はめ込みとは、はめ込み \( \Phi \colon \mathbf{R}^m \to \mathbf{R}^n \) であって \( \Phi(\overline{\Xi}_m) \subset \overline{\Xi}_n \) なるものの制限として得られるようなもの。

全射 \( F \colon \Omega_n \to \Omega_m \) が \( \Phi ( \overline{S}_m ) \) に関する十分統計量とは、\( p(i;\Phi(\boldsymbol{\xi})) > 0 \) なる \( i \in \Omega_n \) に対して、

$$
r(i; \Phi(\boldsymbol{\xi}) ) = \frac{ p(i; \Phi(\boldsymbol{\xi}) ) }{ q(F(i); \Phi(\boldsymbol{\xi}) ) }
$$

が \(\boldsymbol{\xi}\) に依存しないときをいう。ただし、

$$
q(j; \Phi(\boldsymbol{\xi}) ) = \sum_{i \in F^{-1}(\{j\})} p(i; \Phi(\boldsymbol{\xi}) ) .
$$

※\(\{p(\cdot; \Phi(\boldsymbol{\xi}) ) \mid \boldsymbol{\xi} \in \overline{\Xi}_m \} \) は \(\Omega_n\) 上の、\(\{q(\cdot; \Phi(\boldsymbol{\xi}) ) \mid \boldsymbol{\xi} \in \overline{\Xi}_m \} \) は \(\Omega_m\) 上の \(m\) 次元統計的モデル。

このような \(F\) が存在するとき、\(\Phi \colon \overline{\Xi}_m \to \overline{\Xi}_n \) を Markov はめ込みという。

境界上での接ベクトルを良い感じに定義して、\( \overline{\Xi}_n \) の上の(\(C^{\infty}\) 級)\((0,2)\) 型テンソル場を定義できる。

定理:各正の整数 \(n\) に対して、 \( \overline{\Xi}_n \) 上の \((0,2)\) 型テンソル場 \(g_n\) が与えられているとする。このとき、
本の例の形の任意の Markov はめ込み \( \Phi \colon \overline{\Xi}_m \to \overline{\Xi}_n \) に対して引き戻し \(\Phi^*g_n = g_m\)
\(\iff\) ある \(C \in \mathbf{R}\) が存在して

$$
(g_n)_{ij}(\boldsymbol{\xi}) := (g_n)_{ \boldsymbol{\xi} } (\boldsymbol{e}_i, \boldsymbol{e}_j)
= C\left(\frac{\delta_{ij}}{\xi_i} + \frac{1}{1-\sum_{1\le k\le n}\xi_k}\right).
$$

ここでちょっと計算すると、\(C=1\) のとき

$$ (g_n)_{ij}(\boldsymbol{\xi}) = \sum_{x\in\Omega_n}
\left(\frac{\partial}{\partial\xi_i}\log p(k;\boldsymbol{\xi})\right)
\left(\frac{\partial}{\partial\xi_j}\log p(k;\boldsymbol{\xi})\right)
p(k;\boldsymbol{\xi}) $$

となる。これは Fisher 情報行列。

定理:各正の整数 \(n\) に対して、 \( \overline{\Xi}_n \) 上の \((0,3)\) 型テンソル場 \(T_n\) が与えられているとする。このとき、
本の例の形の任意の Markov はめ込み \( \Phi \colon \overline{\Xi}_m \to \overline{\Xi}_n \) に対して \(\Phi^*T_n = T_m\)
\(\iff\) ある \(C \in \mathbf{R}\) が存在して

$$
(T_n)_{ijk}(\boldsymbol{\xi}) := (T_n)_{ \boldsymbol{\xi} } (\boldsymbol{e}_i, \boldsymbol{e}_j, \boldsymbol{e}_k)
= C\left(\frac{\delta_{ij} \delta_{jk} }{\xi_i^2} + \frac{1}{\left(1-\sum_{1\le l\le n}\xi_l\right)^2}\right).
$$

Fisher 計量の単調性について。\(\Omega\) を \(\mathbf{R}\) の空でない高々可算な部分集合とし、\(\Omega\) 上の \(n\) 次元統計的モデル \(S = \{ p(\cdot;\boldsymbol{\xi})\mid \boldsymbol{\xi} \in \Xi \}\) を考える(\(\Xi\) は \(\mathbf{R}^n\) の空でない開集合)。さらに、\(\Omega’\) を \(\mathbf{R}\) の空でない高々可算な部分集合とし、\(F\colon\Omega \to \Omega’\) を全射とする。このとき、

$$
q(y; \boldsymbol{\xi}) = \sum_{x \in F^{-1}(\{y\})} p(x; \boldsymbol{\xi})
$$

とおくと、\(\Omega’\) 上の \(n\) 次元統計的モデル \(S_F = \{ q(\cdot;\boldsymbol{\xi})\mid \boldsymbol{\xi} \in \Xi \}\) が定まる。

$$
r(x; \boldsymbol{\xi}) = \frac{ p(x; \boldsymbol{\xi})}{q(F(x); \boldsymbol{\xi})}
$$

とおく。\(F\) が \(S\) に関する十分統計量とは、これが \( \boldsymbol{\xi} \) に依存しないことをいう。\(S\), \(S_F\) の Fisher 情報行列をそれぞれ \((g_{ij}( \boldsymbol{\xi} ))\), \((g^F_{ij}( \boldsymbol{\xi} ))\) とすると、以下の定理が成り立つ:

$$
\Delta g_{ij}( \boldsymbol{\xi} ) := g_{ij}( \boldsymbol{\xi} ) – g^F_{ij}( \boldsymbol{\xi} ) = \sum_{x\in\Omega}
\left(\frac{\partial}{\partial\xi_i}\log r(x;\boldsymbol{\xi})\right)
\left(\frac{\partial}{\partial\xi_j}\log r(x;\boldsymbol{\xi})\right)
p(x;\boldsymbol{\xi}) .
$$

特に、\( (\Delta g_{ij}( \boldsymbol{\xi} ) )\) は半正定値で、これが任意の \( \boldsymbol{\xi} \) で \(O\) \(\iff\) \(F\) が \(S\) に関する十分統計量。

なお、\(\Omega=\mathbf{R}\) のときも、和を積分に変えるとか、Radon–Nikodym 微分を使うとかしていい感じに書き換えれば、Fisher 計量の単調性と不変性について同様の定理が成り立つ。

コメント

タイトルとURLをコピーしました