『入門 情報幾何―統計的モデルをひもとく微分幾何学―』の復習メモ。
\(M\) を多様体、\(\nabla\) を \(M\) の affine 接続とし、\((U,\varphi)\) を \(M\) の座標近傍とする。\(\varphi\) に関する \(\nabla\) の Christoffel 記号がすべて 0 となるとき、\((U,\varphi)\) を affine 座標近傍、\(\varphi\) を affine 局所座標系という。
\(M\) を多様体、\(\nabla\) を \(M\) の affine 接続とする。\(\nabla\) が平坦であることと、\(M\) の任意の点 \(p\) に対して、\(p \in U\) となる \(M\) の affine 座標近傍 \((U,\varphi)\) が存在することは同値である。
平坦な affine 接続の affine 座標近傍の座標変換は affine 変換である。
\((M, g, \nabla, \nabla^*)\) を \(n\) 次元双対平坦空間とする。このとき、任意の \(p \in M\) に対して、\(p \in U\) となる、\(\nabla\) に関する affine 座標近傍 \((U,\theta)\) および \(\nabla^*\) に関する affine 座標近傍 \((U,\eta)\) が存在して、
$$g\left(\frac{\partial}{\partial\theta_i}, \frac{\partial}{\partial\eta_j} \right)=\delta_{ij}$$
が成り立つ。このような座標近傍を取ったとき、\(\eta\) を \(\theta\) の、あるいは、\(\theta \) を \(\eta \) の双対 affine 局所座標系といい、\(\theta \) と \(\eta \) は \(g\) に関して互いに双対的であるという。
さらにこのとき、
$$
g_{ij} = g\left(\frac{\partial}{\partial\theta_i}, \frac{\partial}{\partial\theta_j} \right), \;
g^{ij} = g\left(\frac{\partial}{\partial\eta_i}, \frac{\partial}{\partial\eta_j} \right)
$$
とおくと、
$$
g_{ij} = \frac{\partial\eta_j }{\partial\theta_i} = \frac{\partial\eta_i }{\partial\theta_j}, \;
g^{ij} = \frac{\partial\theta_j }{\partial\eta_i} = \frac{\partial\theta_i }{\partial\eta_j}
$$
であり、\((g_{ij})\) と \((g^{ij})\) は各点で互いに逆行列である。
さらに、必要ならば \(\theta \) と \(\eta \) の定義域を選び直すことにより、ある関数 \(\psi\), \(\varphi\) が存在して、
$$
g_{ij} = \frac{\partial^2 \psi}{\partial\theta_i \partial\theta_j}, \;
g^{ij} = \frac{\partial^2 \varphi}{\partial\eta_i \partial\eta_j}, \\
\theta_i = \frac{\partial\varphi}{\partial\eta_i}, \;
\eta_i = \frac{\partial\psi}{\partial\theta_i}, \;
\psi + \varphi = \sum_{1 \le i \le n} \theta_i \eta_i
$$
となる。
この \(\psi\) および \(\varphi\) は凸関数で、\(\theta \) と \(\eta \) の間の座標変換を Legendre 変換といい、\(\psi\), \(\varphi\) をそのポテンシャルという。
\(U\) をポテンシャルの定義域とし、\(p,q\in U\) とすると、
$$ D(p||q) = \psi(p) + \varphi(q) – \sum_{1 \le i \le n} \theta_i(p) \eta_i(q)$$
は \(\theta \), \(\eta \), \(\psi\), \(\varphi\) の選び方に依らないことが分かり、この関数 \(D\colon U\times U\to\mathbf{R}\) をダイバージェンスという。
また、
$$
\begin{align}
\varphi(q) &= \max\left\{
\sum_{1 \le i \le n} \theta_i(p) \eta_i(q) – \psi(p) \mid p \in U
\right\},\\
\psi(p) &= \max\left\{
\sum_{1 \le i \le n} \theta_i(p) \eta_i(q) – \varphi(q) \mid q \in U
\right\}
\end{align}
$$
が成り立つ。よって \( D(p||q) \ge 0 \) で、\( D(p||q) = 0 \iff p=q\) である。
\((M, g, \nabla^*, \nabla)\) のダイバージェンスを \(D^*\) とすると、\( D(p||q) = D^*(q||p) \) が成り立つ。
ダイバージェンスに対しては以下の Pythagoras の定理が成り立つ。\(p,q,r \in U\) とし、\(\gamma_1\) を \(p\) と \(q\) を結ぶ \(\nabla\) に関する測地線、\(\gamma_2\) を \(q\) と \(r\) を結ぶ \(\nabla^*\) に関する測地線とする。\(\gamma_1\) と \(\gamma_2\) が \(q\) において \(g\) に関して直交するならば、等式
$$ D(p||r) = D(p||q) + D(q||r) $$
が成り立つ。
指数型分布族のダイバージェンスを計算すると、Kulback–Leibler ダイバージェンスとなる。\(S\) を指数型分布族とする。
$$S = \{p(\cdot; \boldsymbol{\theta} \mid \boldsymbol{\theta} \in \Theta)\},\\
p(x; \boldsymbol{\theta}) = C(x) + \sum_{1\le i\le n} \theta_i F_i(x) – \psi( \boldsymbol{\theta} )$$
と表すことができる。\(g\) を Fisher 計量とする。自然座標系 \(\boldsymbol{\theta}\) は e-接続 \(\nabla^{(1)}\) に関する affine 局所座標系である。
$$\eta_i = \mathbf{E}_{ \boldsymbol{\theta} }[F_i], \;
\boldsymbol{\eta} = (\eta_1, \ldots, \eta_n)$$
とおくと、\( \boldsymbol{\theta} \), \( \boldsymbol{\eta} \) は \(g\) に関して互いに双対的な affine 局所座標系となり、\( \boldsymbol{\eta} \) を期待値座標系という。\( \boldsymbol{\eta} \) は m-接続 \(\nabla^{(-1)}\) に関する affine 局所座標系となる。
Legendre 変換のポテンシャルとして、\(\psi\) は上と全く同じものをとることができて、
$$\varphi = \mathbf{E}_{ \boldsymbol{\theta} }[\log p – C]$$
となる。
\(p,q\in S\) とすると、ダイバージェンスは
$$ D(p||q) = \int_\Omega q \log \frac{q}{p} d\mu $$
となる(KLダイバージェンスの順序を逆にしたもの)。
コメント