情報幾何にちょっと興味がわいたので、前読んだ『岩波データサイエンス Vol.3』に情報幾何が載ってあったことを思い出して、読み返している。
とりあえず何も理解していないが、\(n\) 次正定値対称行列 \(P\) のポテンシャルと双対ポテンシャルを、
$$\psi(P) := {}-\log \det P$$
$$\psi^*(P) := {}-\log \det P^{-1}$$
と定義し、 2つの \(n\) 次正定値対称行列 \(P_1\), \(P_2\) のダイバージェンスを
$$D(P_1, P_2) := \psi(P_1) + \psi^*(P_2) + {\mathrm{tr}(P_1 P_2^{-1})} – n$$
と定義する。するとこれは、\(P_1\), \(P_2\) を分散共分散行列とする、平均 \(0\) の \(n\) 次元ガウス分布 \(p_1(x)\), \(p_2(x)\) の Kullback–Leibler 情報量の2倍になるのだという。
\(n=1\) の場合に確かめてみると、\(P_i = (\sigma_i^2) \; (i=1,2)\) として、ダイバージェンスは
$$D(P_1, P_2) = -\log \sigma_1^2 + \log \sigma_2^2 + \frac{\sigma_1^2}{\sigma_2^2} – 1$$
となる。一方、
$$p_i(x) = \frac{1}{\sqrt{2\pi\sigma_i^2\,}}\exp\left(-\frac{x^2}{2\sigma_i^2}\right)$$
より、KL情報量の2倍
$$2\int_{-\infty}^{\infty}p_1(x) \log \frac{p_1(x)}{p_2(x)} dx$$
を計算すると、確かに上記の \(D(P_1, P_2)\) と一致する。
情報幾何入門には『入門 情報幾何』とかいいんだろうか?(なぜか欲しいものリストに入っていた)
数式の表示がきもいな。もうちょっときれいに書けないのか?
しばらく数学やってないなー。
コメント