2.13 ガウス分布のKLダイバージェンス

KLダイバージェンス(相対エントロピー)は、

\(
\begin{eqnarray}
KL(p\parallel q) = -\int p({\bf x})\ln\left\{\frac{q({\bf x})}{p({\bf x})}\right\}d\bf x
\end{eqnarray}
\)

であるので、\(p({\bf x})={\mathcal N}({\bf x}|{\bf μ},{\bf \Sigma})\) と \(q({\bf x})={\mathcal N}({\bf x}|{\bf m},{\bf L})\) を代入すれば求められそうであるが、これがなかなか一筋縄ではいかない。

まずは、\(\frac{q({\bf x})}{p({\bf x})}\) を整理してみる。

\(
\begin{eqnarray}
\frac{q({\bf x})}{p({\bf x})} &=& \frac{{\mathcal N}({\bf x}|{\bf m},{\bf L})}
{{\mathcal N}({\bf x}|{\bf μ},{\bf \Sigma})} \\
&=&
\frac{\frac{1}{(2\pi)^{D/2}}\frac{1}{|{\bf L}|^{1/2}}\exp\left\{-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})\right\}}
{\frac{1}{(2\pi)^{D/2}}\frac{1}{|{\bf \Sigma}|^{1/2}}\exp\left\{-\frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})\right\}} \\
&=& \frac{1}{(2\pi)^{D/2}}\frac{1}{|{\bf L}|^{1/2}} \times (2\pi)^{D/2}|{\bf \Sigma}|^{1/2} \times
\exp\left\{-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})+ \frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})\right\} \\
&=& \left(\frac{|{\bf \Sigma}|}{|{\bf L}|}\right)^{1/2}\exp\left\{-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})+ \frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})\right\} \\
\end{eqnarray}
\)

上記の結果を使って、\(\ln\left\{\frac{q({\bf x})}{p({\bf x})}\right\}\)を整理する。
\(\ln AB = \ln A + \ln B\) であり、また、\(\ln(\exp A) = A\) であることを使うと、

\(
\begin{eqnarray}
\ln \left\{\frac{q({\bf x})}{p({\bf x})}\right\} &=& \ln \left\{\left(\frac{|{\bf \Sigma}|}{|{\bf L}|}\right)^{1/2}\exp\left\{-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})+ \frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})\right\}\right\} \\
&=& \frac{1}{2}\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})+ \frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})
\end{eqnarray}
\)

\(-\int p({\bf x})\ln\left\{\frac{q({\bf x})}{p({\bf x})}\right\}d\bf x\) の式に当てはめると、

\(
\begin{eqnarray}
&&-\int p({\bf x})\ln\left\{\frac{q({\bf x})}{p({\bf x})}\right\}d\bf x \\
&=& -\int p({\bf x})\left\{\frac{1}{2}\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})+ \frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})\right\}d\bf x \\
&=& -\int p({\bf x})\frac{1}{2}\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}d{\bf x}+\int p({\bf x})\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x}-\int p({\bf x})\frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})d\bf x \\
&=& -\frac{1}{2}\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}\int p({\bf x})d{\bf x}+\frac{1}{2}\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x}-\frac{1}{2}\int p({\bf x})({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})d\bf x \\
&=& \frac{1}{2}\left\{-\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}\int p({\bf x})d{\bf x}+\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x}-\int p({\bf x})({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})d\bf x\right\} \\
\end{eqnarray}
\)

それぞれの項に注目すると、まず第一項は \(\int p({\bf x})d{\bf x} = 1\) なので、

\(
\begin{eqnarray}
-\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}\int p({\bf x})d{\bf x} = -\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}
\end{eqnarray}
\)

第二項は、

\(
\begin{eqnarray}
\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x} &=& \mathbb{E}_p[({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})]
\end{eqnarray}
\)

となるが、ここで \(\color{red}{({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})=tr\left\{{\bf L}^{-1}({\bf x}-{\bf m})({\bf x}-{\bf m})^T\right\}}\) である。
これを使うのがこの問題の肝。
この変形については、「補講 二次形式の変形」を参照。

\(
\begin{eqnarray}
&&\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x} \\
&=& \mathbb{E}_p\left[tr\left\{{\bf L}^{-1}({\bf x}-{\bf m})({\bf x}-{\bf m})^T\right\}\right] \\
&=& tr\left\{{\bf L}^{-1}\mathbb{E}_p[({\bf x}-{\bf m})({\bf x}-{\bf m})^T]\right\} \\
&=& tr\left\{
{\bf L}^{-1}\mathbb{E}_p[
{\bf xx}^T-{\bf xm}^T-{\bf mx}^T+{\bf mm}^T
]
\right\} \\
&=&
tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xx}^T]\right)-tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xm}^T]\right)-tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf mx}^T]\right)+tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf mm}^T]\right) \\
\end{eqnarray}
\)

ところで、\(tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xm}^T]\right)=tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf mx}^T]\right)\)であるので、

\(
\begin{eqnarray}
&&\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x} \\
&=& tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xx}^T]\right)-2tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xm}^T]\right)+tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf mm}^T]\right) \\
\end{eqnarray}
\)

ここで、\(\mathbb{E}_p[{\bf xm}^T]=\mathbb{E}_p[{\bf x}]{\bf m}^T={\bf μm}^T\) であり、\(\mathbb{E}_p[{\bf mm}^T]={\bf mm}^T\)にすぎない。
なぜなら、期待値にとって\(\bf x\)以外ははただの定数であり、何の影響も与えないので。

\(
\begin{eqnarray}
&&\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x} \\
&=& tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xx}^T]\right)-2tr\left({\bf L}^{-1}{\bf μm}^T\right)+tr\left({\bf L}^{-1}{\bf mm}^T\right) \\
\end{eqnarray}
\)

ここでさらに、\({\bf \Sigma}=\mathbb{E}_p[({\bf x}-{\bf μ})({\bf x}-{\bf μ})^T]=\mathbb{E}_p[{\bf x}{\bf x}^T]-{\bf μμ}^T\) であるので、\(\color{red}{\mathbb{E}_p[{\bf x}{\bf x}^T]={\bf \Sigma}+{\bf μμ}^T}\) となる。
これを使うのがこの問題の2つ目の肝。

\(
\begin{eqnarray}
\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x}
&=& tr\left\{{\bf L}^{-1}({\bf \Sigma}+{\bf μμ}^T)\right\}-2tr\left({\bf L}^{-1}{\bf μm}^T\right)+tr\left({\bf L}^{-1}{\bf mm}^T\right) \\
&=& tr\left\{{\bf L}^{-1}({\bf \Sigma}+{\bf μμ}^T-2{\bf μm}^T+{\bf mm}^T)\right\} \\
&=& tr\left\{{\bf L}^{-1}\left\{{\bf \Sigma}+({\bf μ}-{\bf m})({\bf μ}-{\bf m})^T\right\}\right\} \\
&=& tr\left({\bf L}^{-1}{\bf \Sigma}\right)+tr\left\{{\bf L}^{-1}({\bf μ}-{\bf m})({\bf μ}-{\bf m})^T\right\} \\
\end{eqnarray}
\)

再度、\(\color{red}{({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})=tr\left\{{\bf L}^{-1}({\bf x}-{\bf m})({\bf x}-{\bf m})^T\right\}}\) を使うと、

\(
\begin{eqnarray}
\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x}
&=& tr\left({\bf L}^{-1}{\bf \Sigma}\right)+({\bf μ}-{\bf m})^T{\bf L}^{-1}({\bf μ}-{\bf m}) \\
\end{eqnarray}
\)

続いて第3項。

\(
\begin{eqnarray}
\int p({\bf x})({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})d{\bf x} &=&
\mathbb{E}_p[({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})] \\
&=& \mathbb{E}_p[tr\left\{
{\bf \Sigma}^{-1}({\bf x}-{\bf μ})({\bf x}-{\bf μ})^T
\right\}] \\
&=& tr\left\{{\bf \Sigma}^{-1}\mathbb{E}_p[({\bf x}-{\bf μ})({\bf x}-{\bf μ})^T]\right\}
\end{eqnarray}
\)

\({\bf \Sigma}=\mathbb{E}_p[({\bf x}-{\bf μ})({\bf x}-{\bf μ})^T]\) なので、

\(
\begin{eqnarray}
\int p({\bf x})({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})d{\bf x}
&=& tr({\bf \Sigma}^{-1}{\bf \Sigma})
&=& tr(I)
&=& d
\end{eqnarray}
\)

ただし、d はガウス分布の次元である。
したがって、

\(
\begin{eqnarray}
KL(p\parallel q) &=& -\int p({\bf x})\ln\left\{\frac{q({\bf x})}{p({\bf x})}\right\}d\bf x \\
&=& \frac{1}{2}\left\{
-\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}
+tr\left({\bf L}^{-1}{\bf \Sigma}\right)+({\bf μ}-{\bf m})^T{\bf L}^{-1}({\bf μ}-{\bf m})
-d
\right\}
\end{eqnarray}
\)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です