2.13 ガウス分布のKLダイバージェンス

KLダイバージェンス(相対エントロピー)は、

\(
\begin{eqnarray}
KL(p\parallel q) = -\int p({\bf x})\ln\left\{\frac{q({\bf x})}{p({\bf x})}\right\}d\bf x
\end{eqnarray}
\)

であるので、\(p({\bf x})={\mathcal N}({\bf x}|{\bf μ},{\bf \Sigma})\) と \(q({\bf x})={\mathcal N}({\bf x}|{\bf m},{\bf L})\) を代入すれば求められそうであるが、これがなかなか一筋縄ではいかない。

まずは、\(\frac{q({\bf x})}{p({\bf x})}\) を整理してみる。

\(
\begin{eqnarray}
\frac{q({\bf x})}{p({\bf x})} &=& \frac{{\mathcal N}({\bf x}|{\bf m},{\bf L})}
{{\mathcal N}({\bf x}|{\bf μ},{\bf \Sigma})} \\
&=&
\frac{\frac{1}{(2\pi)^{D/2}}\frac{1}{|{\bf L}|^{1/2}}\exp\left\{-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})\right\}}
{\frac{1}{(2\pi)^{D/2}}\frac{1}{|{\bf \Sigma}|^{1/2}}\exp\left\{-\frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})\right\}} \\
&=& \frac{1}{(2\pi)^{D/2}}\frac{1}{|{\bf L}|^{1/2}} \times (2\pi)^{D/2}|{\bf \Sigma}|^{1/2} \times
\exp\left\{-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})+ \frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})\right\} \\
&=& \left(\frac{|{\bf \Sigma}|}{|{\bf L}|}\right)^{1/2}\exp\left\{-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})+ \frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})\right\} \\
\end{eqnarray}
\)

上記の結果を使って、\(\ln\left\{\frac{q({\bf x})}{p({\bf x})}\right\}\)を整理する。
\(\ln AB = \ln A + \ln B\) であり、また、\(\ln(\exp A) = A\) であることを使うと、

\(
\begin{eqnarray}
\ln \left\{\frac{q({\bf x})}{p({\bf x})}\right\} &=& \ln \left\{\left(\frac{|{\bf \Sigma}|}{|{\bf L}|}\right)^{1/2}\exp\left\{-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})+ \frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})\right\}\right\} \\
&=& \frac{1}{2}\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})+ \frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})
\end{eqnarray}
\)

\(-\int p({\bf x})\ln\left\{\frac{q({\bf x})}{p({\bf x})}\right\}d\bf x\) の式に当てはめると、

\(
\begin{eqnarray}
&&-\int p({\bf x})\ln\left\{\frac{q({\bf x})}{p({\bf x})}\right\}d\bf x \\
&=& -\int p({\bf x})\left\{\frac{1}{2}\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}-\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})+ \frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})\right\}d\bf x \\
&=& -\int p({\bf x})\frac{1}{2}\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}d{\bf x}+\int p({\bf x})\frac{1}{2}({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x}-\int p({\bf x})\frac{1}{2}({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})d\bf x \\
&=& -\frac{1}{2}\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}\int p({\bf x})d{\bf x}+\frac{1}{2}\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x}-\frac{1}{2}\int p({\bf x})({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})d\bf x \\
&=& \frac{1}{2}\left\{-\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}\int p({\bf x})d{\bf x}+\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x}-\int p({\bf x})({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})d\bf x\right\} \\
\end{eqnarray}
\)

それぞれの項に注目すると、まず第一項は \(\int p({\bf x})d{\bf x} = 1\) なので、

\(
\begin{eqnarray}
-\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}\int p({\bf x})d{\bf x} = -\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}
\end{eqnarray}
\)

第二項は、

\(
\begin{eqnarray}
\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x} &=& \mathbb{E}_p[({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})]
\end{eqnarray}
\)

となるが、ここで \(\color{red}{({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})=tr\left\{{\bf L}^{-1}({\bf x}-{\bf m})({\bf x}-{\bf m})^T\right\}}\) である。
これを使うのがこの問題の肝。
この変形については、「補講 二次形式の変形」を参照。

\(
\begin{eqnarray}
&&\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x} \\
&=& \mathbb{E}_p\left[tr\left\{{\bf L}^{-1}({\bf x}-{\bf m})({\bf x}-{\bf m})^T\right\}\right] \\
&=& tr\left\{{\bf L}^{-1}\mathbb{E}_p[({\bf x}-{\bf m})({\bf x}-{\bf m})^T]\right\} \\
&=& tr\left\{
{\bf L}^{-1}\mathbb{E}_p[
{\bf xx}^T-{\bf xm}^T-{\bf mx}^T+{\bf mm}^T
]
\right\} \\
&=&
tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xx}^T]\right)-tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xm}^T]\right)-tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf mx}^T]\right)+tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf mm}^T]\right) \\
\end{eqnarray}
\)

ところで、\(tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xm}^T]\right)=tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf mx}^T]\right)\)であるので、

\(
\begin{eqnarray}
&&\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x} \\
&=& tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xx}^T]\right)-2tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xm}^T]\right)+tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf mm}^T]\right) \\
\end{eqnarray}
\)

ここで、\(\mathbb{E}_p[{\bf xm}^T]=\mathbb{E}_p[{\bf x}]{\bf m}^T={\bf μm}^T\) であり、\(\mathbb{E}_p[{\bf mm}^T]={\bf mm}^T\)にすぎない。
なぜなら、期待値にとって\(\bf x\)以外ははただの定数であり、何の影響も与えないので。

\(
\begin{eqnarray}
&&\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x} \\
&=& tr\left({\bf L}^{-1}\mathbb{E}_p[{\bf xx}^T]\right)-2tr\left({\bf L}^{-1}{\bf μm}^T\right)+tr\left({\bf L}^{-1}{\bf mm}^T\right) \\
\end{eqnarray}
\)

ここでさらに、\({\bf \Sigma}=\mathbb{E}_p[({\bf x}-{\bf μ})({\bf x}-{\bf μ})^T]=\mathbb{E}_p[{\bf x}{\bf x}^T]-{\bf μμ}^T\) であるので、\(\color{red}{\mathbb{E}_p[{\bf x}{\bf x}^T]={\bf \Sigma}+{\bf μμ}^T}\) となる。
これを使うのがこの問題の2つ目の肝。

\(
\begin{eqnarray}
\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x}
&=& tr\left\{{\bf L}^{-1}({\bf \Sigma}+{\bf μμ}^T)\right\}-2tr\left({\bf L}^{-1}{\bf μm}^T\right)+tr\left({\bf L}^{-1}{\bf mm}^T\right) \\
&=& tr\left\{{\bf L}^{-1}({\bf \Sigma}+{\bf μμ}^T-2{\bf μm}^T+{\bf mm}^T)\right\} \\
&=& tr\left\{{\bf L}^{-1}\left\{{\bf \Sigma}+({\bf μ}-{\bf m})({\bf μ}-{\bf m})^T\right\}\right\} \\
&=& tr\left({\bf L}^{-1}{\bf \Sigma}\right)+tr\left\{{\bf L}^{-1}({\bf μ}-{\bf m})({\bf μ}-{\bf m})^T\right\} \\
\end{eqnarray}
\)

再度、\(\color{red}{({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})=tr\left\{{\bf L}^{-1}({\bf x}-{\bf m})({\bf x}-{\bf m})^T\right\}}\) を使うと、

\(
\begin{eqnarray}
\int p({\bf x})({\bf x}-{\bf m})^T{\bf L}^{-1}({\bf x}-{\bf m})d{\bf x}
&=& tr\left({\bf L}^{-1}{\bf \Sigma}\right)+({\bf μ}-{\bf m})^T{\bf L}^{-1}({\bf μ}-{\bf m}) \\
\end{eqnarray}
\)

続いて第3項。

\(
\begin{eqnarray}
\int p({\bf x})({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})d{\bf x} &=&
\mathbb{E}_p[({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})] \\
&=& \mathbb{E}_p[tr\left\{
{\bf \Sigma}^{-1}({\bf x}-{\bf μ})({\bf x}-{\bf μ})^T
\right\}] \\
&=& tr\left\{{\bf \Sigma}^{-1}\mathbb{E}_p[({\bf x}-{\bf μ})({\bf x}-{\bf μ})^T]\right\}
\end{eqnarray}
\)

\({\bf \Sigma}=\mathbb{E}_p[({\bf x}-{\bf μ})({\bf x}-{\bf μ})^T]\) なので、

\(
\begin{eqnarray}
\int p({\bf x})({\bf x}-{\bf μ})^T{\bf \Sigma}^{-1}({\bf x}-{\bf μ})d{\bf x}
&=& tr({\bf \Sigma}^{-1}{\bf \Sigma})
&=& tr(I)
&=& d
\end{eqnarray}
\)

ただし、d はガウス分布の次元である。
したがって、

\(
\begin{eqnarray}
KL(p\parallel q) &=& -\int p({\bf x})\ln\left\{\frac{q({\bf x})}{p({\bf x})}\right\}d\bf x \\
&=& \frac{1}{2}\left\{
-\ln \frac{|{\bf \Sigma}|}{|{\bf L}|}
+tr\left({\bf L}^{-1}{\bf \Sigma}\right)+({\bf μ}-{\bf m})^T{\bf L}^{-1}({\bf μ}-{\bf m})
-d
\right\}
\end{eqnarray}
\)

1.14 正方行列の性質

まず、\(w_{ij}\)を成分とする任意の正方行列が \(w_{ij}=w_{ij}^S+w_{ij}^A\)と書けることを示す。
\(w_{ij}^S\)は対称行列、\(w_{ij}^A\)は反対称行列の成分であり、

\(
\begin{eqnarray}
w_{ij}^S = w_{ji}^S \\
w_{ij}^A = -w_{ji}^A \\
\end{eqnarray}
\)

であることに注意。\(w_{ij}=w_{ij}^S+w_{ij}^A\) で \(w_{ij}^S\) と \(w_{ij}^A\) が未知数だとすると、

\(
\begin{eqnarray}
w_{ij} &=& w_{ij}^S+w_{ij}^A \\
w_{ji} &=& w_{ji}^S+w_{ji}^A \\
&=& w_{ij}^S-w_{ji}^A
\end{eqnarray}
\)

であり、2つの等式の両辺を足すと

\(
\begin{eqnarray}
w_{ij}+w_{ji} &=& 2w_{ij}^S
\end{eqnarray}
\)

となり、

\(
\begin{eqnarray}
w_{ij}^S = \frac{w_{ij}+w_{ji}}{2} \\
w_{ij}^A = \frac{w_{ij}-w_{ji}}{2}
\end{eqnarray}
\)

とすれば良いことが分かる。
ところで対角成分 \(w_{ii}\) については、

\(
\begin{eqnarray}
\color{red}{w_{ii}^S = w_{ii}} \\
\color{red}{w_{ii}^A = 0}
\end{eqnarray}
\)

とすれば良いことに留意しておく。

つぎに \(\sum_{i=1}^D\sum_{j=1}^D w_{ij}x_ix_j\)について考える。

\(
\begin{eqnarray}
\sum_{i=1}^D\sum_{j=1}^D w_{ij}x_ix_j &=& \sum_{i=1}^D\sum_{j=1}^D (w_{ij}^S+w_{ij}^A)x_ix_j \\
&=& \sum_{i=1}^D\sum_{j=1}^D w_{ij}^Sx_ix_j+ \sum_{i=1}^D\sum_{j=1}^Dw_{ij}^Ax_ix_j \\
\end{eqnarray}
\)

右辺の第2項だけに注目する。対角成分 \(w_{ii}\) 以外に関して、i を固定すると、

\(
\begin{eqnarray}
w_{\color{red}{i}j}^Ax_ix_j + w_{j\color{red}{i}}^Ax_jx_i = w_{\color{red}{i}j}^Ax_ix_j – w_{\color{red}{i}j}^Ax_ix_j = 0
\end{eqnarray}
\)

となる。また対角成分は0であるので、

\(
\begin{eqnarray}
\sum_{i=1}^D\sum_{j=1}^Dw_{ij}^Ax_ix_j = 0
\end{eqnarray}
\)

であることが分かる。したがって、\(\sum_{i=1}^D\sum_{j=1}^D w_{ij}x_ix_j = \sum_{i=1}^D\sum_{j=1}^D w_{ij}^Sx_ix_j\) が成り立つ。
そもそも、この式は

\(
\begin{eqnarray}
\sum_{i=1}^D\sum_{j=1}^D w_{ij}x_ix_j = {\bf x}^T{\bf A}{\bf x} \\
ただし、{\bf x} = (x_{ij})^T
\end{eqnarray}
\)

とすることができ、いわゆる x の二次形式であることが分かる。
x の二次形式だけを考える場合、正方行列\({\bf A}\)は対称行列であるとしてしまって問題ないということが分かる。

対称行列は、2×2 では

\(
\begin{eqnarray}
\left(
\begin{array}{cc}
w_{11} & w_{12} \\
w_{21} & w_{22} \\
\end{array}
\right)=
\left(
\begin{array}{cc}
\color{red}{w_{11}} & \color{red}{w_{12}} \\
w_{12} & \color{red}{w_{22}} \\
\end{array}
\right)
\end{eqnarray}
\)

対称行列は、3×3 では

\(
\begin{eqnarray}
\left(
\begin{array}{ccc}
w_{11} & w_{12} & w_{13} \\
w_{21} & w_{22} & w_{23} \\
w_{31} & w_{32} & w_{33}
\end{array}
\right)
=
\left(
\begin{array}{ccc}
\color{red}{w_{11}} & \color{red}{w_{12}} & \color{red}{w_{13}}\\
w_{12} & \color{red}{w_{22}} & \color{red}{w_{23}} \\
w_{13} & w_{23} & \color{red}{w_{33}}
\end{array}
\right)
\end{eqnarray}
\)

と赤字の要素は独自に選べる。
したがって、DxD の対称行列の独立パラーメータ数は、

\(
\begin{eqnarray}
\sum_{i=1}^D i = \frac{D(D+1)}{2}
\end{eqnarray}
\)

2.12 一様分布の平均・分散

一様分布は \(a \le x \le b\) で

\(
\begin{eqnarray}
{\rm U}(x|a,b) = \frac{1}{b-a}
\end{eqnarray}
\)

で定義される。一様分布が正規化されているかどうかは \({\rm U}(x|a,b)\)を積分してやれば良い。

\(
\begin{eqnarray}
\int_{a}^b {\rm U}(x|a,b)dx &=& \int_a^b \frac{1}{b-a}dx \\
&=& \frac{1}{b-a}\int_a^b dx \\
&=& \frac{1}{b-a}\bigl[x\bigr]_a^b \\
&=& \frac{1}{b-a}(b-a) \\
&=& 1
\end{eqnarray}
\)

以上で、一様分布が正規化されていることが確認できた。
一様分布の平均を求めてみる。

\(
\begin{eqnarray}
\mathbb{E}[x] &=& \int_{a}^b x{\rm U}(x|a,b)dx \\
&=& \int_{a}^b \frac{x}{b-a}dx \\
&=& \frac{1}{b-a}\int_{a}^b xdx \\
&=& \frac{1}{b-a}\bigl[\frac{1}{2}x\bigr]_a^b \\
&=& \frac{1}{2}\times\frac{1}{b-a}(b^2-a^2) \\
&=& \frac{1}{2}\times\frac{1}{b-a}(b-a)(b+a) \\
&=& \frac{a+b}{2}
\end{eqnarray}
\)

したがって一様分布の平均は\(\frac{a+b}{2}\)であることが分かる。
次に分散。分散は分散の公式\(var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2\)から求める。
まず、\(\mathbb{E}[x^2]\) を求める。

\(
\begin{eqnarray}
\mathbb{E}[x^2] &=& \int_{a}^b x^2{\rm U}(x|a,b)dx \\
&=& \int_{a}^b \frac{x}{b-a}x^2dx \\
&=& \frac{1}{b-a}\int_{a}^b x^2dx \\
&=& \frac{1}{b-a}\bigl[\frac{1}{3}x^3\bigr]_a^b \\
&=& \frac{1}{3}\times\frac{1}{b-a}(b^3-a^3) \\
&=& \frac{1}{3}\times\frac{1}{b-a}(b-a)(b^2+ab+a^2) \\
&=& \frac{a^2+ab+b^2}{3}
\end{eqnarray}
\)

したがって、

\(
\begin{eqnarray}
var[x] &=& \mathbb{E}[x^2]-\mathbb{E}[x]^2 \\
&=& \frac{a^2+ab+b^2}{3}-\left(\frac{a+b}{2}\right)^2 \\
&=& \frac{a^2+ab+b^2}{3}-\frac{a^2+2ab+b^2}{4} \\
&=& \frac{4a^2+4ab+4b^2-3a^2-6ab-3b^2}{12} \\
&=& \frac{a^2-2ab+b^2}{12} \\
&=& \frac{(a-b)^2}{12} \\
\end{eqnarray}
\)

以上より一様分布の分散は\(\frac{(a-b)^2}{12}\)となる。

1.13 ガウス分布の推定量

ガウス分布の分散の推定値 \(\sigma^2_{ML} = \frac{1}{N}\sum_{n=1}^{N}(x_n-μ_{ML})^2\) の \(μ_{ML}\) を真の平均μに置き換えた新しい推定量を \(\sigma’_{ML}\) とする。
この期待値を求めてみる。

\(
\begin{eqnarray}
\mathbb{E}[\sigma'^2_{ML}] &=& \mathbb{E}\left[\frac{1}{N}\sum_{n=1}^{N}(x_n-μ)^2\right] \\
&=& \frac{1}{N}\sum_{n=1}^{N}\mathbb{E}[(x_n-μ)^2] \\
&=& \frac{1}{N}\sum_{n=1}^{N}\left(\mathbb{E}[x_n^2]-2\mathbb{E}[μx_n]+\mathbb{E}[μ^2]\right) \\
&=& \frac{1}{N}\sum_{n=1}^{N}\left(\mathbb{E}[x_n^2]-2μ\mathbb{E}[x_n]+μ^2\right) \\
&=& \frac{1}{N}\sum_{n=1}^{N}\left(μ^2+\sigma^2-2μ^2+μ^2\right) \\
&=& \frac{1}{N}\sum_{n=1}^{N}\sigma^2 \\
&=& \frac{1}{N} \times N\sigma^2 \\
&=& \sigma^2
\end{eqnarray}
\)

1.12 ガウス分布の標本分散の自由度

まず、\(\mathbb{E}[x_nx_m]=μ^2+I_{nm}\sigma^2\)を証明する。ちなみに\(n=mでI_{nm}=1, n\neq m でI_{nm}=0\)。
まず、\(n=m\) すなわち \(x_n=x_m\) の場合。

\(
\begin{eqnarray}
\mathbb{E}[x_nx_m] = \mathbb{E}[x_n^2] = μ^2+\sigma^2
\end{eqnarray}
\)

\(n\neq m\) の場合、

\(
\begin{eqnarray}
\mathbb{E}[x_nx_m] &=& \int\int x_np(x_n)x_mp(x_m)dx_ndx_m \\
&=& \int\int x_nN(x_n|μ,\sigma^2)x_mN(x_m|μ,\sigma^2)dx_ndx_m \\
&=& \int x_nN(x_n|μ,\sigma^2)dx_n\int x_mN(x_m|μ,\sigma^2)dx_m \\
&=& μ^2
\end{eqnarray}
\)

したがって、\(\mathbb{E}[x_nx_m]=μ^2+I_{nm}\sigma^2\)であることが示された。
次に\(\mathbb{E}[μ_{ML}]\)を求める。

\(
\begin{eqnarray}
\mathbb{E}[μ_{ML}] &=& \mathbb{E}\left[\frac{1}{N}\sum_{n=1}^Nx_n\right]
&=& \frac{1}{N}\mathbb{E}\left[\sum_{n-1}^Nx_n\right]
&=& \frac{1}{N}\sum_{n-1}^N\mathbb{E}[x_n]
&=& \frac{1}{N}\times Nμ
&=& μ
\end{eqnarray}
\)

さらに\(\mathbb{E}[\sigma^2_{ML}]\)を求める。

\(
\begin{eqnarray}
\mathbb{E}[\sigma^2_{ML}] &=& \mathbb{E}\left[\frac{1}{N}\sum_{n=1}^N(x_n-μ_{ML})^2\right] \\
&=& \frac{1}{N}\mathbb{E}\left[\sum_{n=1}^N(x_n-μ_{ML})^2\right] \\
&=& \frac{1}{N}\sum_{n=1}^N\mathbb{E}[x_n^2-2x_nμ_{ML}+μ_{ML}^2] \\
&=& \frac{1}{N}\sum_{n=1}^N\left(\mathbb{E}[x_n^2]-2\mathbb{E}[x_nμ_{ML}]+\mathbb{E}[μ_{ML}^2]\right)
\end{eqnarray}
\)

\(μ_{ML}=\frac{1}{N}\sum_{m=1}^Nx_m\) を代入する。
\(μ^2_{ML}=\frac{1}{N^2}\sum_{m=1}^N\sum_{l=1}^Nx_mx_l\) と置くことに注意。

\(
\begin{eqnarray}
\mathbb{E}[\sigma^2_{ML}]
&=& \frac{1}{N}\sum_{n=1}^N\left(\mathbb{E}[x_n^2]-\frac{2}{N}\mathbb{E}\left[x_n\sum_{m=1}^Nx_m\right]+\frac{1}{N^2}\mathbb{E}\left[\sum_{m=1}^N\sum_{l=1}^Nx_mx_l\right]\right)
\end{eqnarray}
\)

それぞれの項に注目すると、第1項は\(\mathbb{E}[x_n^2]=μ^2+\sigma^2\)。第2項は、

\(
\begin{eqnarray}
\mathbb{E}\left[x_n\sum_{m=1}^Nx_m\right] &=& \mathbb{E}[x_n(x_1+x_2+\cdots+x_N)] \\
&=& \mathbb{E}[x_nx_1+x_nx_2+\cdots+x_nx_N] \\
&=& \mathbb{E}[x_nx_1]+\mathbb{E}[x_nx_2]+\cdots+\mathbb{E}[x_nx_N]
\end{eqnarray}
\)

ここでの n は \(1 \le n \le N\) のうちのどれか1つなので、\(\mathbb{E}[x_nx_{\color{red}{m}}]\) のうちどれか1つで n=m となる。したがって、

\(
\begin{eqnarray}
\mathbb{E}\left[x_n\sum_{m=1}^Nx_m\right]
&=& Nμ^2+\sigma^2
\end{eqnarray}
\)

第3項は、

\(
\begin{eqnarray}
\mathbb{E}\left[\sum_{m=1}^N\sum_{l=1}^Nx_mx_l\right]=
\mathbb{E}
\left[
\begin{array}{cccccccc}
&\color{red}{x_1x_1} & + & x_1x_2 & + & \cdots & + & x_1x_N \\
+& x_2x_1 & + & \color{red}{x_2x_2} & + & \cdots & + & x_2x_N \\
+& \vdots & + & \vdots & + & \cdots & + & \vdots \\
+& x_Nx_1 & + & x_Nx_2 & + & \cdots & + & \color{red}{x_Nx_N} \\
\end{array}
\right]
\end{eqnarray}
\)

\(N \times N\) の項があって、添字が一致するのはN個あることがわかるので、

\(
\begin{eqnarray}
\mathbb{E}\left[\sum_{m=1}^N\sum_{l=1}^Nx_mx_l\right]=N^2μ^2+N\sigma^2
\end{eqnarray}
\)

したがって、

\(
\begin{eqnarray}
\mathbb{E}[\sigma^2_{ML}]
&=& \frac{1}{N}\sum_{n=1}^N\left(\mathbb{E}[x_n^2]-\frac{2}{N}\mathbb{E}\left[x_n\sum_{m=1}^Nx_m\right]+\frac{1}{N^2}\mathbb{E}\left[\sum_{m=1}^N\sum_{l=1}^Nx_mx_l\right]\right) \\
&=& \frac{1}{N}\sum_{n=1}^N\left\{μ^2+\sigma^2-\frac{2}{N}(Nμ^2+\sigma^2)+\frac{1}{N^2}(N^2μ^2+N\sigma^2)\right\} \\
&=& \frac{1}{N}\sum_{n=1}^N\left(μ^2+\sigma^2-2μ^2-\frac{2\sigma^2}{N}+μ^2+\frac{\sigma^2}{N}\right) \\
&=& \frac{1}{N}\sum_{n=1}^N\left(\frac{N-1}{N}\sigma^2\right) \\
&=& \frac{N-1}{N}\sigma^2
\end{eqnarray}
\)