1.24 棄却オプションありの場合の期待損失

§1 期待損失を最小にする決定基準

棄却オプションが無い場合、\(\sum_{k}L_{kj}p(C_k|{\bf x})\)を最小にする\(j\)が\(\bf x\)が割り当てられるクラスである。
棄却オプションがある場合、\(\sum_{k}L_{kj}p(C_k|{\bf x})\)と棄却オプションの損失λを比較して、λの方が小さければ棄却オプションを選択すべきである。
したがって、棄却オプションがある場合、期待損失を最小にする決定基準は、

\(
\begin{eqnarray}
\left\{
\begin{array}{l}
j & min(\sum_{k}L_{kj}p(C_k|{\bf x})) \le λ\\
棄却オプション & otherwise
\end{array}
\right.
\end{eqnarray}
\)

となる。

§2 \(L_{kj}=1-I_{kj}\)の決定基準

\(L_{kj}=1-I_{kj}\)の場合、期待損失を最小にする決定基準は「1.22 損失行列\(1−I_{kj}\)」からも分かる通り、

\(
\begin{eqnarray}
\left\{
\begin{array}{l}
j & min(1-p(C_j|{\bf x})) \le λ\\
棄却オプション & otherwise
\end{array}
\right.
\end{eqnarray}
\)

となる。
\(1-p(C_k|{\bf x})\)が最小になる\(k\)を\(j\)とすると、

\(
\begin{eqnarray}
1-p(C_k|{\bf x}) \gt λ \\
\rightleftharpoons p(C_k|{\bf x}) \lt 1-λ
\end{eqnarray}
\)

の場合、棄却オプションを選択するということになり、これは1.5.3節の棄却基準と同じになる。
λと棄却しきい値θとの関係は、\(\theta = 1-λ\)であることが分かる。

1.23 事前確率と期待損失の最小化

\(\sum_{k}L_{kj}p(C_k|{\bf x})\)を最小にする\(j\)が\(\bf x\)が割り当てられるクラスであるが、事前確率\(p(C_k)\)が与えられた場合、ベイズの定理より、

\(
\begin{eqnarray}
p(C_k|{\bf x}) = \frac{p({\bf x}|C_k)p(C_k)}{p(\bf x)}
\end{eqnarray}
\)

であるが、\(p(\bf x)\)は共通なので、結局のところ、

\(
\begin{eqnarray}
\sum_{k}L_{kj}p({\bf x}|C_k)p(C_k)
\end{eqnarray}
\)

を細小にする\(j\)が\(\bf x\)が割り当てられるクラスとなる。

1.22 損失行列\(1-I_{kj}\)

損失行列が\(L_{kj}=1-I_{kj}\)である場合、\(\sum_{k}L_{kj}p(C_k|{\bf x})\)を最小にする\(j\)が\(\bf x\)が割り当てられるクラスである。
例えば、3行3列の\(L_{kj}\)を考えると、

\(
\begin{eqnarray}
L_{kj}p(C_k|{\bf x}) &=& (1-I_{kj})p(C_k|{\bf x}) \\
&=&
\left\{
\left(
\begin{array}{ccc}
1 & 1 & 1 \\
1 & 1 & 1 \\
1 & 1 & 1
\end{array}
\right)
-
\left(
\begin{array}{ccc}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1
\end{array}
\right)
\right\}
\left(
\begin{array}{c}
p(C_1|{\bf x}) \\
p(C_2|{\bf x})\\
p(C_3|{\bf x})
\end{array}
\right) \\
&=&
\left(
\begin{array}{ccc}
0 & 1 & 1 \\
1 & 0 & 1 \\
1 & 1 & 0
\end{array}
\right)
\left(
\begin{array}{c}
p(C_1|{\bf x}) \\
p(C_2|{\bf x})\\
p(C_3|{\bf x})
\end{array}
\right) \\
&=&
\left(
\begin{array}{c}
p(C_2|{\bf x})+p(C_3|{\bf x}) \\
p(C_3|{\bf x})+p(C_1|{\bf x})\\
p(C_1|{\bf x})+p(C_2|{\bf x})
\end{array}
\right)
\end{eqnarray}
\)

事後確率の合計 \(\sum_{k}p(C_k|{\bf x})\)は1であるので、

\(
\begin{eqnarray}
L_{kj}p(C_k|{\bf x}) &=& (1-I_{kj})p(C_k|{\bf x}) \\
&=&
\left(
\begin{array}{c}
1-p(C_1|{\bf x}) \\
1-p(C_2|{\bf x}) \\
1-p(C_3|{\bf x}) \\
\end{array}
\right)
\end{eqnarray}
\)

となる。この縦ベクトルのうち、最小になる\(j\)を選択すれば良い。

3行3列でない一般的な場合においても同様で、結局、\(1-p(C_j|{\bf x})\)を最小にする\(j\)を求めれば良い。
これは、\(p(C_j|{\bf x})\)を最大にする\(j\)を求めることと同じである。

この損失行列は、正しい決定をすれば損失は0だが、誤った決定をすれば損失が常に1であるので、誤識別率を最小にする損失行列である。

1.21 クラス分類問題の誤識別率

§1 \(a \le (ab)^{1/2}\)の証明

\(0 \lt a \le b\) の場合、

\(
\begin{eqnarray}
a = (a^2)^{1/2} = (a\times a)^{1/2} \le (ab)^{1/2}
\end{eqnarray}
\)

§2 誤識別率の最大値

2クラスのクラス分類問題の誤識別率は

\(
\begin{eqnarray}
p(誤り) = p({\bf x}\in R_1,C_2)+p({\bf x}\in R_2,C_1)
\end{eqnarray}
\)

と定義できる。\(p({\bf x}\in R_1,C_2)\) とはクラス\(C_2\)に関わらず、領域\(R_1\)にあるためクラス\(C_1\)と認識されてしまったものの確率を表す。
積分を使って表現すると、

\(
\begin{eqnarray}
p(誤り) &=& p({\bf x}\in R_1,C_2)+p({\bf x}\in R_2,C_1) \\
&=& \int_{R_1}p({\bf x},C_2)d{\bf x}+\int_{R_2}p({\bf x},C_1)d{\bf x}
\end{eqnarray}
\)

\(\int_{R_1}p({\bf x},C_2)d{\bf x}\)は領域\(R_1\)にあるクラス\(C_2\)である\(\bf x\)の確率をすべて足し合わせたものということ。
ここで

\(
\begin{eqnarray}
\int_{R_1}p({\bf x},C_2)d{\bf x} \le \int_{R_1}p({\bf x},C_1)d{\bf x} \\
\int_{R_2}p({\bf x},C_1)d{\bf x} \le \int_{R_2}p({\bf x},C_2)d{\bf x}
\end{eqnarray}
\)

となっているはずである。\(a \le (ab)^{1/2}\)であるので、

\(
\begin{eqnarray}
p(誤り) &=& \int_{R_1}p({\bf x},C_2)d{\bf x}+\int_{R_2}p({\bf x},C_1)d{\bf x} \\
&\le& \int_{R_1}\left\{p({\bf x},C_1)p({\bf x},C_2)\right\}^{1/2}d{\bf x}+\int_{R_2}\left\{p({\bf x},C_1)p({\bf x},C_2)\right\}^{1/2}d{\bf x} \\
&=& \int\left\{p({\bf x},C_1)p({\bf x},C_2)\right\}^{1/2}d{\bf x}
\end{eqnarray}
\)

1.20 高次元ガウス分布

§1 高次元ガウス分布の極座標における半径に関する密度

この問題の意味がいまいち分からなかったので、公式解答を見てみましたが、これまたざっくりで。。。
とりあえず、公式解答と同じような解答を掲載。

高次元ガウス分布は、
\(
\begin{eqnarray}
p({\bf x}) = \frac{1}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{||{\bf x}||^2}{2\sigma^2}\right)
\end{eqnarray}
\)

\(p({\bf x})\)は半径方向に関して連続なので、\(r\)から\(r+\epsilon\)の薄皮の体積は、\(S_Dr^{D-1}\epsilon\)となる。
\(||{\bf x}||^2={\bf x^Tx}=r^2\) であるので、

\(
\begin{eqnarray}
\int_{shell} p({\bf x})d{\bf x} &\simeq& p(||{\bf x}||=r)S_Dr^{D-1}\epsilon \\
&=& \frac{S_Dr^{D-1}}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{r^2}{2\sigma^2}\right)\times\epsilon \\
&=& p(r)\epsilon
\end{eqnarray}
\)

となる。

§2 \(p(r)\)の停留点

\(p(r)\)の停留点を求めるには、\(p(r)\)を微分して、それを0する\(r\)を求めればよい。
\((f(x)g(x))’ = f’(x)g(x)+f(x)g’(x)\) であるので、

\(
\begin{eqnarray}
\frac{\partial p(r)}{\partial r}
&=& \left(\frac{S_Dr^{D-1}}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{r^2}{2\sigma^2}\right)\right)’ \\
&=& \frac{(D-1)S_Dr^{D-2}}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{r^2}{2\sigma^2}\right)+\frac{S_Dr^{D-1}}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{r^2}{2\sigma^2}\right)\times -\frac{2r}{2\sigma^2} \\
&=& \frac{S_D}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{r^2}{2\sigma^2}\right)\times\left\{(D-1)r^{D-2}-\frac{r^D}{\sigma^2}\right\}
\end{eqnarray}
\)

\(\frac{\partial p(r)}{\partial r}=0\) になるのは、\((D-1){\hat r}^{D-2}-\frac{{\hat r}^D}{\sigma^2}=0\)の場合。
したがって、

\(
\begin{eqnarray}
\hat r^2 &=& \sigma^2(D-1) \\
\rightleftharpoons \hat r &=& \sigma\sqrt{D-1}
\end{eqnarray}
\)

となる。\({\hat r} \ge 0\) となるので、\(\hat r = -\sigma\sqrt{D-1}\) は起こりえない。
D が大きい場合、\(D-1 \simeq D\) であるので、\(\hat r = \sigma\sqrt{D}\) とできる。

§3 \(p({\hat r}+\epsilon)\)の特徴

\(
\begin{eqnarray}
p({\hat r}+\epsilon) &=& \frac{S_D({\hat r}+\epsilon)^{D-1}}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{({\hat r}+\epsilon)^2}{2\sigma^2}\right) \\
&=& \frac{S_D{\hat r}^{D-1}\left(1+\frac{\epsilon}{\hat r}\right)^{D-1}}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{({\hat r}+\epsilon)^2}{2\sigma^2}\right)
\end{eqnarray}
\)

\(x^{D-1} = \exp(\ln x^{D-1}) = (D-1)\exp(\ln x)\) を使うと、

\(
\begin{eqnarray}
p({\hat r}+\epsilon) &=& \frac{S_D{\hat r}^{D-1}}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{({\hat r}+\epsilon)^2}{2\sigma^2}+(D-1)\ln\left(1+\frac{\epsilon}{\hat r}\right)\right) \\
&=& \frac{S_D{\hat r}^{D-1}}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{{\hat r}^2+2{\hat r}\epsilon+\epsilon^2}{2\sigma^2}+(D-1)\ln\left(1+\frac{\epsilon}{\hat r}\right)\right) \\
&=& \frac{S_D{\hat r}^{D-1}}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{{\hat r}^2}{2\sigma^2}\right)\times\exp\left(-\frac{2{\hat r}\epsilon+\epsilon^2}{2\sigma^2}+(D-1)\ln\left(1+\frac{\epsilon}{\hat r}\right)\right) \\
&=& p({\hat r})\times\exp\left(-\frac{2{\hat r}\epsilon+\epsilon^2}{2\sigma^2}+(D-1)\ln\left(1+\frac{\epsilon}{\hat r}\right)\right) \\
\end{eqnarray}
\)

exp の中だけ考える。\(\ln(1+x) \simeq x-\frac{x^2}{2}\) という式を使用する。

\(
\begin{eqnarray}
& &-\frac{2{\hat r}\epsilon+\epsilon^2}{2\sigma^2}+(D-1)\ln\left(1+\frac{\epsilon}{\hat r}\right) \\
&\simeq& -\frac{{\hat r}\epsilon}{\sigma^2}-\frac{\epsilon^2}{2\sigma^2}+(D-1)\frac{\epsilon}{\hat r}-(D-1)\frac{\epsilon^2}{2{\hat r}^2} \\ 
\end{eqnarray}
\)

\(\hat r = \sigma\sqrt{D}\) を代入。

\(
\begin{eqnarray}
& &-\frac{{\hat r}\epsilon}{\sigma^2}-\frac{\epsilon^2}{2\sigma^2}+(D-1)\frac{\epsilon}{\hat r}-(D-1)\frac{\epsilon^2}{2{\hat r}^2} \\ 
&=& -\frac{\sqrt{D}\epsilon}{\sigma}-\frac{\epsilon^2}{2\sigma^2}+\frac{\sqrt{D}\epsilon}{\sigma}-\frac{\epsilon}{\sqrt{D}\sigma}-\frac{\epsilon^2}{2\sigma^2} + \frac{\epsilon^2}{2D\sigma^2} \\
&=& -\frac{\epsilon^2}{\sigma^2}-\frac{\epsilon}{\sqrt{D}\sigma}+\frac{\epsilon^2}{2D\sigma^2}
\end{eqnarray}
\)

再度 \(\hat r\) を戻すと、

\(
\begin{eqnarray}
-\frac{\epsilon^2}{\sigma^2}-\frac{\epsilon}{\hat r}+\frac{\epsilon^2}{2{\hat r}^2}
\end{eqnarray}
\)

となるが、\({\hat r} >> \epsilon\) であるので、後ろの2つの項は0と近似できる。したがって、

\(
\begin{eqnarray}
p({\hat r}+\epsilon)=p(\hat r)\exp\left(-\frac{\epsilon^2}{\sigma^2}\right)
\end{eqnarray}
\)

\(\exp(-x)\)は減衰していく関数なので、\(\epsilon\)が大きくなればなるほど値は小さくなる。
したがって、\(\hat r\)からすこし離れた\({\hat r}+\epsilon\)では、\(p(\hat r)\)よりも小さくなることがわかる。

§4 \(p({\bf x}={\bf 0})\)と\(p(||{\bf x}||=\hat r)\)の比較

\(
\begin{eqnarray}
p({\bf x}={\bf 0})=\frac{1}{(2\pi\sigma^2)^{D/2}}
\end{eqnarray}
\)
\(
\begin{eqnarray}
p(||{\bf x}||=\hat r) &=& \frac{1}{(2\pi\sigma^2)^{D/2}}\exp\left(-\frac{{\hat r}^2}{2\sigma^2}\right) \\
&=& p({\bf x}={\bf 0})\exp\left(-\frac{{\hat r}^2}{2\sigma^2}\right) \\
\end{eqnarray}
\)

\({\hat r} \simeq \sqrt{D}\sigma\) であるので、

\(
\begin{eqnarray}
p(||{\bf x}||=\hat r) &\simeq& p({\bf x} = {\bf 0})\exp\left(-\frac{D\sigma^2}{2\sigma^2}\right) \\
&=& p({\bf x} = {\bf 0})\exp\left(-\frac{D}{2}\right) \\
\end{eqnarray}
\)

したがって、

\(
\begin{eqnarray}
p({\bf x} = {\bf 0}) = p(||{\bf x}||=\hat r)\exp\left(\frac{D}{2}\right) \\
\end{eqnarray}
\)