PRML 1章 解答

PRMLの演習問題の解答を書いてみることにしました。
数学の知識は数Ⅲ、Cレベルまでしかないので正確性は求めないでください。あくまで、理解できればいいということで。
もちろんすべての解答を書くとは限りません。
当面は基本問題中心で...

1.5

期待値の公式を使って計算します。 公式はこちらにまとまっています。

期待値と分散に関する公式一覧 | 高校数学の美しい物語


var[f] = E[(f(x) - E[f(x)])^{2}]

2乗を展開して、期待値の中身を分解する


= E[f(x)^{2}] - E[2f(x)E[f(x)] + E[f(x)]^{2}

ここで E[f(x)]を定数と考えると


= E[f(x)^{2}] - E[f(x)]E[2f(x)] + E[f(x)]^{2}


= E[f(x)^{2}] - 2E[f(x)]^{2} + E[f(x)]^{2}


= E[f(x)]^{2} - E[f(x)^{2}]

1.6

共分散の定義は


cov[x,y] = E_{x,y}[\{x - E[x]\}\{y - E[y]\}]

であり、展開すると
(E[x], E[y]は定数であるので公式E[x+a] = E[x] + aを使った)


E_{x,y}[\{x - E[x]\}\{y - E[y]\}] = E_{x,y}[xy] - E_{x,y}[yE[x]] - E_{x,y}[xE[y]] + E[x]E[y]

x,yは独立なので(E[xy] = E[x]E[y]が成り立つ)、また1.5と同様にE[x], E[y]は定数であり、


= E_{x,y}[x]E_{x,y}[y] - E[x]E_{x,y}[y] - E[y]E_{x,y}[x] + E[x]E[y]

因数分解すると


= (E_{x,y}[x] - E[x])(E_{x,y}[y] - E[y])

ここで期待値の定義より


E_{x,y}[x] - E[x] = \int\int p(x,y)xdxdy - \int p(x)xdx

x,yは独立なのでp(x,y) = p(x)p(y)が成り立つので


= \int p(x)xdx \int p(y)dy - \int p(x)xdx

p(y)は確率密度なので \int p(y)dy = 1であるから


= \int p(x)xdx - \int p(x)xdx = 0

よって


E_{x,y}[\{x - E[x]\}\{y - E[y]\}] = 0

1.11


\displaystyle \ln{p({\sf x}|\mu,\sigma)} = -\frac{1}{2\sigma^{2}}\sum_{n=1}^{N}(x_n-\mu)^{2} - \frac{N}{2}\ln{\sigma^{2}} - \frac{N}{2}\ln{(2\pi)}

ここで


\displaystyle \frac{1}{2\sigma^{2}}\sum_{n=1}^{N}(x_n-\mu)^{2} = \frac{1}{2\sigma^{2}}\sum_{n=1}^{N}(x_n^{2} - 2\mu x_n + \mu^{2})


\displaystyle \frac{1}{2\sigma^{2}}\sum_{n=1}^{N}x_n^{2} + \frac{\mu}{\sigma^{2}}\sum_{n=1}^{N}x_n - \frac{N\mu^{2}}{2\sigma^{2}}

よって対数尤度関数を\mu微分すると0になるので


\displaystyle \frac{d\ln{p({\sf x}|\mu,\sigma^{2})}}{d\mu} = \frac{1}{\sigma^{2}}{\sum_{n=1}^{N}x_n} - \frac{N\mu}{\sigma^{2}} = 0

よって


\displaystyle N\mu = \sum_{n=1}^{N}x_n


\displaystyle \mu = \frac{1}{N}\sum_{n=1}^{N}x_n

1.55が示された

\sigma^{2}が最大になるとき、対数尤度関数を\sigma^{2}微分すると0になるので


\displaystyle \frac{d\ln{p({\sf x}|\mu,\sigma^{2})}}{d\sigma^{2}} = \frac{1}{2(\sigma^{2})^{2}}\sum_{n=1}^{N}(x_n-\mu)^{2} - \frac{N}{2\sigma^{2}} = 0

両辺に2(\sigma^{2})^{2}を掛けて


\displaystyle N\sigma^{2} = \sum_{n=1}^{N}(x_n - \mu) ^ {2}

よって


\displaystyle \sigma^{2} = \frac{1}{N}\sum_{n=1}^{N}(x_n - \mu) ^ {2}

1.56が示された

1.12

テキストに書かれている通り最尤解(\mu_{ML},\sigma_{ML}^{2})はx_1,...x_Nの関数であることに注意する。 n = mのとき1.50より


E[x_nx_m] = E[x_n^{2}] = \mu^{2} + \sigma^{2}

I_{nm} = 1なので

E[x_nx_m] = \mu^{2} + I_{nm}\sigma^{2}

n \neq mのときx_nとx_mは独立なのと、1.49より


E[x_nx_m] = E[x_n]E[x_m] = \mu^{2}

I_{nm} = 0なので

E[x_nx_m] = \mu^{2} + I_{nm}\sigma^{2}

(1.130)が示された。また、


\displaystyle E[\mu_{ML}] = E[\frac{1}{N}\sum_{n=1}^{N}x_n]


\displaystyle = \frac{1}{N} \sum_{n=1}^{N} E[x_n]

E[x] = \muより

= \frac{1}{N} N\mu = \mu

よって1.57が示された。

また、


\displaystyle E[\sigma_{ML}^{2}] = E[\frac{1}{N} \sum_{n=1}^{N}(x_n - \mu_{ML})^{2}]


\displaystyle = \frac{1}{N} \sum_{n=1}^{N} E[(x_n - \mu_{ML})^{2}]


\displaystyle = \frac{1}{N} \sum_{n=1}^{N} E[x_n^{2} - 2x_n\mu_{ML} + \mu_{ML}^{2}]

ここで \displaystyle
E[x_n^{2} - 2x_n\mu_{ML} + \mu_{ML}^{2}] = E[x_n^{2}] - 2E[x_n\mu_{ML}] + E[\mu_{ML}^{2}] \tag{1}

(1)の第1項は


E[x_n^{2}] = \mu^{2} + \sigma^{2}

(1)の第2項は

\displaystyle
-2E[x_n\mu_{ML}] = -2E[x_n \frac{1}{N}\sum_{m=1}^{N}x_m]

\displaystyle
= -\frac{2}{N} \sum_{m=1}^{N} E[x_nx_m]

(1.130)より

\displaystyle
= -\frac{2}{N} \{(N-1)\mu^{2} + \mu^{2} + \sigma^{2}\}

\displaystyle
= -2\mu^{2} -\frac{2}{N} \sigma^{2}

(1)の第3項は

\displaystyle
E[\mu_{ML}^{2}] = E[(\frac{1}{N} \sum_{n=1}^{N}x_n)^{2}]

この変形が肝!

\displaystyle
= \frac{1}{N^{2}} \sum_{n=1}^{N} \sum_{m=1}^{N} E[x_nx_m]

(1.130)より

\displaystyle
= \frac{1}{N^{2}} \{N(\mu^{2} + \sigma^{2}) + (N^{2}-N)\mu^{2}\}

\displaystyle
= \frac{1}{N} (\mu^{2} + \sigma^{2} + N\mu^{2} - \mu^{2}) = \frac{\sigma^{2}}{N} + \mu^{2}

よって(1)は

\displaystyle
\sigma^{2} - \frac{1}{N}\sigma^{2} = (\frac{N-1}{N})\sigma^{2}

よって

\displaystyle
E[\sigma_{ML}^{2}] = \frac{1}{N} \sum_{n=1}^{N} (\frac{N-1}{N})\sigma^{2} = (\frac{N-1}{N})\sigma^{2}

これで1.58が示された。

参考

第1章 序論 - Google ドライブ