今回は2024年に解いた統計検定の過去問を解いてみました。ただし、私も受験生として挑戦したのがつい先日ですので、よくわかっていないところも大いにあると思います。参考になれば幸いですが、もし気になる箇所がありましたら真偽を確かめつつご覧いただけたらと思います。
問題自体は著作権の関係もあるのでこちらのページには載せません。解答に至るまでの考え方を上げていきます。統計検定の公式のページがリニューアルされたようで、問題の掲載されていますのでそちらを参考にしてください。
[1]
問題文の説明が詳しく書いてありますが、要は二項分布のことですね。確率 $θ$で表が出るコインを用いて $n$回の施行を行ったとき、表が出た回数を $S_n$としているんだと考えればわかりやすいでしょうか?
二項分布であることがわかれば計算するまでもないかもしれないですが、せっかくベルヌーイ分布の形で式をいただいているので、一から求めてみましょう。
$$ E[X_i] = 1・θ + 0・θ = θ $$
$$ E[X_i^2] = 1^2・θ + 0^2・θ = θ $$
$$ Var[X_i] = E[X_i^2]\space – \space E[X_i]^2 = θ(1-θ) $$
$$ E[S_n] = E\left[\sum_{i=1}^nX_i\right]=\sum_{i=1}^nE[X_i]=nθ $$
$$ Var[S_n] = Var\left[\sum_{i=1}^nX_i\right]=\sum_{i=1}^nVar[X_i]=nθ(1-θ) $$
最後の式の確率変数の和の分散をとるときは少々注意が必要です。何も考えずにシグマの中に分散を適用しているように見えるかもしれないですが、これは $X_i$同士が独立という仮定の下でできる式変形です。もし独立でなければ、異なる確率変数和同士の共分散を加える必要があります。(この場合はすべて0)
[2]
十分統計量であることを示すには、フィッシャー・ネイマンの因子分解定理を用います。
同時確率密度関数を求めて、それをパラメータが含む部分と含まない部分の積の形に分けてあげて、パラメータを含む部分に含まれる統計量が十分統計量といえます。
確率同時密度関数を求めるのですが、各試行について $θ$の確率で1、 $1-θ$の確率で0をとることから、一回当たりの試行の密度関数が $θ^{x_i}(1-θ)^{1-x_i}$としてあらわされます。よって、同時確率密度関数は
$$ f(x_1, …, x_n | θ) = \prod_{i=1}^nθ^{x_i}(1-θ)^{1-x_i}=θ^{S_n}(1-θ)^{n-S_n} $$
結局、同時確率密度関数全体がパラメータ $θ$を含む形になっているのですが、現れる統計量として $S_n$しかないので、十分統計量であることがわかります。
最尤推定量を求めるには、上の同時確率密度関数を $θ$の関数=尤度関数とみて最大値をとる $θ$を求めればよいです。微分して0になる $\theta$を求めるのですね。対数尤度関数にした方が計算しやすいので、
$$ l(\theta | S_n) = S_n\log\theta + (n-S_n)\log(1-\theta) $$
$$ \frac{d}{d\theta}l(\theta|S_n) = \frac{S_n}{\theta} – \frac{n-S_n}{1-\theta}=0 $$
これを解けば最尤推定量 $\hat\theta_{ML}$は
$$ \hat\theta_{ML}=\frac{S_n}{n} $$
と計算できます。ここで、得られた回答が全 $n$回と1の値をとった回数 $S_n$となることに注意しましょう。 $\theta$を推定するには妥当な式となっています。
[3]
ここから先は、統計としての知識は期待値や分散の計算ができれば解けてしまうような問題になります。ただ、式がかなり煩雑になるので気を付けましょう。(本番でこの問題を解いていたのですが、二次方程式の解の公式が出たあたりで、その解だけ求めて諦めてしまいました。あっていたみたいですね…)
$\text{MSE}[T_n]$の求め方はいろいろあるかもしれないですが、ここでは、 $T_n$と $T_n^2$の期待値を求めることで導出しようと思います。
$$ E[T_n] = E[\alpha_nS_n + \beta_n] = \alpha_nE[S_n] + \beta_n = n\alpha_n\theta + \beta_n $$
$$ Var[T_n] = Var[\alpha_nS_n+\beta_n] = \alpha_n^2Var[S_n] = n\alpha_n^2\theta(1-\theta) $$
$$ E[T_n^2] = Var[T_n] + E[T_n]^2 = Var[\alpha_nS_n+\beta_n] = \alpha_n^2Var[S_n] = n\alpha_n^2\theta(1-\theta) $$
したがって、 $\text{MSE}[T_n]$は以下のように計算できます。
$$ \text{MSE}[T_n] = E[(T_n- \space\theta)^2] = E[T_n^2]\space – \space2\theta E[T_n] + \theta^2 $$ $$ = n\alpha_n^2\theta(1-\theta) + (n\alpha_n\theta + \beta_n)^2 – \space2\theta(n\alpha_n\theta + \beta_n) + \theta^2 $$ $$ = [\alpha_n^2(n^2-n)-2\alpha_nn+1]\theta^2 + (\alpha_n^2n+2\alpha_n\beta_nn-2\beta_n)\theta + \beta_n^2 $$
この値が $\theta$に依存しないときは、 $\theta^2$と $\theta$にかかっている係数が0になるときなので、
$$ \alpha_n^2(n^2-n)-2\alpha_nn+1 = 0\space\space ・・・・・(1) $$
$$ \alpha_n^2n+2\alpha_n\beta_nn-2\beta_n = 0\space\space ・・・・・(2) $$
を満たせばよいです。 (1)の式で、$\alpha_n$について計算すると、解の係数を用いて、
$$ \alpha_n = \frac{(n \pm \sqrt{n})}{n(n-1)} = \frac{1}{n \pm \sqrt{n}} $$
と計算できます。公式の略解を見ててこのように変形しているのですが、
$n \space- \space1 = (\sqrt n+1)(\sqrt n \space- \space1)$ のように二乗引く二乗の形として考えてあげると、上のように約分して簡単にできますね。このような式変形は初見でした。本番では行っていませんが、元の形でも正解だと思っています。
$\beta_n$についても(2)を用いて同様に解きます。(1)の式から $n\alpha_n^2 = \frac{2n\alpha_n-1}{n-1}$と計算しておくと、(2)の式で $\alpha_n$の次数を下げることができます。(2)より
$$ \beta_n = \frac{1}{2}\frac{n\alpha_n^2}{1-n\alpha_n}=\frac{1}{2}\frac{2n\alpha_n-1}{(1-n\alpha_n)(n-1)}$$ $$ =\frac{1}{2}\frac{2\frac{\sqrt n}{\sqrt n \pm 1}-1}{(1-\frac{\sqrt n}{\sqrt n \pm 1})(n-1)}=\pm\frac{1}{2}\frac{\sqrt n\mp1}{n-1}$$ $$ =\pm\frac{1}{2}\frac{\sqrt n\mp1}{(\sqrt n+1)(\sqrt n-1)}=\pm\frac{1}{2}\frac{1}{\sqrt n\pm1} $$
式変形が合わず公式の略解とうまく合わせることができず時間がかかったことがあったため、多少詳しめに書いてみました(公式と一致しました)。改めて $\alpha_n$と合わせてみますと以下のようになります。符号はすべて複合同順です。
$$ (\alpha_n, \beta_n) = \left(\frac{1}{n \pm \sqrt{n}},\space \pm\frac{1}{2}\frac{1}{\sqrt n\pm1}\right) $$
[3]の最後は、この $\alpha_n, \beta_n$のうち、 $\text{MSE}[T_n]$を最小にするものを求めることでした。上で求めた二つのペアのうちどちらかが正解です。 $\theta$に依存する部分を0にするようにして考えてきましたが、そのようにすると、
$$ \text{MSE}[T_n] = \beta_n^2 $$
となることがわかります。要は二つの $\beta_n$のうち、その二乗が小さい方を選べばよいです。 $n \geq 2$なので、 $\sqrt n+1 > \sqrt n-1$は明らかですから、 $\beta_n = \frac{1}{2}\frac {1}{\sqrt n+1}$のときにMSEは最小値をとります。改めて書き直すと以下のようになります。
$$ (\alpha_n, \beta_n) = \left(\frac{1}{n + \sqrt{n}},\space \frac{1}{2}\frac{1}{\sqrt n+1}\right)\spaceのとき、最小値\space\text{MSE}[T_n]=\frac{1}{4}\frac{1}{(\sqrt n+1)^2} $$
をとります。
[4]
不等式を作ってしまえば、後は計算だけで解けます。題意をそのまま式で表すと、
$$ \frac {Var[\hat \theta_{ML}]}{\text{MSE}[T_n]} > 1$$ $$\frac{1}{4(\sqrt n+1)^2}\frac{n}{\theta(1-\theta)} < 1$$ $$4(\sqrt n+1)^2\theta^2-4(\sqrt n+1)^2\theta+n<0$$ $$\frac{1}{2}-\frac{\sqrt {2\sqrt n+1}}{2(\sqrt n+1)} <\theta<\frac{1}{2}-\frac{\sqrt {2\sqrt n+1}}{2(\sqrt n+1)} $$
となります。この不等式が満たされるとき、 $\text{MSE}[T_n]$のほうが $Var[\hat \theta_{ML}]$よりも小さくなります。
コメントを残す