けーじの学び場

元メーカー勤めのデータサイエンティスト。AIや統計、転職とかについて気ままに綴る予定


2024 統計検定1級 過去問解いてみた 統計数理 問5


今回は2024年に解いた統計検定の過去問を解いてみました。公式の回答ではなく、間違っているところもあるかもしれないですが、理解の助けになれば幸いです。もし気になる箇所がありましたら真偽を確かめつつご覧いただけたらと思います。

問題自体は著作権の関係もあるのでこちらのページには載せません。解答に至るまでの考え方を上げていきます。統計検定の公式のページがリニューアルされたようで、問題の掲載されていますのでそちらを参考にしてください。

この問題については区間が(-0.5, 0.5)として与えられていて、回答も0.5と小数を使用するのがよいのかもしれないですが、ここでは分数を使用したいと思います。0.25とかも出てきてなんか汚くなってくるような気がするからです…。

[1]

個人的には一様分布の順序統計量の確率密度関数は分布関数から考えるのがおすすめです。 $X_{(1)}$から順に考えていきましょう。

$X_{(1)}$:

$X_{(1)}$の分布関数を $F_1(x_1)$とします。 $X_{(1)}$が$x_1$以下になる場合を考えます。 $X_1, X_2, X_3$のうち、一つでも $x_1$以下ならよいのですが、その余事象であるすべて $x_1$より大きい場合を考えた方が早いですね。 $X_1, X_2, X_3$すべてが $x_1$より大きくなる確率は $(\frac{1}{2}-x_1)^3$なので、

$$ F_1(x_1) = 1 – \left(\frac{1}{2} – x_1\right)^3 \kern{1em} \left(-\frac{1}{2}<x_1<\frac{1}{2}\right) $$

となります。これを微分すれば確率密度関数が求まります。

$$ f_1(x_1) = 3\left(\frac{1}{2} – x_1\right)^2\kern{1em} \left(-\frac{1}{2}<x_1<\frac{1}{2}\right) $$

期待値は

$$ E[X_{(1)}]=\int_{-\frac{1}{2}}^{\frac{1}{2}}x_1 ・3\left(\frac{1}{2} – x_1\right)^2dx_1 = -\frac{1}{4} $$

となります。

$X_{(2)}$:

同様に $F_2(X_2)$を考えると、 $X_1, X_2, X_3$のうち二つだけが $x_2$以下である、または三つすべてが $x_2$以下である場合を考えればよいです。

二つだけが $x_2$より小さい場合は、その二つを選ぶ場合の数が3通りあることに注意して、その確率は

$3(x_2+\frac{1}{2})^2(\frac{1}{2}-x_2)$ となります。

三つすべてが $x_2$より小さい場合は、 $(x_2+\frac{1}{2})^3$となります。

以上から、分布関数は以下のようになります。

$$ F_2(x_2) = 3\left(x_2+\frac{1}{2}\right)^2\left(\frac{1}{2}-x_2\right) + \left(x_2 +\frac{1}{2}\right)^3\kern{1em} \left(-\frac{1}{2}<x_2<\frac{1}{2}\right) $$

これを微分すると

$$ f_2(x_2) = 6\left(\frac{1}{4} – x_2^2\right)\kern{1em} \left(-\frac{1}{2}<x_2<\frac{1}{2}\right) $$

となります。その期待値は

$$ E[X_{(2)}] = \int_{-\frac{1}{2}}^{\frac{1}{2}}x_2・6\left(\frac{1}{4}-x_2^2\right)dx_2=0 $$

となります。ふつうに計算して0としてもよいですが、関数が奇関数×偶関数=奇関数だから0とした方が早いかもしれないです。

$X_{(3)}$:

例によって $F_3(x_3)$を考えると、これはすべてが $x_3$以下であればよいので、

$$ F_3(x_3) = \left(x_3 +\frac{1}{2}\right)^3\kern{1em} \left(-\frac{1}{2}<x_3<\frac{1}{2}\right) $$

となります。これを微分すれば、

$$ f_3(x_3) = 3\left(x_3 + \frac{1}{2}\right)^2\kern{1em} \left(-\frac{1}{2}<x_3<\frac{1}{2}\right) $$

となりますので、その期待値は

$$ E[X_{(3)}] = \int_{-\frac{1}{2}}^{\frac{1}{2}}x_3・3\left(x_3 + \frac{1}{2}\right)^2dx_3=\frac{1}{4} $$

と求められます。

それぞれ分けて考えましたが、ある定数より順序統計量が低くなる場合を考えて、その確率を分布関数として解いていく感じはすべて同じです。参考書の章末問題にも時折みられる形なので、本番では正解しておきたい問題だと思います。(問題演習大事!)

[2]

まず気を付けたいのは $X_{(1)}, X_{(2)}, X_{(3)}$がそれぞれ独立なわけない!ということです。例えば、 $X_{(3)}=0$ のとき、 $X_{(1)}, X_{(2)}$はそれぞれ $-\frac{1}{2}$ から $\frac{1}{2}$ の値を問う確率でとることはありません。少なくとも0を超えてしまっては順序統計量になっていません。

[1]で $X_{(1)}, X_{(2)}, X_{(3)}$の確率密度関数を求めさせられているので、安易にその積をとってしまうと間違いになります。今回は独立ではないので焦らず考えましょう。

順序統計量の確率密度関数については、現代統計数理学の基礎の第5章の説明が個人的にはわかりやすくてよいです。例えば、 ある $n$個の統計量 $X_1, X_2, …, X_n$が互いに独立に同じ分布に従い、その確率密度関数を $g_k(x)$、分布関数を $G_k(x)$とします。これらについて順序統計量 $X_{(1)}, X_{(2)}, … , X_{(n)}$を考えたとき、 $X_{(k)} \kern{1em}(1 \le k \le n)$ が、ある値 $x$であるときの確率密度関数を $f_k(x)$とすると、

$$ f_k(x)=\frac{n!}{(j-1)!1!(n-j)!} \{G(x)\}^{k-1}\{g(x)\}\{1-G(x)\}^{n-k} $$

とあらわされます。3項分布として考えるのですね。

この式の階乗がついている部分は組み合わせの通り数を表します。 $X_{(k)}=x$であるということは、 $x$より小さい確率変数が $(k-1)$個存在し、$x$より大きい確率変数が $(n-k)$個存在するということです。確率変数 $X_k$(順序統計量ではなく元の統計量です)が $x$より小さい確率は $G(x)$、 $x$より大きい確率は $1-G(X)$であらわされるので、上のような3項分布の式で $X_{(k)}$の確率密度関数が求められます。

今回の問題では $x_1, x_2, x_3$すべてが与えられたときの確率密度関数を求めるので、 $X_1, X_2, X_3$を上記のように3項分布のような形で扱えばよいです。[1]で求めた確率密度関数ではなく、元の一様分布の密度関数であることに注意です。一様分布の密度関数を $u(x) = 1\space(-\frac{1}{2} < x < \frac{1}{2})$とすると、

$$ f(x_1, x_2, x_3) = \frac{3!}{1!\space1!\space1!}u(x_1)u(x_2)u(x_3)\\\\=6・1・1・1 = 6 \kern{1em}\left(-\frac{1}{2}<x_1 \le x_2 \le x_3<\frac{1}{2}\right) $$

となります。定義域に注意しましょう。順序統計量の大小関係が守られている必要があります。

数式ベースで考えていきましたが、3つの変数が一様分布から得られることを考えたときに、その変数の並び替えが6通りあることを考えるのでもよいと思います。例えば、順序統計量として $[-\frac{1}{4}, 0, \frac{1}{4}]$が得られる場合を考えると、 $X_1=-\frac{1}{4}, X_2=0, X_3=\frac{1}{4}$ となる場合がまず頭に浮かぶと思いますが、どうせ並び替えるので、 $X_1=\frac{1}{4}, X_2=0, X_3=-\frac{1}{4}$ という値になっても同じ順序統計量となります。このような組み合わせは $3!=$ 6通りあるので、元の一様分布を6倍すればいい!と考えても正解なのではと思います。

[3]

すぐにわかる問題です。[2]が解けなくても[1]の結果だけで答えることができます。統計検定の問題はしばしば誘導に従わないと解けなそうで、実は解けるような問題がよくあるので、前の問題が解けなくても一度後の問題に目を通してみることは重要だと思います。

$Y_{(1)}, Y_{(2)}, Y_{(3)}$ の期待値は

$$ E[Y_{(1)}] = E[X_{(1)}+\theta]=-\frac{1}{4}+\theta $$

$$ E[Y_{(2)}] = E[X_{(2)}+\theta]=\theta $$

$$ E[Y_{(3)}] = E[X_{(3)}+\theta]=\frac{1}{4}+\theta $$

となるので、

$$ E[\hat{\theta_c}] = c\left(-\frac{1}{4}+\theta\right)+\left(1-2c\right)\theta+c\left(\frac{1}{4}+\theta\right)=\theta $$

と計算できて不偏推定量であることがわかります。

[4]

$Y_{(i)}\space(i=1, 2, 3)$は、 $X_{(i)}$に対して定数 $\theta$を加えているだけなので、確率関数密度の式は同じになります。定義域が変わるので、そこを注意して書き直してみましょう。 $g(y_{(1)}, y_{(2)}, y_{(3)})$とすると、

$$ g(y_{(1)}, y_{(2)}, y_{(3)}) = 6\kern{1em}\left(\theta- \frac{1}{2} < y_{(1)} \le y_{(2)} \le y_{(3)} < \theta+\frac{1}{2} \right) $$

確率密度関数自体にはパラメータ $\theta$は出てこないですが、定義域に表れているので整理してみると

$$ y_{(3)}-\frac{1}{2} < \theta < y_{(1)} – \frac{1}{2} $$

となりますので、十分統計量としては $Y_{(1)}, Y_{(3)}$ということになります。

[5]

$Y_{(1)}=y_1, Y_{(3)}=y_3$ が与えられたときの $Y_{(2)}$の確率密度関数が求められれば、積分により期待値を求めることができます。[2]と同様に考えて $Y_{(1)}, Y_{(3)}$の同時確率密度関数を出して、これと[4]で求めた3つの変数の同時確率密度を用いることで、条件付き確率密度関数を求めます。元の統計量 $Y_i \kern{0.5em}(i = 1, 2, 3)$の確率密度関数は範囲が 1の確率密度関数ですから 1、分布関数は確率変数を $y$として、 $y-(\theta-\frac{1}{2})$ で与えられます。よって、 $Y_{(1)}, Y_{(3)}$の同時確率密度関数 $g(y_{(1)}, y_{(3)})$は、

$$ g(y_{(1)}, y_{(3)}) = \\\\ \frac{3!}{1!\space1!\space1!}・1・\left\{\left[y_{(3)}-\left(\theta-\frac{1}{2}\right)\right] – \left[y_{(1)}-\left(\theta-\frac{1}{2}\right)\right]\right\}・1 \\\\ = 6(y_{(3)} – y_{(1)}) $$

となります。

したがって、[4]の同時確率密度関数を用いて、

$$ g(y_{(2)}|y_{(1)},y_{(3)}) = \frac{g(y_{(1)}, y_{(2)}, y_{(3)})}{g(y_{(1)}, y_{(3)})} = \frac{1}{y_{(3)}-y_{(1)}}\kern{3em}(y_{(1)}\le y_{(2)} \le y_{(3)}) $$

となるので、求める条件付き期待値は、

$$ E[Y_{(2)}|Y_{(1)}, Y_{(3)}]=\int_{Y_{(1)}}^{Y_{(3)}}y_{(2)}・\frac{1}{Y_{(3)}-Y_{(1)}}\space dy_{(2)} = \frac{Y_{(3)}+Y_{(1)}}{2} $$

と計算できます。以上のような解き方がオーソドックスな気がしますが、 $Y_{(1)}=y_1, Y_{(3)}=y_3$ が与えられていて、 $Y_1, Y_2, Y_3$が一様分布から得られていることを考えると、 $Y_{(2)}$は $y_1$から $y_3$までの値をとる一様分布として、 $g(y_{(2)}|y_{(1)},y_{(3)})$を求めてもよいかもしれません(厳密性に欠けているなどがあるかもしれないので、使うときは自己責任で…)

十分統計量と推定量の分散といえばラオ-ブラックウェルの定理が出てきます。あるパラメータ $\theta$の推定量 $\hat \theta$は、十分統計量で条件づけられている推定量 $\hat \theta^*$を考えると、

$$ E[(\hat \theta \space- \space \theta)^2] \ge E[(\hat \theta^* \space – \space \theta)^2] $$

という関係が成り立ちます。もちろんいまは推定量として $\hat \theta_c$を対象にします。[3]で示したように不偏推定量ですので、上の関係式は、 $Y_{(1)}$と $Y_{(3)}$が与えられたもとでの $\hat \theta_c$を $\hat \theta^*_c$とすると、

$$ V[\hat \theta_c] \ge V[\hat \theta^*_c] $$

となります。 $\hat \theta^*_c$を求めると、

$$ \hat \theta^*_c = E[\hat \theta_c|Y_{(1)}, Y_{(3)}] $$ $$ = E[cY_{(1)}+(1-2c)Y_{(2)}+cY_{(3)}|Y_{(1)}, Y_{(3)}] $$ $$ =cY_{(1)}+(1-2c)\frac{Y_{(1)}+Y_{(3)}}{2}+cY_{(3)} $$ $$ = \frac{Y_{(1)}+Y_{(3)}}{2} $$

となるので、 $\hat \theta_c$が $\hat \theta^*_c$となるのは $c = \frac{1}{2}$のときになります。

解答はこれで以上ですが、[5]の問題の気持ちを少し考えてみました…。ある一様分布の取りうる値の幅はわかっているけど、その幅の中心(平均)がわからない場合に、三つの乱数を発生させてその平均を予測しようと考えます。[3]のような推定量を考えれば不偏推定量ではありますが、分散はcに応じて変化します。cを0に近づけると真ん中の値 $Y_{(2)}$が重視されて、 $\frac{1}{2}$に近づけると $Y_{(1)}$と $Y_{(3)}$が重視されるようになります。平均を探りたいので真ん中の値である $Y_{(2)}$を使って推定したくなりそうですが、分散を最小にするのは両端の $Y_{(1)}, Y_{(3)}$の平均をとった場合のようですね。


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

PAGE TOP