なぜ標本平均は母平均の不偏推定量と言えるのか


「標本分散は不偏推定量じゃないけど、標本平均は不偏推定量だよ。」


と言われます。へーそうなんだ、と納得することもできますが、
「なんでそうなんだろう」と考えると、意外とちゃんと説明できなかったりします。

感覚的にはそんな気がするけど、みたいな。

この記事では、標本平均は、なぜ不偏推定量と言えるのか、ということをがっつり考えてみました。

不偏推定量とは

「不偏推定量」とは「偏り(かたより)がない推定量」ということです。

この「偏り」とは、「『期待値』と比べての偏り」ということです。
※期待値のほかにも推定の方法は色々ありますが、「不偏推定量」は特に期待値のことを指しています

つまり、不偏推定量とは、その標本の期待値が母集団と同じということですね。
例えば、標本平均の期待値は母集団の平均と同じになる、といった具合です。

ここまでの説明はよくあると思います。

実際にやってみた

標本平均について考えるために、実際に母集団を作ってみました。

今、エクセルで、1~100までの数字をランダムに1000個出現させました。
(平均51.242…..)
こいつらが母集団です。
ここから、10個の数字をランダムに選んで、その平均を出しました。
つまり、標本(n=10)から標本平均を算出しました。
その後その作業を1000回繰り返し、つどつど平均値を更新しました。その平均の変化をグラフにすると以下のようになります。

※「期待値」というのは、この作業の結果、平均が近づいていく値でしたね。

参考:「「期待値」とはなんなのかを分かりやすく説明する記事。

オレンジの線が母集団平均ラインに 段々と近づいているのが見て取れると思います。
このグラフから、標本抽出をくり返しくり返し1000回も行った結果、その平均は母集団平均に近そうだぞ、ということがわかりますね。

つまり、標本平均の期待値と母平均は同じっぽい、ということです。
標本平均は母平均の不偏推定量っぽいですね。

理論的に納得できる説明

でも、

「たまたまなんじゃないの?」

「なんでそうなるの?」

って思いません?

上の例ではたまたま母集団の平均がわかってたから確かめられたけど、本来母平均はわからないものだし、確かめようがないんじゃない? みたいな。

そんなときはやっぱり理論的な説明がいりますよね。さもないとこの推定量を胸張って使えません。

結論として理論的な説明は可能なんですが、結構わかりそうでわからないので、以下では、それをかみ砕いて説明していきます!

週刊少年ジャンプのページ数の平均を予想

具体例として、歴代すべての週刊少年ジャンプのページ数の平均を予想してみることにします。

(多分)そんなデータないので、母平均はわかりません。

そこで、標本としてジャンプ3週分(n=3)買って、標本平均出して、母平均を予想してみましょう。

もし私が「ジャンプ3冊購入してページ数の平均を出す」を7億回続けたとしたら、その平均が落ち着いていく値があるはずです。
※上のグラフみたいな感じ
その値が、 「標本平均の期待値」です。

この「標本平均の期待値」が「母集団の平均」と一致することを確認してみます。

式は以下のようになります。シグマ記号や文字を使わずに書いてみました。

①の説明

①の部分、つまり2行目から3行目の変形は何を表しているかというと、

ジャンプ3週分のページ数の平均(標本平均)の期待値は、
ジャンプ3週分のページ数の合計の期待値の3分の1になります。

もうすこし丁寧に(回りくどく)言うと、

ジャンプ3週分のページ数の平均する作業を7億回くり返した時の平均は、
ジャンプ3週分のページ数を合計する作業を7億回くり返した時の平均の
3分の1になるということです。

なぜなら、前者は平均を出すために、7億回毎っ回「3」で割っているからですね。平均の3倍は常に合計なわけです。

ある駐車場にあるタイヤの数の期待値は、その駐車場にある車の台数の期待値4倍になりそうじゃないですか? 車には必ず4つのタイヤがあるので。
それと同じです。

そんな理由で、最後に÷3をしてあげれば、一行上と同じになるわけです。

②の説明

続いて、②の部分は何を表しているかというと、

「ジャンプ3週分のページ数の合計」の期待値は、
「ジャンプ1冊ずつのページ数」の期待値を3つ足したものと同じになります。

再びもうちょっと丁寧に(まわりくどく)言うと、

ジャンプ3週分のページ数を合計する作業を7億回やったときの平均は、
ジャンプ1冊分のページ数を数える作業を7億回やったときの平均を3つ足したものと同じになる、ということです。

③の説明

ここがこの説明のキモになるところです。

③は何を表しているかというと、

「ジャンプ1冊ずつのページ数」の期待値は、母平均と同じになる

ということです。

ジャンプ1冊分のページ数の期待値は、
「ジャンプ7億週分のページ数を調べて、その平均をその都度求めたときに近づいていく値」のことでした。要は、「大体このくらい」のページ数です。

これ、母平均と同じなんですね。

なぜなら、サンプルの抽出はランダムに行われるので、7億回ジャンプをピックアップしている間に、すべての種類のジャンプを大体同じ割合でピックアップしているからです。

すると、おのずと、その7億回分の平均は、全種類のジャンプを一回ずつピックアップしたときの平均(つまり母平均)と同じになるはずです。

事実、サイコロの目の期待値3.5は、1~6までの平均3.5と等しいです。

参考:「「期待値」とはなんなのかを分かりやすく説明する記事。

実際の数式との比較

前述の式を、数学的な文字式と併記したのが上の表です。

同じ段は同じ内容を示しています。

真ん中、あるいは右側の式でも、

$$E(x_i)=μ$$

つまり、

標本の中の一つの要素の期待値は、母平均と一致する

ことがとても重要になっているのが分かると思います。

まとめ

標本平均が母平均の不偏推定量と言える理由についてつらつらと書いてきました。

やっぱり大事なのは、一つの要素の期待値が母平均と一致することかなぁと思います。

難しそうな数式を使わないで説明することにチャレンジしましたが、逆に回りくどかったりもしますね。

では!