有限母集団修正はいつ必要なのかをわかりやすく説明する記事


有限母集団修正( Finite Population Correction )とは、標本平均の分散を導出するときに、ある条件を満たす母集団に施すべき修正のことです。(下記にてくわしく説明します)

修正すべき時がある、というのはわかったんですが、その使い分けについて調べていると。

  • 有限母集団
  • 無限母集団

という分類と、

  • 復元抽出
  • 非復元抽出

という分類の、2つ出てきて結局いつ修正を施せばいいのかわからなくなったので、この記事ではその捉え方を整理してお伝えしたいと思います。

有限母集団修正とは

有限母集団修正は、標本平均の分散を計算するときに考慮すべきものです。

通常、標本平均の分散は、母集団の分散をサンプルサイズのnで割ったものになります。

$$V(\bar{X})=\frac{\sigma^2}{n}$$

しかし、

「データを抜き取るごとに、母集団に残るデータ数が減っていく場合」

には、サンプリングに影響を与えるので、修正しなきゃいけません。

具体的には、

$$V(\bar{X})=\frac{N-n}{N-1}\times\frac{\sigma^2}{n}$$

として、

$$ \frac{N-n}{N-1}\ $$

を追加で掛け算しないと、正しい値にならないよ、ということです。

この追加の掛け算をすることを有限母集団修正と呼びます。

「 データを抜き取るごとに、母集団に残るデータ数が減っていく場合」とは何か

例えば、今あなたの目の前に嵐のメンバーが5人全員(←母集団)いるとします。

あなたはそこから3人選んで、スピンオフユニットを作らなければなりません。

あなたは1人目に、相葉くんを選びました。そうすると、残りの4人からしか2人目を選ぶことはできません。

「新ユニットには相葉くんが2人いた方がいい!」

と力説したところで夢かなわないのです。

これが、

「 データを抜き取るごとに、母集団に残るデータ数が減っていく」

ということです。

メンバーを選ぶごとに、残りのメンバーが減っていくのと同じです。

考えてみればめっちゃ普通のことです。

紛らわしい2つを説明

上で言及した、

  • 有限母集団
  • 無限母集団

そして、

  • 復元抽出
  • 非復元抽出

について、改めて説明します。

有限母集団と無限母集団

有限母集団(Finite Population)とは、数に限りのある母集団のことです。率直にイメージする母集団はほぼ有限母集団だと思います。

先ほどの嵐の5人ももちろん有限母集団ですし、

  • 今この瞬間の日本に暮らすすべての人
  • 砂場にあるすべての砂
  • 3年2組のクラスメート全員

とかも全部有限母集団です。数がめっちゃ多くても、限りがあればそれは有限です。

反対に無限母集団 (Infinite Population) とは、数に限りのない母集団です。いやもうそれ「集団」じゃなくない? って感じがしますが、母集団です。

例えば、

  • サイコロを永遠に投げ続けて出た目
  • 工場で生産される製品
  • 今後未来に生まれる全員を含めた世界人口

などなど、永遠に反復してできそうなことがそれに当てはまります。

サイコロは、1投目で1が出ても、2投目以降で1が再び出る可能性が十分にあります。何投投げても何かしら目は出ます。

工場製品もこれからずっと製品が生産されていくことを想定すれば無限母集団であると言えます。

上述の嵐のスピンオフユニットの例でいえば、 嵐が無限母集団なら、一度相葉くんを指名したあとでもう一度相葉くんを指名できることになります。相葉くんが無限にいることになります。それはおかしいですけど。

非復元抽出と復元抽出

非復元抽出(Sampling without replacement)とは、一度抽出したものを元に戻さない方式です。先ほどの嵐の例と同じです。

反対に、復元抽出(Sampling without replacement)とは、一度抽出したものをイチイチもとに戻すやり方です。釣りに行ったとき、いらない魚が釣れたらキャッチ&リリースしますよね??(禁止されているときはダメですよ) このときのリリースが復元にあたります。

その後糸を垂らした時、リリースした魚が釣れる確率は最初と変わらないことになります。魚が復元されたからです。

復元抽出を先ほどの嵐の例で考えてみると、相場くんに一度こっちに来てもらってから、一旦もとに戻ってもらい、もう一度相葉くんを含めた5人から2人目のユニットメンバーを選ぶとった具合になります。奇妙ですね。

表にして整理

以上の議論を基に、「有限母集団修正」が必要になる場合を表にまとめてみました。

有限母集団×非復元抽出が○だ!

この表を書きたいがためにこの記事を書いたようなものです。

つまり、有限母集団において、非復元抽出を行った場合のみが、

「データを抜き取るごとに、母集団に残るデータ数が減っていく場合」

に該当するということです。

無限母集団だったり、復元抽出だったりすると、同じの何回でも引けちゃうんですね。(相葉くんを2人以上グループに入れることができちゃいます)

だから、その双方でもない左下の枠のみが、該当するわけです。

まとめ

いかがでしたでしょうか。

心理統計だけやっていたらなかなか通らない疑問かもしれません。

でも、より広いくくりで学んだ方が、より自分の学習を相対化できて理解が深まるかもですね!

では。


参考文献:

山田剛史・村井潤一郎(2004)よくわかる心理統計 (やわらかアカデミズム・わかるシリーズ)ミネルヴァ書房

吉田寿夫(1998)本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本北大路書房