母集団と標本

母集団と標本
標本調査の場合、調査の対象全体の集合を 母集団 といい、調査のために抜き出した要素の集合を 標本 という。また、標本を抜き出すことを 抽出 という。ここで、母集団、標本の要素の個数を、それぞれ母集団の大きさ、標本の大きさ という。
母集団分布
母集団における変量 \( x \) の分布を 母集団分布、その平均値を 母平均、標準偏差を 母標準偏差 という。これらは、大きさ \( 1 \) の無作為標本について、変量 \( x \) の値を確率変数と見たときの確率分布、期待値、標準偏差と一致する。
大きさ \( N \) の母集団において、変量 \( x \) のとる異なる値を \( x_1, x_2, \cdots, x_r \) とし、それぞれの値を取る度数、すなわち、要素の個数を \( f_1, f_2, \cdots, f_r \) とする。このとき、この母集団における変量 \( x \) の度数分布は下表のようになる。
階級値 | 度数 |
---|---|
\( x_1 \) | \( f_1 \) |
\( x_2 \) | \( f_2 \) |
\( \vdots \) | \( \vdots \) |
\( x_r \) | \( f_r \) |
計 | \( N \) |
いま、この母集団から \( 1 \) 個の要素を無作為に抽出するとき、変量 \( x \) の値が \( x_k \) となる確率 \( p_k \) は
\(\displaystyle \quad p_k = \dfrac{f_k}{N} \quad (k = 1, 2, \cdots, r) \)
である。よって、\( X \) は下表のような確率分布を持つ確率変数とみなせる。
\( X \) | \( x_1 \) | \( x_2 \) | \( \cdots \) | \( x_r \) | 計 |
\( P \) | \(\displaystyle \dfrac{f_1}{N} \) | \(\displaystyle \dfrac{f_2}{N} \) | \( \cdots \) | \(\displaystyle \dfrac{f_r}{N} \) | 1 |
したがって、母集団における変量 \( x \) の平均値を \( m \)、標準偏差を \( \sigma \) とすると、この確率変数 \( X \) の期待値 \( E(X) \)、標準偏差 \( \sigma(X) \) について次のことが成り立つ。
\( \quad E(X) = m, \quad \sigma(X) = \sigma \)
標本の抽出
ある母集団から標本を抽出する場合
- 復元抽出: 毎回もとに戻しながら次のものを1個ずつ取り出す方法
- 非復元抽出:取り出したものを元に戻さずに続けて抽出する方法
ある母集団から大きさ \( n \) の標本を抽出するとき
- 復元抽出の場合
復元抽出によって大きさ \( n \) の無作為標本を作ることは、大きさ \( 1 \) の標本を \( n \) 個独立に取り出すことと同じである。よって、このときの無作為標本は、\( n \) この互いに独立な確率変数 \( X_1, X_2, \cdots, X_n \) で表される。 - 非復元抽出の場合
非復元抽出によって大きさ \( n \) の無作為標本を作ると、この標本もまた \( n \) 個の確率変数 \( X_1, X_2, \cdots, X_n \) で表されるが、これらは互いに 独立ではない。
しかし、母集団に属する要素の個数 \( N \) が十分に大きく、かつ抽出された無作為標本の大きさ \( n \) が \( N \) に比べて小さい (目安は \( n \) が \( N \) の10 分の 1 以下) ときは、非復元抽出で取り出した標本は、近似的に、復元抽出で取り出した標本とみなす ことができる。
母平均を \( m \)、母標準偏差を \( \sigma \) とすると、復元抽出の場合には、毎回同じ集団 (母集団) から大きさ \( 1 \) の標本を抽出することになるので、各変数の期待値・分散・標準偏差は、いずれも母平均・母分散・母標準偏差と一致する。だから、
\( \quad m = E(X_1) = E(X_2) = \cdots = E(X_n) \)
また、同様に、
\( \quad m = E(X_1^2) = E(X_2^2) = \cdots = E(X_n^2) \quad \) が成り立ち、\( \quad V(X_k) = E( X_k^2 ) – \{ E(X_k) \}^2 \quad \) なので
\( \quad \sigma = \sigma(X_1) = \sigma(X_2) = \cdots = \sigma(X_n) \)
が成り立つ。
抽出された \( n \) 個の標本を、互いに独立な確率変数とみなすことができる。
標本平均の期待値と標準偏差
母平均 \( m \)、母標準偏差 \( \sigma \) の母集団から大きさ \( n \) の無作為標本を抽出するとき、標本平均 \( \overline{X} \) の
- 期待値:\( E(\overline{ X }) = m \)
- 標準偏差:\(\displaystyle \sigma(\overline{ X }) = \dfrac{ \sigma }{ \sqrt{n} } \)
母集団から大きさ \( n \) の標本を抽出し、変量 \( x \) についてその標本の持つ \( x \) の値を \( X_1, X_2, \cdots, X_n \) とする。この標本を1組の資料とみなしたとき、その平均値 \(\displaystyle \overline{X} = \dfrac{1}{n}( X_1 + X_2 + \cdots + X_n ) \) を 標本平均 といい、標準偏差 \(\displaystyle S = \sqrt{ \dfrac{1}{n} \sum_{k=1}^n (X_k – \overline{X})^2 } \) を 標本標準偏差 という。
復元抽出 によって抽出した標本の変量 \( X_1, X_2, \cdots, X_n \) を互いに独立な確率変数とみなすことができることから \( \quad E(X_k) = m, \quad \sigma(X_k) = \sigma \quad (k = 1, 2, \cdots, n) \quad\) により
\(\quad \displaystyle E( \overline{X} ) = E \left( \dfrac{1}{n} \sum_{k=1}^n{X_k} \right) = \dfrac{1}{n} \sum_{k=1}^n{ E( X_k ) } = \dfrac{1}{n} \cdot nm = m\)
\(\quad \displaystyle V( \overline{X} ) = V \left( \dfrac{1}{n} \sum_{k=1}^n{X_k} \right) = \dfrac{1}{n^2} \sum_{k=1}^n{ V( X_k ) } = \dfrac{1}{n^2} \cdot n \sigma^2 = \dfrac{\sigma^2}{n} \)
\(\quad \displaystyle \sigma( \overline{X} ) = \sqrt{ V ( \overline{X} ) } = \sqrt{ \dfrac{\sigma^2}{n} } = \dfrac{\sigma}{\sqrt{n}} \)
標本比率
母比率を \( p \)、大きさ \( n \) の無作為標本の標本比率を \( R \) とすると、標本比率 \( R \) の
- 期待値:\( E(R) = p \)
- 標準偏差: \(\displaystyle \sigma(R) = \sqrt{ \dfrac{p(1 – p)}{n}} \)
標本比率 \( R \) は、\( n \) が大きいとき、近似的に正規分布 \(\displaystyle N \left( p, \dfrac{ p(1 – p) }{n} \right) \) に従う。
標本の中である特定の性質を持つ要素の割合を、その特性に対する 標本比率 という。これに対して、母集団全体の中である特定の性質を持つ要素の割合を 母比率 という。
特性 \( A \) の母比率 \( p \) である母集団から、大きさ \( n \) の無作為標本を抽出するとき、標本の中で \( A \) をもつ要素の個数を \( T \) とすると、\( T \) は二項分布 \( \quad B(n, p) \quad \) に従う。よって、\( n \) が大きいとき、\( T \) は近似的に正規分布 \( \quad N( np, np(1 – p) ) \quad \) に従う。
特性 \( A \) の標本比率を \( R \) とすると、\(\displaystyle \quad R = \dfrac{T}{n} \quad \) であるから
\(\displaystyle \quad E(R) = E \left( \dfrac{T}{n} \right) = \dfrac{np}{n} = p \)
\(\displaystyle \quad V(R) = V \left( \dfrac{T}{n} \right) = \dfrac{1}{n^2} V(T) = \dfrac{1}{n^2} \cdot np(1 – p) = \dfrac{p (1 – p)}{n} \)
\(\displaystyle \quad \sigma(R) = \sqrt{V(R)} = \sqrt{ \dfrac{p(1 – p)}{n} } \)
したがって、\( n \) が大きいとき、標本比率 \( R \) は近似的に \(\displaystyle N \left( p, \dfrac{ p(1 – p) }{n} \right) \) に従う。