S80の統計備忘録

頑張って統計の勉強をしています。

【確率分布】超幾何分布の確率関数、確率母関数、期待値、分散

今回は超幾何分布です。離散分布シリーズの最後になると思います。 力尽きて、最後は手を抜いてしまいます。どこかでリベンジしたい。

目次です。

超幾何分布とは

Wikipedeiaでは、以下のように説明されています。

成功状態をもつ母集団から非復元抽出したときに成功状態がいくつあるかという確率を与える離散確率分布の一種である。
wikipedia: 超幾何分布

参考図書では壺に入った赤玉と白玉の例を挙げ、 壺には  N個の玉が入っており、赤玉が M個、白玉が N-M個という状況で、取り出された赤玉は何個か?という問題を考えます。 Wikipediaの説明に合わせると、成功状態は赤玉を指すことが分かります。

確率関数

参考文献にならい、壺の中から玉を取り出すケースを考えます。改めて前提条件を確認します。

  • 壺には  N個の玉が入っている。
  • 赤玉は M個入っている。
  • 白玉はN-M個入っている。

まず、壺の中から  n個の玉を取り出す組み合わせの数は以下の通り。

 \begin{eqnarray}
{}_N C_k
\end{eqnarray}

続いて、赤玉が  k個になる組み合わせの数は以下の通り。

 \begin{eqnarray}
{}_M C_k \times {}_{N-M} C_{n-k}
\end{eqnarray}

上記を踏まえると、確率関数は以下のように示せます。

 \begin{eqnarray}
P(X = k) = \frac{{}_M C_k \times {}_{N-M} C_{n-k}}{{}_N C_n}
\end{eqnarray}

この関数が確率関数であることを示すには、二項係数の公式を用います。

wikipedia: 二項係数

また、この辺の解説はこちらのブログがとても分かりやすかったので紹介します。 ikuty.com

以下の恒等式について、両辺で x^{n}の係数を比較します。

 \begin{eqnarray}
(1 + x)^N = (1 + x)^M + (1 + x)^{N-M}
\end{eqnarray}

まず、左辺における x^{n}の係数は以下になります。

 \begin{eqnarray}
{}_N C_n
\end{eqnarray}

続いて、右辺における x^{n}の係数は (1 + x)^{M} k次式の項と (1+x)^{N-M} n-k次式の項を掛けることで得られます。この時 kは1つには決まらないので、全ての kについて係数を足すことにより、 x^{n}の係数を求められる。 (という風に理解していますが、正直このあたりの理解度は浅めです。きちんと理解できたときに書き直す可能性があります。)

上記より、以下の式が導かれます。

 \begin{eqnarray}
{}_N C_n = \sum_{k} {}_M C_k {}_{N-M} C_{n-k}
\end{eqnarray}

そしてこの両辺を {}_N C_nで割ると、以下の式になります。確率関数の合計が1になることがわかります。

 \begin{eqnarray}
1 = \sum_{k} \frac{{}_M C_k \times {}_{N-M} C_{n-k}}{{}_N C_n}
\end{eqnarray}

確率母関数

参考文献では別の章で扱うことになっているので、また今度。難しいらしい。

期待値

 p = \frac{M}{N} q = 1 -pと置くと、期待値は以下になります。

 \begin{eqnarray}
E[X] = np
\end{eqnarray}

分散

同様に、分散は以下になります。

 \begin{eqnarray}
Var[X] = \frac{N-n}{N-1}npq
\end{eqnarray}

参考図書

こちらです。頑張っていますが難しいです。

新装改訂版 現代数理統計学

新装改訂版 現代数理統計学