2021-04-10

【確率分布】超幾何分布の確率関数、確率母関数、期待値、分散

今回は超幾何分布です。離散分布シリーズの最後になると思います。力尽きて、最後は手を抜いてしまいます。どこかでリベンジしたい。

目次です。

超幾何分布とは
確率関数
確率母関数
期待値
分散
参考図書

超幾何分布とは

Wikipedeiaでは、以下のように説明されています。

成功状態をもつ母集団から非復元抽出したときに成功状態がいくつあるかという確率を与える離散確率分布の一種である。
wikipedia: 超幾何分布

参考図書では壺に入った赤玉と白玉の例を挙げ、壺には $N$ 個の玉が入っており、赤玉が $M$ 個、白玉が $N-M$ 個という状況で、取り出された赤玉は何個か？という問題を考えます。 Wikipediaの説明に合わせると、成功状態は赤玉を指すことが分かります。

確率関数

参考文献にならい、壺の中から玉を取り出すケースを考えます。改めて前提条件を確認します。

壺には $N$ 個の玉が入っている。
赤玉は $M$ 個入っている。
白玉は $N-M$ 個入っている。

まず、壺の中から $n$ 個の玉を取り出す組み合わせの数は以下の通り。

$\begin{eqnarray} {}_N C_k \end{eqnarray}$

続いて、赤玉が $k$ 個になる組み合わせの数は以下の通り。

$\begin{eqnarray} {}_M C_k \times {}_{N-M} C_{n-k} \end{eqnarray}$

上記を踏まえると、確率関数は以下のように示せます。

$\begin{eqnarray} P(X = k) = \frac{{}_M C_k \times {}_{N-M} C_{n-k}}{{}_N C_n} \end{eqnarray}$

この関数が確率関数であることを示すには、二項係数の公式を用います。

wikipedia: 二項係数

また、この辺の解説はこちらのブログがとても分かりやすかったので紹介します。 ikuty.com

以下の恒等式について、両辺で $x^{n}$ の係数を比較します。

$\begin{eqnarray} (1 + x)^N = (1 + x)^M + (1 + x)^{N-M} \end{eqnarray}$

まず、左辺における $x^{n}$ の係数は以下になります。

$\begin{eqnarray} {}_N C_n \end{eqnarray}$

続いて、右辺における $x^{n}$ の係数は $(1 + x)^{M}$ の $k$ 次式の項と $(1+x)^{N-M}$ の $n-k$ 次式の項を掛けることで得られます。この時 $k$ は1つには決まらないので、全ての $k$ について係数を足すことにより、 $x^{n}$ の係数を求められる。（という風に理解していますが、正直このあたりの理解度は浅めです。きちんと理解できたときに書き直す可能性があります。）

上記より、以下の式が導かれます。

$\begin{eqnarray} {}_N C_n = \sum_{k} {}_M C_k {}_{N-M} C_{n-k} \end{eqnarray}$

そしてこの両辺を ${}_N C_n$ で割ると、以下の式になります。確率関数の合計が1になることがわかります。

$\begin{eqnarray} 1 = \sum_{k} \frac{{}_M C_k \times {}_{N-M} C_{n-k}}{{}_N C_n} \end{eqnarray}$

確率母関数

参考文献では別の章で扱うことになっているので、また今度。難しいらしい。

期待値

$p = \frac{M}{N}$ 、 $q = 1 -p$ と置くと、期待値は以下になります。

$\begin{eqnarray} E[X] = np \end{eqnarray}$

分散

同様に、分散は以下になります。

$\begin{eqnarray} Var[X] = \frac{N-n}{N-1}npq \end{eqnarray}$

参考図書

こちらです。頑張っていますが難しいです。

新装改訂版現代数理統計学

作者:彰通, 竹村
発売日: 2020/11/10
メディア: 単行本

2021-04-01

【確率分布】負の2項分布の確率関数、確率母関数、期待値、分散

statistics study

今回は負の2項分布です。負の二項係数や項別微分がやや複雑だなと思いましたが、納得できるとすっきりします。

目次です。

負の2項分布とは
確率関数
確率母関数
期待値
分散
参考図書

負の2項分布とは

成功確率を $p$ とした時の、 $r$ 回成功するまでの失敗回数 $k$ についての確率分布です。

以下の資料を参考にしました。 https://www.slideshare.net/simizu706/ss-50994149?from_m_app=ios

なぜこんな確率分布を考える必要があるのか、今時点ではよく分かっていません。勉強したいと思います。

コイン投げのケースで考えると、負の2項分布の考え方は概ね以下の手順となります。

$r$ 回目の表が出るまでに、 $k$ 回の裏が出ると考える。
$r$ 回目の表が出た時には、 $r$ 回の表と $k$ 回目の裏で、合計 $r+k$ 回、コインを投げたことになる。
$r+k-1$ 回目まで、つまり最の $r$ が出る直前までに裏は $k$ 回、 $r+k$ 回目に最後の $r$ が出る。

確率関数

上記より、負の2項分布の確率関数は $r+k-1$ 回までで裏が $k$ 回出る確率と $r+k$ 回目の表の確率 $p$ の積で求められるため、以下のように表現できます。

2項分布に式の形が似ています（当然ですが）。

2項分布はこちらで過去に紹介しましたので、良ければご覧ください。

$\begin{eqnarray} P(X = k) &=& {}_{n + k - 1} C_k (1 - p)^k p^{r - 1} p\\ &=& {}_{n + k - 1} C_k (1 - p)^k p^r \end{eqnarray}$

ここで、上式の和が $1$ になることを確認し、確率を与えるものであることを確認しておきます。

$0 < p < 1\\ q = 1 - p\\$

として、 $p^ {-r} = (1 - q)^{-r}$ をテイラー展開すると、以下の結果が得られます。

$\begin{eqnarray} (1 - q)^{-r} &=& 1 + rq + \frac{r(r + 1)}{2!}q^ 2 + \cdots\\ &=& \sum_{k = 0}^ \infty {}_{r + k - 1} C_k q^k \end{eqnarray}$

上式の両辺に $p^ r$ を掛けると以下になり、確率関数の和が1になることを確認できます。

$\begin{eqnarray} \sum_{k = 0}^ \infty {}_{r + k - 1} C_k q^k p^r &=& (1 - q)^{-r} p^ r\\ &=& p^{-r} p^r \\&=&1 \end{eqnarray}$

なおこの式はガンマ関数を用いれば、 $r(r+1) \cdots (r+k-1) = \frac{\Gamma(r+k)}{\Gamma(r)}$ と書けます。なので、確率関数は以下のように表すこともできます。

$\begin{eqnarray} P(X=k) &=& \frac{\Gamma(r+k)}{\Gamma(r) k!}(1-p)^k p^r \end{eqnarray}$

確率母関数

確率関数から、確率母関数を導出します。

負の2項定理について扱う必要がありますので、ここで確認しておきます。

$\begin{eqnarray} \sum_{k = 0}^ \infty {}_{r + k - 1} C_k q^k p^r &=& \sum_{k = 0}^ \infty {}_{-r} C_k (-q)^k p^r \end{eqnarray}$

上記の式変形を前提に確率母関数を導出します。

$\begin{eqnarray} G(s) &=& E[s^ X]\\ &=& \sum_{k = 0}^ \infty s^k {}_{r + k -1} C_k p^r q^k\\ &=& \sum_{k = 0}^ \infty s^k {}_{-r} C_k p^r (-q)^k\\ &=& p^r \sum_{k = 0}^ \infty {}_{-r} C_k p^r (-sq)^k\\ &=& p^r (1 - sq)^{-r}\\ &=& (\frac{p}{1-sq})^r\\ &=& \bigl(1 - (s - 1) \frac{q}{p}\bigr)^{-r} \end{eqnarray}$

期待値

上記の確率母関数を1回微分することで期待値を求めます。

$\begin{eqnarray} \frac{dG(s)}{ds} &=& E[X]\\ &=& (-r )(-\frac{q}{p}) \bigl(1 - (s-1)\frac{q}{p}\bigr)^{-r-1}\mid_{s = 1}\\ &=& \frac{r(1-p)}{p} \end{eqnarray}$

分散

続いて分散を求めるため、まずは確率母関数を2回微分します。

$\begin{eqnarray} \frac{d^2 G(s)}{d^2 s} &=& E[X(X-1)]\\ &=& (-r-1)(\frac{rq}{p}) \bigl(1 - (s-1)\frac{q}{p}\bigr)^{-r-2}(-\frac{q}{p})\mid_{s = 1}\\ &=& \frac{r^2 q^2}{p^2} + \frac{r q^2}{p^2} \end{eqnarray}$

この式を用いて、以下の通り分散を求めることができます。

$\begin{eqnarray} Var(X) &=& E[X(X-1)] + E[X] - (E[X])^2 \\ &=& \frac{r^2 q^2}{p^2} + \frac{r q^2}{p^2} + \frac{rq}{p} - \frac{r^2 q^2}{p^2} \\ &=& \frac{r(1-p)}{p^2} \end{eqnarray}$

参考図書

いつものです。頑張っています。

新装改訂版現代数理統計学

作者:彰通, 竹村
発売日: 2020/11/10
メディア: 単行本

2021-03-27

【番外編】社会人大学院の生活記録。

先日、大学院を修了しました。色々と学びがあったので、記録を残しておきたいと思います。

目次です。

目指した動機：辛い時期だった。
大学院はどんなところか：インプットの場じゃない。
良かったこと：未熟さを知った。
難しかったこと：経験と自信がじゃまをする。
今後は？

目指した動機：辛い時期だった。

一番大きな動機はこれです。その時、仕事がうまくいってなかったのです。前向きな理由もなくはないですけど、向いてない仕事をずっとやっていて、頑張ってるけど成果は出ないという状況が続いていました。

日々の細かい業務は普通にこなせるんですけど、成果だけが出ない状況でした。やり続けていればきっと成功するという希望は皆無でした。会社では毎期の初めにキックオフがあって、そこで優秀者の表彰があるのですが、もちろん表彰されることはありませんでした。私にとってのキックオフとは、自分のダメさを1日かけてしっかり噛み締める日でした。

成果が出ないまま、年齢だけ積み重なってしまう状況をなんとかしないといけないと考えていました。

後は、修士ってかっこいいって思ってました。それに、仕事できないマンだったんですけど、データ分析とか何かを調べることは少しだけ得意で、こっちなら何かできるようになるかも？という期待を少しだけ持っていました。

大学院はどんなところか：インプットの場じゃない。

どんな角度で見るかによって大学院は色んな姿を見せますが、ここでは、大学院はアウトプットの場であることを強調したいと思います。

学校なので、もちろん授業があります。その意味では100%アウトプットとも言えないのですが、基本的には論文の形で成果物を残します。その論文が評価をされ、修了できるかが決まります。なので、大学院はアウトプットの場です。

もう少し具体的に言うと、以下のようなことが（恐らく多くの場合）起こります。

研究テーマは自分で決める。
研究計画は自分で考える。
研究方法は自分で考える。
研究の結果は自分で導き、考察も自分で考える。
その過程で、指導教官や同僚（敢えてドライに言えばリソース）の活用方法を自分で決める。

待っていれば誰かが教えてくれることはありませんでした。

なぜこんな話を書くかと言うと、学びたいという「動機」と大学院という「場」にギャップがあるのは、精神的に結構しんどいと思うからです。私の場合は、結果的に研究をとても好きになったので問題ありませんでしたが、周りには「勉強したいけど研究したくない人」もそれなりにいました。そういう人たちはやっぱりどこかしんどそうに見えました。

インプットしたい動機はあって然るべきです。ですが、動機が研究にない場合は、ひょっとすると大学院とは別に良い場があるかもしれません。それでも進学の選択肢を取るなら、研究に対する心構えは必要です。もちろんやったこともないのに100%構えることはできませんから、「ふーん、そんな感じなのね」って知っておくだけで良いと思います。と言うかそれしかできないです。

良かったこと：未熟さを知った。

修士の2年間を通じて分かったのは、研究という領域における自分の未熟さでした。やや自慢ぽくなりますが、私の修論の成果が認められ、専攻長賞を受賞しました。それでも、研究過程で考慮できなかったこと、技術が至らず盛り込めなかったことは沢山あります。執筆過程で気付いたことを諦め、執筆後に気付いたことに悔しさを覚えつつ、多くのできなかったことを抱えて修了の日を迎えました。

でも、これは良いことなのです。多分。

できなかったことがあるので精進できます。分からない答えはまだまだ溢れています。見えていない問いはもっと沢山あると思います。

一生やっても分からないかも？と思えばワクワクします。未熟で良かったのです。

難しかったこと：経験と自信がじゃまをする。

これは、周囲を見渡しても感じることですが、簡単に言うと、経験がじゃまになります。自信もじゃまです。

私が通っていたのは社会人大学院なので、当然みんな仕事をしています。私はダメダメな状態で入学しましたが、社会人として大学院に入学する人の多くは、現状のポジションで一定程度の成果を残している人だと思います。成果を残しているから、次のステージとして大学院を選ぶのでは？と思います。もちろん、そういう人ばかりではないと思いますが。なので、「現場」での経験があり、自信が培われています。これがじゃまです。

経験に裏打ちされた自信は、その人の中に当たり前を作り上げます。その当たり前は、疑問や問いを阻害します。経験による裏付けは、研究における根拠としては弱いです。「だって現場ではこうだから」ではいけません。そもそも、本当に当たり前なら研究テーマにはなりにくい可能性もあります。

これらのことは、「分かった気になっている」ことによって起こります。正確に言えば、「分かった気になっていることに気付かないでいる」ことがまずいです。

この難しさを克服するために私は、先行研究を沢山読みました。本来先行研究は、研究における問いや仮説を生み出すために読むものだと思います。ただ私にとっては、知らなかった答え、知らなかった問いに出会うために行い、それにより自己を正すために読むものでもありました。経験してしまっている自分、分かった気になっている自分を正しく知覚するために、知らなかったことへの出会いの総量を増やす、そのために読みました。

巨人の肩の上に云々という話がありますが、自分が小人であることを知るのが先な気がしています。

今後は？

ドクターに進みたいです。そこで、私はさらに未熟者になります。後、ドクターはかっこいいから進みたいです。

2021-03-24

【確率分布】ポアソン分布の確率関数、確率母関数、期待値、分散

statistics study

今回はポアソン分布です。 $e$ がたくさん出てきて難しかったですが頑張りました。

目次です。

ポアソン分布とは
確率関数
確率母関数
期待値
分散
参考図書

ポアソン分布とは

単位時間あたりに平均 $\lambda$ （ラムダ）回起こる事象が $k$ 回起こる確率を、ポアソン分布と言います。

これは2項分布から $n$ を大、 $p$ を小としたときの極限として得られる確率分布です。上記の $\lambda$ は $\lambda = np$ であり、一定です。
（竹村（2020）. 『新装改訂版現代数理統計学』を参考に作成）

つまり、個別の確率 $(p)$ は小さくても試行数 $(n)$ が大きいので、 $\lambda$ の値はそれなりに大きくなると言うことです。個別の事象の発生は珍しいけれど、無視はできない事象についての確率分布です。

Wikipediaによると、以下のような事象がポアソン分布で扱われます。

1時間に特定の交差点を通過する車両の台数
1時間あたりの電話がかかってくる件数

wikipedia: ポアソン分布

確率関数

ポアソン分布の確率関数を求めていきます。上記の通り元は2項分布の形をしていますので、2項分布について $\lambda = np$ を固定して ${n \to \infty}$ となる確率分布を求めます。2項分布の式に $p = \frac{\lambda}{n}$ を代入すると、以下の式になります。

$\begin{eqnarray} P(X = k) &=& \frac{n(n - 1)\cdots (n - k + 1)}{k!} (\frac{\lambda}{n})^ k (1 - \frac{\lambda}{n})^ {n - k}\\&=& \frac{\lambda^ k}{k!} (\frac{n - 1}{n})\cdots\ (\frac{n-k+1}{n})(1-\frac{\lambda}{n})^ n (1 - \frac{\lambda}{n})^ {-k}\\&=&\frac{\lambda^ k}{k!} e^ {- \lambda} \end{eqnarray}$

なお上記の計算には、 $\lim_{x \to \infty} (1 + x)^ {\frac{1}{x}} = e$ を用いて以下の変形を行なっています。

$\begin{eqnarray} \lim_{n \to \infty} (1 - \frac{\lambda}{n})^ n &= &\bigl((1 - \frac{\lambda}{n})^ {-\frac{1}{\frac{\lambda}{n}}}\bigr)^ {- \lambda} \end{eqnarray}$

この時、 $-\frac{\lambda}{n} = x$ と置くと、上記の式は以下のように書けます。

$\begin{eqnarray} \bigl((1 + x)^ {\frac{1}{x}}\bigr)^ {- \lambda} = e^ {-\lambda} \end{eqnarray}$

確率母関数

次にポアソン分布の確率母関数を求めます。

$\begin{eqnarray} G(s) &=& E[s^ X]\\ &=& \sum_{k = 0}^ \infty \frac{(s \lambda)^ k}{k!} e^ {- \lambda}\\ &=& e^ {\lambda(s - 1)} \end{eqnarray}$

なおこの式展開には、以下の通りテイラー展開を用いています。

$\begin{eqnarray} e^ \lambda &=& 1 + \lambda + \frac{\lambda^ 2}{2!} + \cdots\\ &=& \sum_{k = 0}^ \infty \frac{\lambda^ k}{k!} \end{eqnarray}$

期待値

確率母関数を1回微分します。この時、 $s=1$ です。また、この式変形には、以下の合成関数の微分を用います。

$\begin{eqnarray} \frac {dy}{dx} &=& \frac{dy}{dt} \frac{dt}{dx} \end{eqnarray}$

計算を進めると以下のようになります。

$\begin{eqnarray} \frac {dG(s)}{ds} &=& E[X]\\ &=& \lambda e^{\lambda(s-1)} \mid_{s = 1}\\ &=& \lambda \end{eqnarray}$

計算したものの、ポアソン分布はそもそも平均 $\lambda$ 回起こる事象を扱う確率分布なので、期待値は当然 $\lambda$ になります。

分散

続いて分散を求めるために、まずは確率母関数を2回微分します。

$\begin{eqnarray} \frac {d^2 G(s)}{ds^2} &=& E[X(X - 1)]\\ &=& \lambda e^{\lambda(s-1)} \mid_{s = 1}\\ &=& \lambda^ 2 e^{\lambda(s-1)} \mid_{s = 1}\\ &=& \lambda^ 2 \end{eqnarray}$

最後に、以下の式で分散を計算します。

$\begin{eqnarray} Var(X) &=& E[X^ 2]- E[X]^ 2\\ &=& E[X(X - 1) ] + E[X ] - E[X]^ 2\\ &=& \lambda^ 2 + \lambda - \lambda^ 2\\ &=& \lambda \end{eqnarray}$

分散も $\lambda$ でした。

以上です。お読みいただきありがとうございました。

参考図書

勉強中です。頑張っています。

新装改訂版現代数理統計学

作者:彰通, 竹村
発売日: 2020/11/10
メディア: 単行本

2021-03-20

【確率分布】2項分布の確率関数、確率母関数、期待値、分散

statistics study

2項分布の話をします。

2項分布とは

コインの表裏、勝ち負け、成功・失敗のように、2値の確率変数を取る確率分布を2項分布と言います。このように2通りのみの確率的試行をベルヌーイ試行（Bernoulli trial）と言います。

例えばコインの表裏なら、確率 $p$ で表が出るコインを $n$ 回投げる、というケースを考えます。

確率関数

2項分布の確率関数は以下の数式で表されます。

$p(k) = {}_nC_k p^k (1-p)^{n-k}$

コインの表裏を例に取ると、まず ${}_n C_k$ は、コインをn回投げて表がk回出る組み合わせの数を意味しています。次に $p^ k (1-p)^{n-k}$ は、表が $k$ 回、裏が $n-k$ 回出るときの確率を意味しています。

確率母関数

確率母関数は以下の通りです。この確率母関数を1回微分することで期待値を、2回微分した値を使って分散を求めることができます。

$\begin{eqnarray} G(s) &=& \sum_{x = 0} ^ n s^x {}_n C_x p^x (1-p)^{n-x}\\&=& \sum_{x = 0} ^ n {}_n C_x (sp)^x (1-p)^{n-x} \\&=& (sp + 1 - p)^n \\&=& (1 + p(s - 1))^n\end{eqnarray}$