S80の統計備忘録

頑張って統計の勉強をしています。

【確率分布】超幾何分布の確率関数、確率母関数、期待値、分散

今回は超幾何分布です。離散分布シリーズの最後になると思います。 力尽きて、最後は手を抜いてしまいます。どこかでリベンジしたい。

目次です。

超幾何分布とは

Wikipedeiaでは、以下のように説明されています。

成功状態をもつ母集団から非復元抽出したときに成功状態がいくつあるかという確率を与える離散確率分布の一種である。
wikipedia: 超幾何分布

参考図書では壺に入った赤玉と白玉の例を挙げ、 壺には  N個の玉が入っており、赤玉が M個、白玉が N-M個という状況で、取り出された赤玉は何個か?という問題を考えます。 Wikipediaの説明に合わせると、成功状態は赤玉を指すことが分かります。

確率関数

参考文献にならい、壺の中から玉を取り出すケースを考えます。改めて前提条件を確認します。

  • 壺には  N個の玉が入っている。
  • 赤玉は M個入っている。
  • 白玉はN-M個入っている。

まず、壺の中から  n個の玉を取り出す組み合わせの数は以下の通り。

 \begin{eqnarray}
{}_N C_k
\end{eqnarray}

続いて、赤玉が  k個になる組み合わせの数は以下の通り。

 \begin{eqnarray}
{}_M C_k \times {}_{N-M} C_{n-k}
\end{eqnarray}

上記を踏まえると、確率関数は以下のように示せます。

 \begin{eqnarray}
P(X = k) = \frac{{}_M C_k \times {}_{N-M} C_{n-k}}{{}_N C_n}
\end{eqnarray}

この関数が確率関数であることを示すには、二項係数の公式を用います。

wikipedia: 二項係数

また、この辺の解説はこちらのブログがとても分かりやすかったので紹介します。 ikuty.com

以下の恒等式について、両辺で x^{n}の係数を比較します。

 \begin{eqnarray}
(1 + x)^N = (1 + x)^M + (1 + x)^{N-M}
\end{eqnarray}

まず、左辺における x^{n}の係数は以下になります。

 \begin{eqnarray}
{}_N C_n
\end{eqnarray}

続いて、右辺における x^{n}の係数は (1 + x)^{M} k次式の項と (1+x)^{N-M} n-k次式の項を掛けることで得られます。この時 kは1つには決まらないので、全ての kについて係数を足すことにより、 x^{n}の係数を求められる。 (という風に理解していますが、正直このあたりの理解度は浅めです。きちんと理解できたときに書き直す可能性があります。)

上記より、以下の式が導かれます。

 \begin{eqnarray}
{}_N C_n = \sum_{k} {}_M C_k {}_{N-M} C_{n-k}
\end{eqnarray}

そしてこの両辺を {}_N C_nで割ると、以下の式になります。確率関数の合計が1になることがわかります。

 \begin{eqnarray}
1 = \sum_{k} \frac{{}_M C_k \times {}_{N-M} C_{n-k}}{{}_N C_n}
\end{eqnarray}

確率母関数

参考文献では別の章で扱うことになっているので、また今度。難しいらしい。

期待値

 p = \frac{M}{N} q = 1 -pと置くと、期待値は以下になります。

 \begin{eqnarray}
E[X] = np
\end{eqnarray}

分散

同様に、分散は以下になります。

 \begin{eqnarray}
Var[X] = \frac{N-n}{N-1}npq
\end{eqnarray}

参考図書

こちらです。頑張っていますが難しいです。

新装改訂版 現代数理統計学

新装改訂版 現代数理統計学

【確率分布】負の2項分布の確率関数、確率母関数、期待値、分散

今回は負の2項分布です。負の二項係数や項別微分がやや複雑だなと思いましたが、納得できるとすっきりします。

目次です。

負の2項分布とは

成功確率を pとした時の、 r回成功するまでの失敗回数 kについての確率分布です。

以下の資料を参考にしました。 https://www.slideshare.net/simizu706/ss-50994149?from_m_app=ios

なぜこんな確率分布を考える必要があるのか、今時点ではよく分かっていません。勉強したいと思います。

コイン投げのケースで考えると、負の2項分布の考え方は概ね以下の手順となります。

  •  r回目の表が出るまでに、 k回の裏が出ると考える。
  •  r回目の表が出た時には、  r回の表と  k回目の裏で、合計  r+k回、コインを投げたことになる。
  •  r+k-1回目まで、つまり最の  rが出る直前までに裏は  k回、  r+k回目に最後の rが出る。

確率関数

上記より、負の2項分布の確率関数は  r+k-1回までで裏が  k回出る確率と  r+k回目の表の確率  pの積で求められるため、以下のように表現できます。

2項分布に式の形が似ています(当然ですが)。

2項分布はこちらで過去に紹介しましたので、良ければご覧ください。

 \begin{eqnarray}
P(X = k) &=& {}_{n + k - 1} C_k (1 - p)^k p^{r - 1} p\\
&=& {}_{n + k - 1} C_k (1 - p)^k p^r
\end{eqnarray}

ここで、上式の和が  1になることを確認し、確率を与えるものであることを確認しておきます。

 
0 < p < 1\\
q = 1 - p\\

として、 p^ {-r} = (1 - q)^{-r}テイラー展開すると、以下の結果が得られます。

 \begin{eqnarray}
(1 - q)^{-r} &=& 1 + rq + \frac{r(r + 1)}{2!}q^ 2 + \cdots\\
&=& \sum_{k = 0}^ \infty  {}_{r + k - 1} C_k q^k
\end{eqnarray}

上式の両辺に  p^ rを掛けると以下になり、確率関数の和が1になることを確認できます。

 \begin{eqnarray}
\sum_{k = 0}^ \infty  {}_{r + k - 1} C_k q^k p^r &=& (1 - q)^{-r} p^ r\\ &=& p^{-r} p^r \\&=&1
\end{eqnarray}

なおこの式はガンマ関数を用いれば、  r(r+1) \cdots (r+k-1) = \frac{\Gamma(r+k)}{\Gamma(r)}と書けます。なので、確率関数は以下のように表すこともできます。

 \begin{eqnarray}
P(X=k) &=& \frac{\Gamma(r+k)}{\Gamma(r) k!}(1-p)^k p^r
\end{eqnarray}

確率母関数

確率関数から、確率母関数を導出します。

負の2項定理について扱う必要がありますので、ここで確認しておきます。

 \begin{eqnarray}
\sum_{k = 0}^ \infty  {}_{r + k - 1} C_k q^k p^r
&=& \sum_{k = 0}^ \infty  {}_{-r} C_k (-q)^k p^r
\end{eqnarray}

上記の式変形を前提に確率母関数を導出します。

 \begin{eqnarray}
G(s) 
&=& E[s^ X]\\ 
&=& \sum_{k = 0}^ \infty s^k {}_{r + k -1} C_k p^r q^k\\
&=& \sum_{k = 0}^ \infty s^k {}_{-r} C_k p^r (-q)^k\\
&=& p^r \sum_{k = 0}^ \infty {}_{-r} C_k p^r (-sq)^k\\
&=& p^r (1 - sq)^{-r}\\
&=& (\frac{p}{1-sq})^r\\
&=& \bigl(1 - (s - 1) \frac{q}{p}\bigr)^{-r}
\end{eqnarray}

期待値

上記の確率母関数を1回微分することで期待値を求めます。

 \begin{eqnarray}
\frac{dG(s)}{ds} 
&=& E[X]\\ 
&=& (-r )(-\frac{q}{p}) \bigl(1 - (s-1)\frac{q}{p}\bigr)^{-r-1}\mid_{s = 1}\\
&=& \frac{r(1-p)}{p}
\end{eqnarray}

分散

続いて分散を求めるため、まずは確率母関数を2回微分します。

 \begin{eqnarray}
\frac{d^2 G(s)}{d^2 s} 
&=& E[X(X-1)]\\ 
&=& (-r-1)(\frac{rq}{p}) \bigl(1 - (s-1)\frac{q}{p}\bigr)^{-r-2}(-\frac{q}{p})\mid_{s = 1}\\
&=& \frac{r^2 q^2}{p^2} + \frac{r q^2}{p^2}
\end{eqnarray}

この式を用いて、以下の通り分散を求めることができます。

 \begin{eqnarray}
Var(X) &=& E[X(X-1)] + E[X] - (E[X])^2 \\
&=& \frac{r^2 q^2}{p^2} + \frac{r q^2}{p^2} + \frac{rq}{p} -  \frac{r^2 q^2}{p^2} \\
&=& \frac{r(1-p)}{p^2}
\end{eqnarray}

参考図書

いつものです。頑張っています。

新装改訂版 現代数理統計学

新装改訂版 現代数理統計学

【番外編】社会人大学院の生活記録。

先日、大学院を修了しました。色々と学びがあったので、記録を残しておきたいと思います。

目次です。

目指した動機:辛い時期だった。

一番大きな動機はこれです。その時、仕事がうまくいってなかったのです。前向きな理由もなくはないですけど、向いてない仕事をずっとやっていて、頑張ってるけど成果は出ないという状況が続いていました。

日々の細かい業務は普通にこなせるんですけど、成果だけが出ない状況でした。やり続けていればきっと成功するという希望は皆無でした。会社では毎期の初めにキックオフがあって、そこで優秀者の表彰があるのですが、もちろん表彰されることはありませんでした。私にとってのキックオフとは、自分のダメさを1日かけてしっかり噛み締める日でした。

成果が出ないまま、年齢だけ積み重なってしまう状況をなんとかしないといけないと考えていました。

後は、修士ってかっこいいって思ってました。それに、仕事できないマンだったんですけど、データ分析とか何かを調べることは少しだけ得意で、こっちなら何かできるようになるかも?という期待を少しだけ持っていました。

大学院はどんなところか:インプットの場じゃない。

どんな角度で見るかによって大学院は色んな姿を見せますが、ここでは、大学院はアウトプットの場であることを強調したいと思います。

学校なので、もちろん授業があります。その意味では100%アウトプットとも言えないのですが、基本的には論文の形で成果物を残します。その論文が評価をされ、修了できるかが決まります。なので、大学院はアウトプットの場です。

もう少し具体的に言うと、以下のようなことが(恐らく多くの場合)起こります。

  • 研究テーマは自分で決める。
  • 研究計画は自分で考える。
  • 研究方法は自分で考える。
  • 研究の結果は自分で導き、考察も自分で考える。
  • その過程で、指導教官や同僚(敢えてドライに言えばリソース)の活用方法を自分で決める。

待っていれば誰かが教えてくれることはありませんでした。

なぜこんな話を書くかと言うと、学びたいという「動機」と大学院という「場」にギャップがあるのは、精神的に結構しんどいと思うからです。私の場合は、結果的に研究をとても好きになったので問題ありませんでしたが、周りには「勉強したいけど研究したくない人」もそれなりにいました。そういう人たちはやっぱりどこかしんどそうに見えました。

インプットしたい動機はあって然るべきです。ですが、動機が研究にない場合は、ひょっとすると大学院とは別に良い場があるかもしれません。それでも進学の選択肢を取るなら、研究に対する心構えは必要です。もちろんやったこともないのに100%構えることはできませんから、「ふーん、そんな感じなのね」って知っておくだけで良いと思います。と言うかそれしかできないです。

良かったこと:未熟さを知った。

修士の2年間を通じて分かったのは、研究という領域における自分の未熟さでした。やや自慢ぽくなりますが、私の修論の成果が認められ、専攻長賞を受賞しました。それでも、研究過程で考慮できなかったこと、技術が至らず盛り込めなかったことは沢山あります。執筆過程で気付いたことを諦め、執筆後に気付いたことに悔しさを覚えつつ、多くのできなかったことを抱えて修了の日を迎えました。

でも、これは良いことなのです。多分。

できなかったことがあるので精進できます。分からない答えはまだまだ溢れています。見えていない問いはもっと沢山あると思います。

一生やっても分からないかも?と思えばワクワクします。未熟で良かったのです。

難しかったこと:経験と自信がじゃまをする。

これは、周囲を見渡しても感じることですが、簡単に言うと、経験がじゃまになります。自信もじゃまです。

私が通っていたのは社会人大学院なので、当然みんな仕事をしています。私はダメダメな状態で入学しましたが、社会人として大学院に入学する人の多くは、現状のポジションで一定程度の成果を残している人だと思います。成果を残しているから、次のステージとして大学院を選ぶのでは?と思います。もちろん、そういう人ばかりではないと思いますが。なので、「現場」での経験があり、自信が培われています。これがじゃまです。

経験に裏打ちされた自信は、その人の中に当たり前を作り上げます。その当たり前は、疑問や問いを阻害します。経験による裏付けは、研究における根拠としては弱いです。「だって現場ではこうだから」ではいけません。そもそも、本当に当たり前なら研究テーマにはなりにくい可能性もあります。

これらのことは、「分かった気になっている」ことによって起こります。正確に言えば、「分かった気になっていることに気付かないでいる」ことがまずいです。

この難しさを克服するために私は、先行研究を沢山読みました。本来先行研究は、研究における問いや仮説を生み出すために読むものだと思います。ただ私にとっては、知らなかった答え、知らなかった問いに出会うために行い、それにより自己を正すために読むものでもありました。経験してしまっている自分、分かった気になっている自分を正しく知覚するために、知らなかったことへの出会いの総量を増やす、そのために読みました。

巨人の肩の上に云々という話がありますが、自分が小人であることを知るのが先な気がしています。

今後は?

ドクターに進みたいです。そこで、私はさらに未熟者になります。後、ドクターはかっこいいから進みたいです。

【確率分布】ポアソン分布の確率関数、確率母関数、期待値、分散

今回はポアソン分布です。 eがたくさん出てきて難しかったですが頑張りました。

目次です。

ポアソン分布とは

単位時間あたりに平均 \lambda(ラムダ)回起こる事象が k回起こる確率を、ポアソン分布と言います。

これは2項分布から nを大、 pを小としたときの極限として得られる確率分布です。 上記の  \lambda \lambda = npであり、一定です。
(竹村(2020). 『新装改訂版 現代数理統計学』を参考に作成)

つまり、個別の確率 (p)は小さくても試行数 (n)が大きいので、 \lambdaの値はそれなりに大きくなると言うことです。個別の事象の発生は珍しいけれど、無視はできない事象についての確率分布です。

Wikipediaによると、以下のような事象がポアソン分布で扱われます。

  • 1時間に特定の交差点を通過する車両の台数
  • 1時間あたりの電話がかかってくる件数

wikipedia: ポアソン分布

確率関数

ポアソン分布の確率関数を求めていきます。上記の通り元は2項分布の形をしていますので、2項分布について \lambda = npを固定して {n \to \infty}となる確率分布を求めます。2項分布の式に p = \frac{\lambda}{n}を代入すると、以下の式になります。

 \begin{eqnarray}
P(X = k) &=& \frac{n(n - 1)\cdots (n - k + 1)}{k!} (\frac{\lambda}{n})^ k (1 - \frac{\lambda}{n})^ {n - k}\\&=& \frac{\lambda^ k}{k!} (\frac{n - 1}{n})\cdots\ (\frac{n-k+1}{n})(1-\frac{\lambda}{n})^ n (1 - \frac{\lambda}{n})^ {-k}\\&=&\frac{\lambda^ k}{k!} e^ {- \lambda}
\end{eqnarray}

なお上記の計算には、 \lim_{x \to \infty} (1 + x)^ {\frac{1}{x}} = eを用いて以下の変形を行なっています。

 \begin{eqnarray}
\lim_{n \to \infty} (1 - \frac{\lambda}{n})^ n &= &\bigl((1 - \frac{\lambda}{n})^ {-\frac{1}{\frac{\lambda}{n}}}\bigr)^ {- \lambda}
\end{eqnarray}

この時、 -\frac{\lambda}{n} = xと置くと、上記の式は以下のように書けます。

 \begin{eqnarray}
\bigl((1 + x)^ {\frac{1}{x}}\bigr)^ {- \lambda} = e^ {-\lambda}
\end{eqnarray}

確率母関数

次にポアソン分布の確率母関数を求めます。

 \begin{eqnarray}
G(s) &=& E[s^ X]\\ &=& \sum_{k = 0}^ \infty \frac{(s \lambda)^ k}{k!} e^ {- \lambda}\\ &=& e^ {\lambda(s - 1)}
\end{eqnarray}

なおこの式展開には、以下の通りテイラー展開を用いています。

 \begin{eqnarray}
e^ \lambda &=& 1 + \lambda + \frac{\lambda^ 2}{2!} + \cdots\\ &=& \sum_{k = 0}^ \infty \frac{\lambda^ k}{k!}
\end{eqnarray}

期待値

確率母関数を1回微分します。この時、 s=1です。また、この式変形には、以下の合成関数の微分を用います。

 \begin{eqnarray}
\frac {dy}{dx} &=& \frac{dy}{dt} \frac{dt}{dx}
\end{eqnarray}

計算を進めると以下のようになります。

 \begin{eqnarray}
\frac {dG(s)}{ds} &=& E[X]\\
&=& \lambda e^{\lambda(s-1)}  \mid_{s = 1}\\
&=& \lambda
\end{eqnarray}

計算したものの、ポアソン分布はそもそも平均 \lambda回起こる事象を扱う確率分布なので、期待値は当然 \lambdaになります。

分散

続いて分散を求めるために、まずは確率母関数を2回微分します。

 \begin{eqnarray}
\frac {d^2 G(s)}{ds^2} &=& E[X(X - 1)]\\
&=& \lambda e^{\lambda(s-1)} \mid_{s = 1}\\
&=& \lambda^ 2 e^{\lambda(s-1)} \mid_{s = 1}\\
&=& \lambda^ 2
\end{eqnarray}

最後に、以下の式で分散を計算します。

 \begin{eqnarray}
Var(X) &=& E[X^ 2]- E[X]^ 2\\ 
&=& E[X(X - 1) ] + E[X ] - E[X]^ 2\\
&=& \lambda^ 2 + \lambda - \lambda^ 2\\ &=& \lambda
\end{eqnarray}

分散も \lambdaでした。

以上です。お読みいただきありがとうございました。

参考図書

勉強中です。頑張っています。

新装改訂版 現代数理統計学

新装改訂版 現代数理統計学

【確率分布】2項分布の確率関数、確率母関数、期待値、分散

2項分布の話をします。

2項分布とは

コインの表裏、勝ち負け、成功・失敗のように、2値の確率変数を取る確率分布を2項分布と言います。このように2通りのみの確率的試行をベルヌーイ試行(Bernoulli trial)と言います。

例えばコインの表裏なら、確率 pで表が出るコインを n回投げる、というケースを考えます。

確率関数

2項分布の確率関数は以下の数式で表されます。


p(k) = {}_nC_k p^k (1-p)^{n-k}

コインの表裏を例に取ると、まず {}_n C_k は、コインをn回投げて表がk回出る組み合わせの数を意味しています。次に p^ k (1-p)^{n-k} は、表が k回、裏が n-k回出るときの確率を意味しています。

確率母関数

確率母関数は以下の通りです。この確率母関数を1回微分することで期待値を、2回微分した値を使って分散を求めることができます。

 \begin{eqnarray}
G(s) &=& \sum_{x = 0} ^ n s^x {}_n C_x p^x (1-p)^{n-x}\\&=& \sum_{x = 0} ^ n {}_n C_x (sp)^x (1-p)^{n-x} \\&=& (sp + 1 - p)^n \\&=& (1 + p(s - 1))^n\end{eqnarray}

2行目から3行目への変形には2項定理が用いられています。

ここでは、こちらを参考にしています。

ここで、階乗モーメントを確認しておきます。確率変数 X k次までのモーメントが存在する場合、以下の式が成立します。

 \begin{eqnarray}
G^{(k)} (1) = E[X(X-1) \cdots\ (X - k + 1)]
\end{eqnarray}

期待値

上記の確率母関数を1回微分することで、期待値を計算できます。

 \begin{eqnarray}
\frac {dG(s)} {ds} &=& \displaystyle E[X]\\
&=& np(1 + p(s - 1))^{n - 1}\\
&=& np
\end{eqnarray}

上記より、2項分布の期待値は npであることが分かります。試行数と確率の積が期待値でした。

分散

続いて分散を求めます。まず分散は、2乗の期待値から期待値の2乗を引く、以下の式になります。

 Var(X)=E[X^ 2 ] - E[X ]^ 2

次に、確率母関数を2回微分します。まず1回微分の結果はこちらでした。

 \begin{eqnarray}
\frac {dG(s)} {ds} &=& np(1 + p(s - 1))^{n - 1}\\
\end{eqnarray}

上記の結果をもう一度微分します。このとき s = 1です。

 \begin{eqnarray}
\frac {d^ 2 G(s)} {ds^ 2} &=& E[X(X - 1)]\\&=&np^ 2 (n-1) (1 + p(s - 1))^{n - 2}\\
&=& np^ 2 (n - 1)
\end{eqnarray}

ここで得られた結果を使って分散を計算します。

 \begin{eqnarray}
Var(X) &=& E[X(X - 1) ] + E[X ] - E[X]^ 2\\
&=& np^ 2(n - 1) + np - (np)^ 2\\ &=& np(1-p)
\end{eqnarray}

以上です。

参考図書

頑張って勉強中です。

新装改訂版 現代数理統計学 https://www.amazon.co.jp/dp/4780608600/ref=cm_sw_r_cp_api_i_WSBPK4VZG94ND5BRV883

統計検定1級の勉強を始めました

先日、統計検定を受けてきました。結果は合格だったのですが、合格ライン60点に対し61点と超ギリギリでした。100点満点です。

https://www.toukei-kentei.jp/

 

大学院で心理学を勉強したりRを使って研究してたりと、それなりに統計を勉強しているつもりだったので、あれ、おかしいな…と少し落ち込みましたが、落ち込みもそこそこに、次に向けて勉強を始めることにしました。

よわよわだけど頑張ります。

 

次に向けてということで、「次は1級か、準1級か」ということを考えました。どうせどちらも難しいなら、最初から1級でも良いのでは?いやいや2級ギリギリだったからまずは準1級では?とあれこれ考えましたが、結論としては1級に向けて勉強を始めました。

 

参考です。準1級と1級は別物の様子。

https://qiita.com/drken/items/089b8443305df047b44e

 

買った参考書はこの2つ。

まずは過去問。

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2016〜2017年] https://www.amazon.co.jp/dp/4788925486/ref=cm_sw_r_cp_api_i_ZSA5YQ78TK03XW93QYHT

 

そして数理統計学の本。統計学ではなく、数理統計学の勉強が必要らしい。

新装改訂版 現代数理統計学 https://www.amazon.co.jp/dp/4780608600/ref=cm_sw_r_cp_api_i_HC1GKB941ZXQENJXA1W6

 

現代数理統計学の本、難しいけど面白いです。早く続きを進めたい。

またちょこちょこ更新します。