- 入門数理統計学
- 1.はじめに
- 2.確率
- 2.2 標本空間(sample space)
- 2.3 事象(events)
- 2.4 確率(probability)
- 2.5 加法定理(additon rule)
- 2.6 乗法定理(multiplication rule)
- 2.8 ベイズの公式
- 2.9 計数の方法
- 2.10 確率変数
- 2.11 離散確率変数
- 2.12 密度関数
- 2.13 同時密度関数
- 2.14 周辺分布と条件つき分布
- 2.15 連続確率変数
- 3.統計的手法の性質
- 4.1つの変数の経験的度数分布
- 5.1つの変数の理論的度数分布
- 6.1つの変数の基本的なサンプリング理論
- 7.相関と回帰
- 8.相関と回帰の理論的度数分布
- 9.仮説を検証し、推定するための一般原則
- 10.適合度のテスト
- 11.小さなサンプルの分布
- 12.実験における統計的設計
- 13.ノンパラメトリック手法
- 14.その他の方法
[数学]
入門数理統計学
続けるかわからないけど、教科書を読んで学びをまとめる
- テキスト
- WEBで英語版の教科書が見られた Introduction to Mathematical Statistics 6th ed. - P. Hoel
- ↑のpdfをOCRにかけて利用 コマンドラインでPDFにOCRを掛ける on Linux(Ubuntu)
- 章立て
- 1.INTRODUCTION
- 2.PROBABILITY
- 3.NATURE OF STATISTICAL METHOD
- 4.EMPIRICAL FREQUENCY DISTRIBUTIONS OF ONE VARIABLE
- 5.THEORETICAL FREQUENCY DISTRIBUTIONS OF ONE VARIABLE
- 6.ELEMENTARY SAMPLING THEORY FOR ONE VARIABLE
- 7.CORRELATION AND REGRESSION
- 8.THEORETICAL FREQUENCY DISTRIBUTIONS FOR CORRELATION AND REGRESSION
- 9.GENERAL PRINCIPLES FOR TESTING HYPOTHESES AND FOR ESTIMATION
- 10.TESTING GOODNESS OF FIT
- 11.SMALL SAMPLE DISTRIBUTIONS
- 12.STATISTICAL DESIGN IN EXPERIMENTS
- 13.NON PARAMETRIC METHOD
- 14.OTHER METHODS
1.はじめに
- 統計的手法はいろいろなものに使える
- 実際の問題の解決のプロセスとして、統計は3つの段階を踏むと認識されている
- (1) 数理モデルの選択
- (2) モデルの妥当性の確認
- (3) 提示された問題の解決のために数理モデルから正しい結論を引き出す
- この書籍では(1),(3)に重点が置かれる
2.確率
2.2 標本空間(sample space)
- 標本空間 を導入する
- 試行によって確定する結果を扱う確率論で都合が良いため
- 定義: ある実験の可能な結果を表す点の集合をその実験の標本空間という
2.3 事象(events)
- 事象 (確率論)
- 標本空間の中であることが起こる確率を事象という
- 定義: 事象は標本空間の部分集合である
- 集合には積集合、和集合があるが、それと同じような定義で積事象、和事象がある
2.4 確率(probability)
- 確率の公理(probability axioms) がある、リンク先を参照
- 確率を定義する関数を集合関数という
- ある事象Aが起こる確率を \( P\{A\} \) と書く
2.5 加法定理(additon rule)
- 加法定理(additon rule)
- 集合の話と同様に
- \( P(A \cup B) = P(A) + (B)- P(A \cap B ) \)
- 標本空間の中にある確率を \( p_{1}, p_{2}, \cdots , p_{n} \)
- 標本空間の中にある事象を \( e_{1}, e_{2}, \cdots , e_{n} \) とすると
- \( P\left\{ A\right\} = \underset{A}{\sum} P\left\{ e_{i}\right\} = \underset{A}{\sum} p_{i} \) が成り立つ
2.6 乗法定理(multiplication rule)
ここから難しい
- 乗法定理(multiplication rule)
- \(A_1\)の起こることは確実であるという条件のもとに、ある事象\(A_2\)が起こるかどうかを知りたい
- 上記のような確率を \( P \{ A_2 | A_1 \} \), すなわち\(A_1\)の生起を条件とする条件つき確率と呼ぶ
\(A_1\)の起こる中でなおかつある事象\(A_2\)が起こる確率であるので、新しい確率は\(A_1\)を全ての標本空間とするものでなければいけない。つまり、\(A_1\)の確率を全部足したら1になるようにする。
\( 1= \underset{A_1}{\sum} \pi _{i} = c \underset{A_1}{\sum} p_{i}=cP\left\{ A_{1}\right\} \)
- 上記の式のcは、そういった定数を示している、等式的に \( c = 1 / P\{A_1\} \) となるので
\( \pi _{i}=\dfrac{p_{i} }{P\left\{ A_{1}\right\} } \)
条件つき確率の新しい確率πiは、元の確率p_iをP{A_1}で割ったものになる。まとめると…
\( \begin{aligned} P\left\{ A_{2} | A_{1}\right\} = \underset{ A_{1}\cap A_{2} }{\sum} \pi _{i} &= \dfrac{ \underset{A_1 \cap A_2}{\sum} p_{i} }{P \left \{ A_{1} \right\} } \\ &= \dfrac{P\left\{ A_{1}\cap A_{2}\right\} }{P\left\{ A_{1}\right\} } \end{aligned} \)
最後の部分の式変形は確率の定義から
- ちなみにこの辺の内容はもともと数学Cで教えられてたのだけど、2012年に数学Aに移行している。
2.8 ベイズの公式
- 標本空間をk個の互いに素な集合に分ける
- そのk個の集合を \(H_1, H_2, \cdots, H_k \) と表す
事象Aが起きて、かつHiが起こる確率は
\( \begin{aligned} P\left\{ H_{i}| A\right\} &=\dfrac{P\left\{ H_{i}\cap A\right\} }{P\left\{ A\right\} } \\ &=\dfrac{P\left\{ H_{i}\right\} P\left\{ A | H_{i}\right\} }{P\left\{ A\right\} } \end{aligned} \) ... 式(14) となる
事象Aの全ては\(H_1, H_2, \cdots, H_k \)がすべて背反なので足しこんでしまえば求められる
\( \begin{aligned}P\left\{ A\right\} &=P\left\{ H_{1}\cap A\right\} +P\left\{ H_{2}\cap A\right\} +...+P\left\{ H_{k}\cap A\right\} \\ &=\sum ^{k}_{j=1}P\left\{ H_{i}\right\} P\left\{ A | H_{j}\right\} \end{aligned} \)
これを式(14)に代入してベイズの公式完成
\(P\left\{ H_{i}| A\right\} =\dfrac{P\left\{ H_{i}\right\} \cdot P\left\{ A| H_{i}\right\} }{\sum ^{k}_{j=1}P\left\{ H_{j}\right\} P\left\{ A| H_{j}\right\} } \)
- ある事象を分割して、その事象P{Hk|A}の条件つき確率を求める場合それ以外の事象の数値がわかってないとだめということか
2.9 計数の方法
標本空間を図に書くのは大変なので、それ以外の数を数える方法を考える。この辺は高校数学の数学Aとかぶるので端折る。
- 2.9.1 樹形図
- 高校数学で習うような枝分かれ図 Tree diagram (probability theory)
- 2.9.2 順列
- 定義:順列 permutation
\({}_n P _r \) のこと
- 2.9.3 組合せ
- 定義:組合せ combination
\({}_n C _r \) のこと
- 2.9.4 同種の要素があるときの順列
- 重複組合せの公式と例題(玉,整数解の個数)
\({}_n H _r \) のこと
2.10 確率変数
- Wikipedia - 確率変数
- 起こりうることがらに割り当てている値(ふつうは実数や整数)を取る変数
サイコロを投げて目が6になる確率変数ならば \( P\{X=6\} \)
2.11 離散確率変数
- 確率変数のうち、値が離散であるもの(=連続ではない)
- 確率質量関数 を使って表す
\( P\{ X= x\} =\sum _{X=x}p_{i} \)
2.12 密度関数
- 離散確率密度関数、略して密度関数を導入すると便利
- 定義 Xを離散確率変数とするとき、\( f(x) = P(X=x) \) で定義される関数fをXの離散確率密度関数という
- 密度関数の一部を表すような関数を、分布関数Fと呼ぶ
- \( F(x) = P\{X \leq x\} = \underset{t \leq x}{\sum} f(t) \)
2.13 同時密度関数
- 複数の離散確率変数について密度関数を立てると、それを同時密度関数と呼ぶようだ
2.14 周辺分布と条件つき分布
- 確率変数Xがxという値をとることを\(A_1\)
- 同様にして確率変数Yがyという値をとることを\(A_2\) とすると、乗法定理から
- \( P\{A_1 \cap A_2\} = P\{A_1\} P\{A_2 | A_1\} \) と書ける
- なんやかんやあって、これは密度関数として以下のように書ける
- \( f(x,y) = f(x) f(y|x) \) ... 式(26)
- まあ、密度関数の定義から自明な気もする
- \( f(x,y) = f(x) f(y|x) \) に対して \( f(x) \) をXの周辺密度関数と呼ぶ
- 周辺分布
- 固定されたxの値に対して \( f(y|x) \) をyの全ての可能な値について加えた和は1に等しくないといけない 式(26)の両辺をyの全ての可能な値について加えれば、次の式が得られる
- \( f\left( x\right) = \underset{y}{\sum} f\left( x,y\right) \)
- ちょっとここよくわからん
- 条件つき分布
- 条件つき密度関数 \( f(y|x) \) はXが固定されているときのYの分布を与える 式(26)より、それは次のように書ける
- \( f\left( y| x\right) =\dfrac{f\left( x,y\right) }{f\left( x\right) } \)
2.15 連続確率変数
- これまでとは打って変わって、離散的でないものを考える
- 連続確率変数の密度関数は以下のような定義になる
\( \begin{aligned} &(i) f(x) \geqq 0 \\ &(ii) \int ^{\infty }_{-\infty }f(x) dx=1 \\ &(iii) \int ^{b}_{a}f(x) dx=P\left\{ a < x < b \right\} \end{aligned} \)
- (i) 確率なので結果は全て正の数になる
- (ii) 確率の公理から領域の全ての面積を足すと1になる(積分をとる)
- (iii) a < x < b までの領域の積分をとると、確率変数 \( P\{ a < x < b \} \) になる
なんか残りは自明な気がするので、わからなくなったらまとめる。→ 2章の演習問題へGO