統計学 定義まとめ

2018/09/08

範囲

$R = $ 観測値の最大値 - 観測値の最低値

階級値

各階級の最小の値と未満の値を足して2で割ったもの

算術平均

$$ \overline{x} = \frac{1}{n} \sum_{i=1}^{n}x_i $$

以下の性質が成り立つ

$$ \sum_{i=1}^{n}cx_i = c\sum_{i=1}^{n}x_i \\~\\ \sum_{i=1}^{n}\left( x_i + y_i \right) = \sum_{i=1}^{n}x_i + \sum_{i=1}^{n}y_i $$

中央値

観測値を大きさの順に並べたとき中央に位置するもの。観測値が偶数の場合は中央2つの値を足して2で割る

最頻値

出現頻度が最も高い観測値

偏差

$$ x_i - \overline{x} \left( i = 1, 2, ... , n \right) $$

偏差平方和

$$ S = \sum_{i=1}^{n} \left( x_i - \overline{x} \right)^2 $$

分散

$$ s^2 = \frac{S}{n-1} = \frac{1}{n-1} \sum_{i=1}^{n} \left( x_i - \overline{x} \right)^2 $$

偏差平方和の$n$に応じて値が大きくなる性質を考慮し$\frac{1}{n - 1}$で割っている。単位は元の観測値の2乗になる

標準偏差

$$ s = \sqrt{s^2} = \sqrt{ \frac{1}{n - 1} \sum_{i=1}^{n} \left( x_i - \overline{x} \right)^2 } $$

分散$s^2$で2乗になった単位を元の観測値と同じにする

第1, 2, 3四分位数

観測値を4等分する1

元の観測値の数が奇数

元の観測値の数が偶数

四分位範囲

四分位範囲 = 第3四分位数 - 第1四分位数

変動係数

$$ CV = \frac{s}{|\overline{x}|} $$

ばらつきの尺度として$s$を用いる場合、平均値と相対的な値にするため$|\overline{x}|$で割る

四分位分散係数

四分位範囲をIQR、中央値をmedとする

四分位分散係数 = $\frac{IQR}{2 \ \times\ med}$

変動係数同様ばらつきの尺度として用いられる

標準化

$$ z_i = \frac{x_i - \overline{x}}{s_x}\ \left( i = 1, 2, ... , n\right) $$

平均値は0, 標準偏差は1となる

偏差値

$$ z_i = 50 + \frac{x_i - \overline{x}}{s_x} \times 10 \ \left( i = 1, 2, ... , n\right) $$

平均値は50, 標準偏差は10となる。
ある2種類の観測値が正規分布に従う場合、平均値や標準偏差の差異に関わらず結果を比較することができる

移動平均

季節変動と不規則変動を除去し、傾向変動(トレンド)を見出すための技法
変動の周期をNとする時、N項移動平均と呼ばれる

Nが奇数の場合

$N = 2k + 1$とする時

$$ \widetilde{x}_t = \frac{1}{n}\left(x_i + \sum_{j=1}^{k}\left(x_{i-j} + x_{i+j}\right)\right) $$

Nが偶数の場合

$N = 2k$とする時

$$ \widetilde{x}_t = \frac{1}{n}\left(x_i + 0.5 \times \left(x_{i-k} + x_{i+k}\right) + \sum_{j=1}^{k-1}\left(x_{i-j} + x_{i+j}\right)\right) $$

幾何平均

$$ \sqrt[n]{\prod_{i=0}^{n}x_i} $$

平均を取る値の間に大きな差がない場合、幾何平均を算術平均で代用してもよい

オッズ

ある事象Aの発生確率をpとする

$$ Odds = \frac{p}{1 - p} $$

オッズ比

ある事象Aの発生確率をp, 事象Bの発生確率をqとする

$$ \psi = \frac{OddsA}{OddsB} = \frac{\frac{p}{1 - p}}{\frac{p}{1 - q}} $$

この値が1に近いほどaとbは独立になり、0に近いまたは正の大きな値になるほど関係性が強くなる

連関係数

$$ Q = \frac{\psi - 1}{\psi + 1} $$

$[0, \infty)$の値をとるオッズ比を$[-1, 1]$の値をとるように変換したもの。1もしくは-1に近づくほど関係性が強くなり、0の場合に独立となる

共分散

観測値xとyについて、

$$ s_{xy} = \frac{1}{n-1} \sum_{i=1}^{n} \left( x_i - \overline{x} \right)\left( y_i - \overline{y} \right) $$

xとyに正の相関があるほど正の大きな値をとり、負の相関があるほど負の大きな値を取り、0にに近いほど関係性が弱くなる

相関係数

$$ r = \frac{s_{xy}}{s_xs_y} $$

xとyをそれぞれ標準化した値の共分散を計算したもの。共分散は範囲が$(\infty, -\infty)$でありxとyの単位のとり方が値の大きさに影響するため、これを$[-1, 1]$とし単位に無関係な値にしている。

確率

基本事象$\Omega$があるとき、任意の事象Aについて以下の規則を全て満足するときにP(A)をAの確率とよぶ

条件付き確率

事象Aが起こったという条件の下で事象Bが起こる確率

$$ P(B|A) = \frac{P(A \cap B)}{P(A)} $$

確率の乗法定理

条件付き確率の式より

$$ P(A \cap B) = P(A) \times P(B|A) $$

事象の独立性

事象A, Bについて以下が成り立つとき、AとBは独立であるという

$$ P(A \cap B) = P(A) \times P(B) $$

また$P(A) > 0かつP(\overline{A}) > 0$のとき、以下が成り立つ

$$ P(B|A) = P(B|\overline{A}) = P(B) $$

ベイズの定理

であり

が与えられたとき、$P(A_i|B_j)$を求める以下の式をベイズの定理とよぶ

$$ P(A_i|B_j) = \frac{P(A_i)P(B_j|A_i)}{\sum_{k=1}^{a}P(A_k)P(B_j|A_k)},\ i = 1, 2, ..., a,\ j = 1, 2, ..., b $$

順列

n個の異なるものからr個を取り出すとする

$$ {}_n P_r = n \times (n - 1) \times ... \times (n - r + 1) = \frac{n!}{(n - r)!} $$

組み合わせ

n個の異なるものからr個を取り出すとする

$$ {}_n C_r = \frac{n!}{r!(n - r)!} $$

離散型確率分布

期待値 (平均値)

$$ \mu = E(x) = \sum_{i=1}^{m}a_ip_i $$

また、確率変数xに基づく関数g(x)の期待値は以下の通り

$$ E\left(g\left(x\right)\right) = \sum_{i=1}^{m}g(a_i)p_i $$

分散

$$ \sigma^2 = \sum_{i=1}^{m}\left(a_i - \mu\right)^2p_i = \sum_{i=1}^{m}a_i^2p_i - \mu^2 $$

また、確率変数xに基づく関数g(x)の分散は$\sigma^2 = \sum_{i=1}^{m}a_i^2p_i - \mu^2$より以下の通り

$$ \sigma^2 = E\left(x^2\right) - \{E\left(x\right)\}^2 $$

標準偏差

$$ \sigma = \sqrt{\sigma^2} $$

連続型確率分布

期待値 (平均値)

$$ \mu = E(x) = \int_{-\infty}^\infty xf(x)dx $$

また、確率変数xに基づく関数g(x)の期待値は以下の通り

$$ E\{g(x)\} = \int_{-\infty}^\infty g(x)f(x)dx $$

分散

$$ \sigma^2 = V(x) = \int_{-\infty}^\infty (x - p)^2 f(x) dx $$

また、確率変数xに基づく関数g(x)の分散は以下の通り

$$ \sigma^2 = E\left(x^2\right) - \{E\left(x\right)\}^2 $$

標準偏差

$$ \sigma = \sqrt{\sigma^2} $$

確率分布の1次変換

$$ E(cx+d) = cE(x) + d \\~\\ V(cx+d) = c^2V(x) \\~\\ \sqrt{V(cx+d)} = |c|\sqrt{V(x)} $$

確率分布の標準化

確率変数xに以下の処理を行うと、平均値0, 標準偏差1のデータとなる

$$ x = \frac{x - \mu}{\sigma} $$

期待値の線形性

以下の2つの性質を期待値の線形性を呼ぶ

$$ E\{cg(x)\} = cE\{g(x)\} \\~\\ E\{g(x) + h(x)\} = E\{g(x)\} + E\{h(x)\} $$

  1. 中央値と四分位数の求め方。四分位範囲・四分位偏差とは何か? | アタリマエ!