範囲
$R = $ 観測値の最大値 - 観測値の最低値
階級値
各階級の最小の値と未満の値を足して2で割ったもの
算術平均
$$
\overline{x} = \frac{1}{n} \sum_{i=1}^{n}x_i
$$
以下の性質が成り立つ
$$
\sum_{i=1}^{n}cx_i = c\sum_{i=1}^{n}x_i \\~\\
\sum_{i=1}^{n}\left( x_i + y_i \right) = \sum_{i=1}^{n}x_i + \sum_{i=1}^{n}y_i
$$
中央値
観測値を大きさの順に並べたとき中央に位置するもの。観測値が偶数の場合は中央2つの値を足して2で割る
最頻値
出現頻度が最も高い観測値
偏差
$$
x_i - \overline{x} \left( i = 1, 2, ... , n \right)
$$
偏差平方和
$$
S = \sum_{i=1}^{n} \left( x_i - \overline{x} \right)^2
$$
分散
$$
s^2 = \frac{S}{n-1} = \frac{1}{n-1} \sum_{i=1}^{n} \left( x_i - \overline{x} \right)^2
$$
偏差平方和の$n$に応じて値が大きくなる性質を考慮し$\frac{1}{n - 1}$で割っている。単位は元の観測値の2乗になる
標準偏差
$$
s = \sqrt{s^2} = \sqrt{ \frac{1}{n - 1} \sum_{i=1}^{n} \left( x_i - \overline{x} \right)^2 }
$$
分散$s^2$で2乗になった単位を元の観測値と同じにする
第1, 2, 3四分位数
観測値を4等分する
元の観測値の数が奇数
- 第1四分位数
- 第2四分位数
- 第3四分位数
- (中央値を超える値から最大値以下)の観測値の中央値
元の観測値の数が偶数
- 第1四分位数
- (最小値以上から中央値の小さい方の値以下)の観測値の中央値
- 第2四分位数
- 第3四分位数
- (中央値の大きい方の値以上最大値以下)の観測値の中央値
四分位範囲
四分位範囲 = 第3四分位数 - 第1四分位数
変動係数
$$
CV = \frac{s}{|\overline{x}|}
$$
ばらつきの尺度として$s$を用いる場合、平均値と相対的な値にするため$|\overline{x}|$で割る
四分位分散係数
四分位範囲をIQR、中央値をmedとする
四分位分散係数 = $\frac{IQR}{2 \ \times\ med}$
変動係数同様ばらつきの尺度として用いられる
標準化
$$
z_i = \frac{x_i - \overline{x}}{s_x}\ \left( i = 1, 2, ... , n\right)
$$
平均値は0, 標準偏差は1となる
偏差値
$$
z_i = 50 + \frac{x_i - \overline{x}}{s_x} \times 10 \ \left( i = 1, 2, ... , n\right)
$$
平均値は50, 標準偏差は10となる。
ある2種類の観測値が正規分布に従う場合、平均値や標準偏差の差異に関わらず結果を比較することができる
移動平均
季節変動と不規則変動を除去し、傾向変動(トレンド)を見出すための技法
変動の周期をNとする時、N項移動平均と呼ばれる
Nが奇数の場合
$N = 2k + 1$とする時
$$
\widetilde{x}_t = \frac{1}{n}\left(x_i + \sum_{j=1}^{k}\left(x_{i-j} + x_{i+j}\right)\right)
$$
Nが偶数の場合
$N = 2k$とする時
$$
\widetilde{x}_t = \frac{1}{n}\left(x_i + 0.5 \times \left(x_{i-k} + x_{i+k}\right) + \sum_{j=1}^{k-1}\left(x_{i-j} + x_{i+j}\right)\right)
$$
幾何平均
$$
\sqrt[n]{\prod_{i=0}^{n}x_i}
$$
平均を取る値の間に大きな差がない場合、幾何平均を算術平均で代用してもよい
オッズ
ある事象Aの発生確率をpとする
$$
Odds = \frac{p}{1 - p}
$$
オッズ比
ある事象Aの発生確率をp, 事象Bの発生確率をqとする
$$
\psi = \frac{OddsA}{OddsB} = \frac{\frac{p}{1 - p}}{\frac{p}{1 - q}}
$$
この値が1に近いほどaとbは独立になり、0に近いまたは正の大きな値になるほど関係性が強くなる
連関係数
$$
Q = \frac{\psi - 1}{\psi + 1}
$$
$[0, \infty)$の値をとるオッズ比を$[-1, 1]$の値をとるように変換したもの。1もしくは-1に近づくほど関係性が強くなり、0の場合に独立となる
共分散
観測値xとyについて、
$$
s_{xy} = \frac{1}{n-1} \sum_{i=1}^{n} \left( x_i - \overline{x} \right)\left( y_i - \overline{y} \right)
$$
xとyに正の相関があるほど正の大きな値をとり、負の相関があるほど負の大きな値を取り、0にに近いほど関係性が弱くなる
相関係数
$$
r = \frac{s_{xy}}{s_xs_y}
$$
xとyをそれぞれ標準化した値の共分散を計算したもの。共分散は範囲が$(\infty, -\infty)$でありxとyの単位のとり方が値の大きさに影響するため、これを$[-1, 1]$とし単位に無関係な値にしている。
確率
基本事象$\Omega$があるとき、任意の事象Aについて以下の規則を全て満足するときにP(A)をAの確率とよぶ
- $0 < P(A) < 1$
- $P(\emptyset) = 0$
- $P(\Omega) = 1$
- AとBが互いに排反ならば$P(A \cup B) = P(A) + P(B)$
条件付き確率
事象Aが起こったという条件の下で事象Bが起こる確率
$$
P(B|A) = \frac{P(A \cap B)}{P(A)}
$$
確率の乗法定理
条件付き確率の式より
$$
P(A \cap B) = P(A) \times P(B|A)
$$
事象の独立性
事象A, Bについて以下が成り立つとき、AとBは独立であるという
$$
P(A \cap B) = P(A) \times P(B)
$$
また$P(A) > 0かつP(\overline{A}) > 0$のとき、以下が成り立つ
$$
P(B|A) = P(B|\overline{A}) = P(B)
$$
ベイズの定理
- $A_1, A_2, …, A_a$が互いに排反
- $A_1 \cup A_2 \cup , …, \cup A_a = \Omega_a$
- $B_1, B_2, …, B_b$が互いに排反
- $B_1 \cup B_2 \cup , …, \cup B_b = \Omega_b$
であり
- $P(A),\ i = 1, 2, …, a$
- $P(B_j|A_i),\ i = 1, 2, …, a,\ j = 1, 2, …, b$
が与えられたとき、$P(A_i|B_j)$を求める以下の式をベイズの定理とよぶ
$$
P(A_i|B_j) = \frac{P(A_i)P(B_j|A_i)}{\sum_{k=1}^{a}P(A_k)P(B_j|A_k)},\ i = 1, 2, ..., a,\ j = 1, 2, ..., b
$$
順列
n個の異なるものからr個を取り出すとする
$$
{}_n P_r = n \times (n - 1) \times ... \times (n - r + 1) = \frac{n!}{(n - r)!}
$$
組み合わせ
n個の異なるものからr個を取り出すとする
$$
{}_n C_r = \frac{n!}{r!(n - r)!}
$$
離散型確率分布
期待値 (平均値)
$$
\mu = E(x) = \sum_{i=1}^{m}a_ip_i
$$
また、確率変数xに基づく関数g(x)の期待値は以下の通り
$$
E\left(g\left(x\right)\right) = \sum_{i=1}^{m}g(a_i)p_i
$$
分散
$$
\sigma^2 = \sum_{i=1}^{m}\left(a_i - \mu\right)^2p_i = \sum_{i=1}^{m}a_i^2p_i - \mu^2
$$
また、確率変数xに基づく関数g(x)の分散は$\sigma^2 = \sum_{i=1}^{m}a_i^2p_i - \mu^2$より以下の通り
$$
\sigma^2 = E\left(x^2\right) - \{E\left(x\right)\}^2
$$
標準偏差
$$
\sigma = \sqrt{\sigma^2}
$$
連続型確率分布
期待値 (平均値)
$$
\mu = E(x) = \int_{-\infty}^\infty xf(x)dx
$$
また、確率変数xに基づく関数g(x)の期待値は以下の通り
$$
E\{g(x)\} = \int_{-\infty}^\infty g(x)f(x)dx
$$
分散
$$
\sigma^2 = V(x) = \int_{-\infty}^\infty (x - p)^2 f(x) dx
$$
また、確率変数xに基づく関数g(x)の分散は以下の通り
$$
\sigma^2 = E\left(x^2\right) - \{E\left(x\right)\}^2
$$
標準偏差
$$
\sigma = \sqrt{\sigma^2}
$$
確率分布の1次変換
$$
E(cx+d) = cE(x) + d \\~\\
V(cx+d) = c^2V(x) \\~\\
\sqrt{V(cx+d)} = |c|\sqrt{V(x)}
$$
確率分布の標準化
確率変数xに以下の処理を行うと、平均値0, 標準偏差1のデータとなる
$$
x = \frac{x - \mu}{\sigma}
$$
期待値の線形性
以下の2つの性質を期待値の線形性を呼ぶ
$$
E\{cg(x)\} = cE\{g(x)\} \\~\\
E\{g(x) + h(x)\} = E\{g(x)\} + E\{h(x)\}
$$