確率統計の復習: 期待値と分散

参考書を読みながら、まったり確率統計の復習中。

離散型確率分布の期待値と分散

離散型確率変数 { X = x_1,\, x_2, \, \cdots ,\, x_n } に対して、それぞれ確率 { P = p_1,\, p_2,\, \cdots ,\, p_n } が割り当てられている確率分布における {X}期待値を、以下のように定義する。

{ E [ X ] = \mu = \displaystyle\sum_{k=1}^{n}x_{k} p_{k} }

ちなみに上式の {E} をある種の演算子とみなすと、以下のように線型性 { E [ aX + b ] = a E [ X ] + b } が成り立つことがわかる({ a, \, b } は定数)。

{
\begin{align}
E [ aX + b] &= \displaystyle\sum_{k = 1}^{n} (ax_k + b) p_k \\
&= a \underbrace{ \displaystyle\sum_{k=1}^{n} x_k p_k }_{ E[ X ] } + b \underbrace{ \displaystyle\sum_{k=1}^n p_k }_{1} \\
&= a E [ X ] + b
\end{align}
}

続いて、分散を以下のように定義する。

{
\begin{align}
V [ X ] = \sigma^2 &= \displaystyle\sum_{k=1}^{n} (x_k -  \mu)^2 p_k 
\end{align}
}

分散を手計算しようとすると、上の定義式は少々不便なので、実際には以下のように式変形を行った結果を利用することが多い。

{
\begin{align}
V [ X ] = \sigma^2 &= \displaystyle\sum_{k=1}^{n} (x_k -  \mu)^2 p_k \\
&= \displaystyle\sum_{k=1}^{n} ( x_k^2 - 2\mu x_k + \mu^2 ) p_k \\
&= \displaystyle\sum_{k=1}^{n}x_k^2 p_k - 2\mu \underbrace{ \displaystyle\sum_{k=1}^{n} x_k p_k }_{ \mu }+ \mu^2 \underbrace{ \displaystyle\sum_{k=1}^{n} p_k }_{1} \\
&= \displaystyle\sum_{k=1}^{n}x_k^2 p_k - 2\mu^2 + \mu^2 \\
&= \displaystyle\sum_{k=1}^{n}x_k^2 p_k - \mu^2
\end{align}
}

個人的に、どうも分散は定義ありきで、いささか天下り的な印象を受ける。 データの散らばり具合を表すだけが目的ならば、必ずしもこのような定義である必要はないだろうが。

まぁ余計なことは詮索せず、まずは「{ \sum_{k=1}^{n} (x_k -  \mu )^{2} p_k } という式に分散という名前をつけた」という事実だけを覚えておくことにしよう。

……と書いたら、ぽち太先生からこんなリプライをいただいた。

{m} 次のモーメント

問題はここからだ。 いきなり新たな概念が登場する。 焦る。

原点まわりの {m}モーメント { E [ X^{m} ] } を、以下のように定義する。

 {
\begin{align}
E [ X^m ] &= \displaystyle\sum_{k = 1}^{n} x_k^m p_k \\
&= x_1^m p_1 + x_2^m p_2 + \cdots + x_n^m p_n
\end{align}
}

また、 { \mu } まわりの {m}モーメント { E [ (X-\mu)^{m} ] } を、以下のように定義する。

 {
\begin{align}
E[ (X - \mu)^m ] &= \displaystyle\sum_{k=1}^{n} (x_k - \mu)^m p_k \\
&= (x_1 - \mu)^m p_1 + (x_2 - \mu)^m p_2 + \cdots + (x_n - \mu)^m p_n
\end{align}
}

モーメントってどういう意味だろうとか、なぜこのようなものがここで出てくるのだろうとか、思うところはいろいろあるが、定義を与えられたらひとまずは「こういうものだ」と飲み込んでしまった方がよい。

プログラムを書く人がとりあえず宣言した変数に hoge とか fuga とか名づけるように、数学者もとりあえずこういう式にモーメントと名づけたのだろう。

期待値 { \mu } は原点まわりの1次モーメント { E [ X^{1} ] }、分散 { \sigma ^{2} } { \mu } まわりの 2 次モーメント { E [ (X-\mu)^{2} ] } となる。

さらに、分散は演算子  {E} を用いて以下のように記述できる。 途中の式変形には  {E} の線型性を利用している。

 {
\begin{align}
V [ X ] &= E [ (X - \mu)^2 ] \\
&= E [ X^2 - 2\mu X + \mu^2 ] \\
&= E [ X^2 ] - 2\mu \! \cdot \! \underbrace{ E [ X ] }_{\mu}  + \mu^2 \\
&= E [ X^2 ] - \underbrace{ \mu^2 }_{E [ X ]^2} \\
&= E [ X^2 ] - E [ X ]^2
\end{align}
}

ぐるぐると回ったものの、結局、やったことといえば期待値・分散の定義を覚えた上で、

  • モーメントを用いて平均・分散を計算できること
  • 分散を演算子  {E} の式に書き換えられること

を知ったことくらいだろう。

いずれも計算テクニックに近い話だが、おそらくこれらの前提知識がないとそのあと出会う数式に対して手も足も出なくなりそうなので、きちんと押さえておきたい。