分散

分散はデータのばらつきを示す指標です。

分散の計算方法

10人分の血圧データがあるとします。まずはその10人の血圧の平均値を求めます。 次に、各自の血圧から平均値を引きます。この平均値との差のことを偏差といいます。

次にこの10人分の偏差それぞれを二乗します。

この10人分の偏差の二乗を全部足して、人数10で割ったものが分散(標本分散)です。「偏差の二乗」の平均ともいえます。

分散の性質

もし全員の血圧が130mmHgとぴったり同じ値であった場合、偏差は0になり、分散も0になります。

また、血圧が90mmHgとかなり低い人や180mmHgと極端に高い人がいたりすると、偏差が大きくなり、分散も大きくなります。

このようにデータのばらつきが小さいと分散は小さくなり、ばらつきが大きくなると分散も大きくなります。

標本分散と不偏分散

分散には、標本分散と不偏分散の2種類があります。

計算方法が異なり、標本分散では偏差の二乗をデータの数で割りますが、不偏分散では(データの数-1)で割ります。不偏分散の方が少し大きくなるのです。