分散はデータのばらつきを示す指標です。
10人分の血圧データがあるとします。まずはその10人の血圧の平均値を求めます。 次に、各自の血圧から平均値を引きます。この平均値との差のことを偏差といいます。
次にこの10人分の偏差それぞれを二乗します。
この10人分の偏差の二乗を全部足して、人数10で割ったものが分散(標本分散)です。「偏差の二乗」の平均ともいえます。
もし全員の血圧が130mmHgとぴったり同じ値であった場合、偏差は0になり、分散も0になります。
また、血圧が90mmHgとかなり低い人や180mmHgと極端に高い人がいたりすると、偏差が大きくなり、分散も大きくなります。
このようにデータのばらつきが小さいと分散は小さくなり、ばらつきが大きくなると分散も大きくなります。
分散には、標本分散と不偏分散の2種類があります。
計算方法が異なり、標本分散では偏差の二乗をデータの数で割りますが、不偏分散では(データの数-1)で割ります。不偏分散の方が少し大きくなるのです。