信頼区間

推定には点推定と区間推定がある。

たとえば、余命を推定するときに、「余命はあと6か月」というのが点推定。「余命は3カ月から2年」というのが区間推定。

区間推定の場合、その区間の間に本当の値があるかないかが問題である。

はずれては困るのであれば、長い区間「余命はあと1日〜20年」と宣告すればよいし、多少はずれてもいいなら「余命はあと3カ月から4か月」としてもよい。

どのぐらいあたる確率が必要かによって区間が変わる。このとき真の値が含まれる確率のことを信頼率と呼び、95%が用いられることが多い。95%信頼区間とは、この区間に真の値が含まれている確率が95%という意味である。

余命の95%信頼区間が「1か月〜5年」であれば、その人と同じ状態の人が100人いたとして、そのうち95人はこの期間に亡くなり、残り5人はこれより短いか、長生きするということになる。

信頼区間を短くしたいのであれば、信頼率を下げればよい。 余命の50%信頼区間であれば、「3カ月〜1年」などとなる。つまり半数の人がこの期間に亡くなり、残りの半数はこれ以外の期間に亡くなる。

信頼区間は、信頼率によって変わる。

厳密な意味の信頼区間

真の値は1つしか存在していないので、ある区間に真の値が含まれるか、含まれないかは2択しかない。したがって、確率で考えるのは好ましくないという意見がある。

本当の意味としては、いろんなデータについて95%信頼区間の計算を行ったとき、それぞれの信頼区間の中に真の値がある場合が95%あるという意味。

明日の降水確率10%といっても、明日は雨が降るか、降らないかどちらかしかないので、10%というのはおかしい。降水確率10%という日をたくさん調べたら、そのうち本当に雨が降った日が10%あるというのが正しい。

という話。個人的にはそんなにこだわる必要あるの?って思ってる。

信頼区間の計算

参考書