多変量解析におけるサンプルサイズの計算

データに関するついて何らかの仮説がないとサンプルサイズは計算できませんが、多くの場合、投入する独立変数の数×10~20を目安として算出しています。

「多重ロジスティック回帰、比例ハザード解析であれば、1独立変数あたりに少なくとも10人の被験者(たとえば、心筋梗塞,がん診断では10人の被験者)があるでしょう(他の言葉で言えば,50のアウトカムがあるなら、5つの独立変数が対応します)。 多重線形回帰であれば、1独立変数当たり20人の被験者を必要とします。」

"It has been suggested that there should be more than 100 participants, or that there should be (ideally) at least 20 participants per independent variable in a regression analysis"

拙訳:回帰分析では、100人以上の参加者がいるべきだとか、理論的には独立変数あたり少なくとも20人いるべきだと提案されてきました

"Green(1991) proposed a method for determining a minimum sample size to test the R2 of a regression model. He suggested that the minimum sample should be greater than 50 + 8k, where k is equal to the number of independent variables. If you want to carry out significance tests on regression slopes, the size should be greater than 104+k."

拙訳:1991年Green氏は、回帰モデルにおける決定係数(R2)を検定する際の最小サンプルサイズを計算する方法を提案しました。それによると、最小サンプルサイズは、50+独立変数の数×8としました。また、回帰係数を検定する場合には、104+独立変数の数としました。どちらの検定も行う場合は、大きい方としました。

Jeremy Miles(2000). Applying Regression and Correlation: A Guide for Students and Researchers p 119 より引用

厳密には

重回帰分析では、独立変数が1つしかない単回帰分析よりも多くのサンプルサイズが必要です。したがって、単回帰分析のサンプルサイズを計算して、それ以上であることを確認してから、上記の独立変数の数×10~20を適用すべきです。

より厳密には

上記計算では、効果量や検出力のことはいっさい考慮されていないので、可能であれば検出力分析(Power Analysis)を行うべきとされています。