假定 x ∼ N ( μ 1 , σ 1 2 ) x \sim N(\mu_1, \sigma_1^2) x ∼ N ( μ 1 , σ 1 2 ) ,y ∼ N ( μ 2 , σ 2 2 ) y \sim N(\mu_2, \sigma_2^2) y ∼ N ( μ 2 , σ 2 2 ) ,且 x x x 与 y y y 独立,这里假定两个总体的方差相等是合理的。
方法一:两样本 t t t 检验
记两种种子的单位产量的样本均值分别为 x ˉ , y ˉ \bar{x}, \bar{y} x ˉ , y ˉ ,样本方差分别为 s x 2 , s y 2 s_x^2, s_y^2 s x 2 , s y 2 。检验问题:
H 0 : μ 1 = μ 2 vs H 1 : μ 1 ≠ μ 2 H_0: \mu_1 = \mu_2 \quad \text{vs} \quad H_1: \mu_1 \neq \mu_2 H 0 : μ 1 = μ 2 vs H 1 : μ 1 = μ 2
在假设 σ 1 2 = σ 2 2 = σ 2 \sigma_1^2 = \sigma_2^2 = \sigma^2 σ 1 2 = σ 2 2 = σ 2 下,采用二样本 t t t 检验,检验统计量 t 1 t_1 t 1 与拒绝域 W 1 W_1 W 1 分别是
t 1 = x ˉ − y ˉ s w / n / 2 , W 1 = { ∣ t 1 ∣ > t 1 − α / 2 ( 2 n − 2 ) } , t_1 = \frac{\bar{x} - \bar{y}}{s_w / \sqrt{n/2}}, \quad W_1 = \{|t_1| > t_{1-\alpha/2}(2n-2)\}, t 1 = s w / n /2 x ˉ − y ˉ , W 1 = { ∣ t 1 ∣ > t 1 − α /2 ( 2 n − 2 )} ,
其中 s w 2 = ( s x 2 + s y 2 ) / 2 s_w^2 = (s_x^2 + s_y^2)/2 s w 2 = ( s x 2 + s y 2 ) /2 。由给出的数据可算得
x ˉ = 33.1 , y ˉ = 35.7 , s x 2 = 33.2111 , s y 2 = 14.2333 , s w 2 = 23.7222 , \bar{x} = 33.1, \quad \bar{y} = 35.7, \quad s_x^2 = 33.2111, \quad s_y^2 = 14.2333, \quad s_w^2 = 23.7222, x ˉ = 33.1 , y ˉ = 35.7 , s x 2 = 33.2111 , s y 2 = 14.2333 , s w 2 = 23.7222 ,
从而可算得两样本的 t t t 检验统计量的值(s w = 23.7222 = 4.8705 s_w = \sqrt{23.7222} = 4.8705 s w = 23.7222 = 4.8705 )
t 10 = 33.1 − 35.7 4.8705 / 10 / 2 = − 1.1937. t_{10} = \frac{33.1 - 35.7}{4.8705 / \sqrt{10/2}} = -1.1937. t 10 = 4.8705/ 10/2 33.1 − 35.7 = − 1.1937.
若给定 α = 0.05 \alpha = 0.05 α = 0.05 ,查表得 t 0.975 ( 18 ) = 2.1009 t_{0.975}(18) = 2.1009 t 0.975 ( 18 ) = 2.1009 ,由于 ∣ t 10 ∣ < 2.1009 |t_{10}| < 2.1009 ∣ t 10 ∣ < 2.1009 ,故不应拒绝原假设,即认为两种种子的单位产量平均值没有显著差别。此处检验的 p p p 值为 0.2480。
方法二:成对数据的 t t t 检验
在这个问题中出现了成对数据,同一块土地上用两种种子得两个产量,其差 d i = x i − y i d_i = x_i - y_i d i = x i − y i (i = 1 , 2 , ⋯ , 10 i = 1, 2, \cdots, 10 i = 1 , 2 , ⋯ , 10 )排除了土质差异这个不可控因素的影响,主要反映两种种子的优劣。
在正态性假定下,d = x − y ∼ N ( μ , σ d 2 ) d = x - y \sim N(\mu, \sigma_d^2) d = x − y ∼ N ( μ , σ d 2 ) ,其中 μ = μ 1 − μ 2 \mu = \mu_1 - \mu_2 μ = μ 1 − μ 2 ,σ d 2 = σ 1 2 + σ 2 2 \sigma_d^2 = \sigma_1^2 + \sigma_2^2 σ d 2 = σ 1 2 + σ 2 2 。原先要比较 μ 1 \mu_1 μ 1 与 μ 2 \mu_2 μ 2 的大小,如今则转化为考察 μ \mu μ 是否为零,即考察如下检验问题:
H 0 : μ = 0 vs H 1 : μ ≠ 0 , H_0: \mu = 0 \quad \text{vs} \quad H_1: \mu \neq 0, H 0 : μ = 0 vs H 1 : μ = 0 ,
即把双样本的检验问题转化为单样本 t t t 检验问题。这时检验的 t t t 统计量为
t 2 = d ˉ s d / n , t_2 = \frac{\bar{d}}{s_d / \sqrt{n}}, t 2 = s d / n d ˉ ,
其中
d ˉ = 1 n ∑ i = 1 n d i , s d = ( 1 n − 1 ∑ i = 1 n ( d i − d ˉ ) 2 ) 1 / 2 . \bar{d} = \frac{1}{n}\sum_{i=1}^{n} d_i, \quad s_d = \left(\frac{1}{n-1}\sum_{i=1}^{n}(d_i - \bar{d})^2\right)^{1/2}. d ˉ = n 1 i = 1 ∑ n d i , s d = ( n − 1 1 i = 1 ∑ n ( d i − d ˉ ) 2 ) 1/2 .
在给定显著性水平 α \alpha α 下,该检验问题的拒绝域是
W 2 = { ∣ t 2 ∣ ⩾ t 1 − α / 2 ( n − 1 ) } . W_2 = \{|t_2| \geqslant t_{1-\alpha/2}(n-1)\}. W 2 = { ∣ t 2 ∣ ⩾ t 1 − α /2 ( n − 1 )} .
在本例中可算得
n = 10 , d ˉ = − 2.6 , s d = 3.5024 , n = 10, \quad \bar{d} = -2.6, \quad s_d = 3.5024, n = 10 , d ˉ = − 2.6 , s d = 3.5024 ,
于是
t 20 = − 2.6 3.5024 / 10 = − 2.6 1.1076 = − 2.3475. t_{20} = \frac{-2.6}{3.5024 / \sqrt{10}} = \frac{-2.6}{1.1076} = -2.3475. t 20 = 3.5024/ 10 − 2.6 = 1.1076 − 2.6 = − 2.3475.
对给定的显著性水平 α = 0.05 \alpha = 0.05 α = 0.05 ,可查表得 t 0.975 ( 9 ) = 2.2622 t_{0.975}(9) = 2.2622 t 0.975 ( 9 ) = 2.2622 。由于 ∣ t 20 ∣ > 2.2622 |t_{20}| > 2.2622 ∣ t 20 ∣ > 2.2622 ,故应拒绝原假设 H 0 : μ = 0 H_0: \mu = 0 H 0 : μ = 0 ,即可认为两种种子的平均单位产量有显著差异,此处检验的 p p p 值为 0.0435。进一步,平均单位产量差的估计量为 μ ^ = x ˉ − y ˉ = − 2.6 \hat{\mu} = \bar{x} - \bar{y} = -2.6 μ ^ = x ˉ − y ˉ = − 2.6 ,可见种子 y y y 要比种子 x x x 的平均单位产量高。
两种方法的比较
本问题中两种处理方法得到完全不同的结论,我们指出成对数据 t t t 检验方法更加合理。这是因为成对数据的差 d i d_i d i 已消除了试验单元(如土质)之间的差别,从而用于检验的标准差 s d = 3.5024 s_d = 3.5024 s d = 3.5024 已排除土质差异的影响,只保留种子间的差异。而二样本 t t t 检验中用于检验的标准差 s w = 4.8705 s_w = 4.8705 s w = 4.8705 还含有土质差异,从而使得标准差增大,导致因子不显著。所以成对数据场合化为单样本 t t t 检验所作的结论更可信些。
应注意,成对数据的获得事先要作周密的安排(即试验设计)。在获得成对数据时不能发生"错位",从而准确获得"成对数据"的信息。