[版权声明] 本站所有资料由用户提供并上传,若内容存在侵权,请联系邮箱。资料中的图片、字体、音乐等需版权方额外授权,请谨慎使用。网站中党政主题相关内容(国旗、国徽、党徽)仅限个人学习分享使用,禁止广告使用和商用。
这是对 Statistics 《统计推断:假设检验》的总结。之前的专栏里面有 11 篇关于这一主题,本文试图把这一章的知识脉络梳理清楚,涵盖了全部的内容。
样本均值: , 样本方差:
若 相互独立,则 的总体均值为 , 均值的抽样分布仍符合正态分布。
标准误:样本均值服从正态分布,此分布的标准差称为标准误。根据中心极限定理,标准误为 。
z-score:在 z 分布(标准正态分布)中,某值与均值的距离用标准差的倍数来表示, 。
p-value:若 为真,出现当前检验统计量及更极端情况的概率。
可以用它与 进行比较判断,也可以先计算 对应的临界值,再与统计量比较作出判断。这是两种假设检验的思路。
为假,接受 的概率。只有再给出总体的真实分布时,才能利用临界值计算 。
检验功效(检定力) :当 为假,拒绝 的概率。
使用条件:(1)样本容量 ; (2)总体方差已知,则不管容量可用正态分布。
, 其中 n 为 t 分布的自由度。
使用条件:(1)小容量测试 ; (2)用样本方差替代总体方差。
若独立随机变量 , 称为自由度为 n 的卡方分布。
由于是标准正态分布随机变量的平方和,因此密度函数的定义域为非负数。
当样本量 n 越大时,卡方分布越接近正态分布。
若 是 n 个独立的样本(随机变量)
服从n-1的卡方分布。
两个独立的随机变量 ,则
称为自由度 m,n 的 F 分布。当两个自由度越大,越接近正态分布。
1、区间估计与置信区间
区间估计与双侧假设检验是等价的,95%的置信区间相当于 的双侧检验。
样本均值估计总体均值,采用 z 统计量 (服从标准正态分布)
,若置信区间为95%,则
若总体均值位于置信区间内,相当于接受“原假设” ,此时置信系数为 ,显著性水平为 。
2、单样本均值假设检验
(2)确定检验统计量 (z 统计量 或者 t 统计量,具体见适用条件)
(4)作出判断:是否拒绝原假设
正如前文所述,通常有两种判断方法:
对立假设的大于号,因为农民相信新技术能够提高豌豆的产量。
因此样本比率 ,精确来说,服从二项分布。
但为了方便计算, 当 和 (也有说法是大于 5 ),也可以用正态分布近似表示。
“样本比率”服从以“总体比率”为中心的正态分布的前提下,可以利用 z 检验或小样本 t 检验进行比率的假设检验。
(3)总体方差与样本标准误
根据前面分析,已知参加投票人群的总体服从伯努利分布,因此
总体比率(即总体均值)为
比率问题的关键在于,用样本比率 检验 总体比率 , 表示在原假设为真的前提下的总体比率。
则样本比率(即样本均值)的标准误等于总体标准差除以 , 即 。
比率问题与一般假设检验的最大区别:无需总体或样本的方差,利用比率本身进行标准误计算。
d 是不同总体的配对样本之差,随机变量
是 d 的均值,一个常数
于是,样本均值的标准差为
设显著性水平 , 两个样本的自由度
按照前面出给的数据, 临界值为 2.203
由于 F 比率等于 2.909,而临界值为2.203,F 比率统计量大于临界值,因此拒绝零假设。即认为两个总体的方差不一致。另外,我们认为第二组的方差是显著小于第一组的。
目的:多样本的均值检验,给出多个样本均值,检验它们的总体均值是否相等。
为什么不用多次的 t 检验?
t 检验可以判断一个总体均值是否等于某数。如果进行一系列的 t 检验,则可以比较所有有可能的均值。
当进行一次 t 检验时,发生第一类错误的概率是 , 如果我们进行了 c 次独立的 t 检验,则发生第一类错误的概率上升至
第一次正确的概率为 ,第 c 次(连续c次都正确)的概率为 ,则第 c 次发生第一类错误的概率为
也就是说如果每次 t 检验的显著性水平为0.05, 则连续 10 次 t 检验的 上升至0.4
起源:费舍尔的实验设计,研究农田产量与不同因子的关系。所谓“因子”就是导致产量发生变化的原因,例如:使用了不同类型的化肥。
,共有 n 个样本,自由度为 n-1
如果不同组的样本容量不一致,可以用下列公式:
组内离差平方和 : 以每一组的组内均值,计算离差平方和,把所有组累加起来。
组间离差平方和 : 以全部样本的总平均值,与组内均值计算离差平方和,结果乘以每组的容量。
组间离差均方和(组间方差):
组内离差均方和(组内方差):
, 两个样本方差服从 F 分布。
单因子方差分析的步骤:
- 确定零假设、备择假设,一般来说零假设为各组的均值相等
- 根据显著性水平计算临界值
- 如果 F 大于 临界值则拒绝零假设
单因子方差分析可以判断总体均值是否相等,但要找出哪一个不相等,则需要进一步验证(多重比较,超出本课程的范围了)。
单因子方差分析中只有一个因子对数据结果产生影响,因此也称为“单向”方差分析。对应地,如果有两个因子共同作用,就是双因子方差分析。
如图所示,因子A有 I 、II、III 三个水平,因子B有 两个水平,它们都会对实验结果产生影响。
而因子之间的相互影响,称为“交互效应”,双因子方差分析的难点主要在于此。
在挖金矿小游戏中,玩家通过指令控制小人运动,小人按照一定的规则将地底的金矿全部收集完毕。现将地底的截面可用一个n*n的矩阵表示,其中第一行表示地面,不会出现金矿;第2行至第n行表示地底。每一行中黑色格子表示金矿,白色格子表示空地,其中小人在矩阵左上角第一行第一列的位置。
玩家通过4种指令控制小人运动:
· 左 X:小人向左移动X个格子
· 右 X:小人向右移动X个格子
· 下 X:小人向下移动X个格子
· 挖矿:收集小人所在格子的金矿
小人收集金矿需要遵循一定的规则:
①小人必须将当前行的金矿全部收集,才能去往下一行,即金矿需从上到下收集
②对于同一行的金矿,小人必须按照从左往右的顺序开始收集
现编写程序,以8*8的矩阵为例,在文本框Text1中输入金矿数量,点击按钮“开始”后,随机产生对应数量的金矿并借助图形控件输出(保证不会在同一个格子出现两个金矿),并且在列表框List1中按顺序输出指令,使小人按照规则得到所有金矿。如图a所示。请回答下列问题。
(1) 现有4*4的地底截面如图b所示,小人在左上角位置,请写出任意一种可使小人按规则获得所有金矿的指令(指令之间用逗号或空格隔开)。
(2) 请完成程序中的填空。
'随机产生m个金矿并通过图形控件显示在界面上,代码略
'将所有金矿按照从上到下、从左到右的顺序排序,以符合题目描述的规则