首页 理论教育 群组比较和假设检验的实例分析

群组比较和假设检验的实例分析

时间:2023-06-25 理论教育 版权反馈
【摘要】:若零假设成立,那么A组与B组的数据分布是一样的,即服从同个分布。这个过程通常可以由R语言模块自动完成。图2-35结果直方图如图2-35所示,我们的观测值S=14在抽样总体的右尾附近,说明在零假设条件下这个数值是很罕见的。

群组比较和假设检验的实例分析

农场希望检验一种新的化肥是否有利于苹果树结果,于是分别对12棵同时期栽种的苹果树上施加这种新化肥,另外16棵苹果树上没有施肥。最后得出施肥后各棵苹果树结果数量组A,与未经施肥的苹果树结果数量组B。(均为假定值。)

A={24,43,58,67,61,44,67,49,59,52,62,50}

B={42,43,65,26,33,41,19,54,42,20,17,60,37,42,55,28}

我们先用假设检验判断新化肥是否起作用。设零假设为:新化肥不会促进苹果树结果。若零假设成立,那么A组与B组的数据分布是一样的,即服从同个分布。

接下来用均值构造检验统计量

代入数值得

我们可以通过S在置换分布(Permutation Distribution)中的位置来得到它的p值。

那么置信检验的具体步骤是:

(1)将A、B两组数据合并到一个集合G中

G={24,43,58,67,61,44,67,49,59,52,62,50,42,43,65,26,33,41,19,54,42,20,17,60,37,42,55,28}

从中随机选出12个作为A组的数据(XA1),剩下的作为B组的数据(XB1):

XA1={43,17,44,62,60,26,28,61,50,43,33,19}

XB1={55,41,42,65,59,24,54,52,42,49,37,67,67,20,42,58}

(2)计算并记录XA1组同XB1组的均值之差

(3)对前两步重复999次(重复次数越多,得到的背景分布越“稳定”)(www.xing528.com)

这样我们就得到999个置换排列求得的999个Sn结果。这个过程通常可以由R语言模块自动完成。

然后将这999个Sn结果做出频率直方图,从而显示出新化肥小样本实验的抽样总体情况(图2-35)。

图2-35 结果直方图

如图2-35所示,我们的观测值S=14在抽样总体的右尾附近,说明在零假设条件下这个数值是很罕见的。已知置换排列得到的抽样总体中大于14的数值有9个,所以估计的P值是:

最后还可以做个抽样总体校正,进一步精确P值结果。

结果表明我们的原假设不成立,即新化肥确实有利于苹果树结果。

图2-36是程序运行script呈现。

图2-36 script程序运行

【注释】

[1]维克托·迈尔·舍恩伯格,肯尼斯·库克耶,大数据时代[M].杭州:浙江人民出版社,2012.

[2]主要参考:http://www.plob.org/2012/09/20/3553.html
http://www.zhihu.com/question/24779017
http://www.zhihu.com/question/20388507
http://www.zhihu.com/question/19611094
http://www.zhihu.com/question/20388507
http://www.zhihu.com/question/34414265
http://baike.baidu.com/link?url=vqGlrJT78ZVQT_ZlpBJ0qt KeCUGLDIFPs MXKliugDjXZKAtc TFer Eyy Qt TqoO7NPHHPij07v_rw YoOktEt-FcK#7_1
http://www.zhihu.com/question/21309717

[3]CGI,即通用网关界面(Common Gateway Interface),是外部应用程序(CGI程序)与Web服务器之间的接口标准,WWW技术中最重要的技术之一。

[4]FTP,即文件传输协议(File Transfer Protocol),用于Internet上的控制文件的双向传输。

[5]XML,即可扩展标记语言(Extensible Markup Language),一种用于标记电子文件使其具有结构性的标记语言,它的设计宗旨是传输数据,而不是显示数据,是超文本标记语言(HTML)的补充。XML-RPC是其子集,即XML远程过程调用(XML Remote Procedure Call),使用http作为传输协议,XML作为传送信息的编码格式。

[6]Tk,即Tk域名,目前可以免费申请,特殊域名(少于4个字母,特殊含义等)需要收费。是网络上最容易申请到的免费域名之一,与COM、NET、CN一样同属顶级域名。

[7]数据来源:http://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.

[8]常见的转换模式是取对数或者取平方根及文中所提“z=lon(y)”和"sqrt"即该命令行legend["bottomright",c("log","sqrt"),fill=c("black","red")]的含义是Legend是R语言中设置函数和绘图函数格式的命令行,在此命令行中定义了“X为正态轴”,并列出对数变换和平方根变换后的两种曲线c("log","sqrt"),并分别表示为红和黑两种颜色。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈