首页 理论教育 估计总体比例的样本容量确定优化

估计总体比例的样本容量确定优化

时间:2023-07-03 理论教育 版权反馈
【摘要】:总体比例的置信区间同样由两部分组成,即总体比例的点估计值加减边际误差。此时,边际误差为,则估计总体比例时样本容量为式中的边际误差E必须是事先确定的,大多数情况下,一般取E的值小于0.1。在实际情况下,如果总体比例方差不知道,可用试验样本中的最大方差代替。抽取由400名销售员组成的随机样本,发现每年平均销售量是75辆。

估计总体比例的样本容量确定优化

式(5.21)中的边际误差E必须是事先确定的,大多数情况下,一般取E的值小于0.1。

在实际情况下,如果总体比例方差不知道,可用试验样本中的最大方差代替。

小结

①重复抽样

②不重复抽样

【例5.8】 根据以往的生产统计,某种产品的合格率约为95%,现要求边际误差为3%,在求98%的置信区间时,应抽取多少个产品作为样本?

解 已知π=95%,1-α=98%,Zα/2=2.33,E=3%。应抽取的样本容量

因此,应抽取287个产品作为样本。

【例5.9】 某城市对居民的生活情况进行抽样调查。若该城市居民家庭平均生活费支出的标准差为260元,边际误差为20元,恩格尔系数为55%,边际误差不超过4%,以95%的置信水平,分别确定该城市应抽多少户家庭进行调查?

解 已知σ(X)=260元,E(X)=20,1-α=95%,P=0.55,EP=0.04,则

该城市为满足抽样要求应抽650户家庭进行调查。

注意

计算样本容量应注意的问题:

①运用上面公式计算的样本容量是最低的,也是最必要的样本。

②在总体方差和总体比例未知的情况下,在实际计算时往往利用有关资料代替:如果本次抽样调查之前,曾经做过同类问题的全面调查,用全面调查的有关数据来代替;如果在正式抽样之前,组织过两次或两次以上的试验性抽样,用试验样本中的最大方差代替;如果总体和样本比例都无法得知,通常取使总体方差π(1-π)为最大值的比例值0.5。

③如果进行一次抽样调查,同时对总体均值和比例进行区间估计,运用上述公式可分别计算出两个样本容量。一般情况下,为了同时满足两个总体参数的估计要求,应选两个样本容量中较大的一个。

学习指导与小结】

本章围绕一个总体参数估计时样本统计量抽样分布理论的基础上,重点介绍总体均值、比例和方差的置信区间估计方法。本章各节的主要内容和学习要点见表5.8。

表5.8 本章各节的主要内容和学习要点

注:“加粗”部分为重点学习要点,应当重点学习并掌握。

【常用术语】

抽样分布 样本均值的抽样分布 样本比例抽样分布 标准误差 估计标准误差 估计量 估计值 点估计 区间估计 置信区间 置信水平

【案例讨论】

米德公司

位于俄亥俄州代顿市的米德公司(Mead Corporation)是一家多种类型纸张和森林产品的生产厂商。它不但生产纸、纸浆、板材,而且还能将纸板加工成装运器具和饮料转运箱。公司的销售能力很强,能在市场上销售许多自己的产品,如纸张、教学用品和文具等。公司内部的顾问小组运用抽样为决策分析提供各种各样的信息,这些信息使得公司获取了巨大的生产利润,公司在本行业中保持了较强的竞争力。

例如,公司拥有大片林地。这些林地提供的大批木材是公司许多产品的原材料。公司管理人员需要有关林地和森林方面可靠而精确的信息来对公司的生产能力进行估计,以满足公司今后的原材料需求。又如,森林木材量现在有多少?森林过去增长了多少?预计将来如何增长?有了这些基本数据,公司管理人员就能够拟订计划,包括树木长期种植和砍伐计划。米德公司是如何得到它所需要的有关自己大片林地方面信息的呢?从林地各处样本地里收集的数据是了解公司拥有的树木总体的基础。为了确定样本,公司首先根据地理位置和树木品种把林地划分为3个部分。然后公司分析人员利用地图和随机数表来确定从每个部分抽取1/7~1/5英亩作为随机样本。公司的林业人员就是从这些样本地里收集数据,了解林地总体情况。

在公司工作的林业人员都要参与数据收集过程,一些小组定期收集各个样本地每一棵树的信息。然后将这些信息输入公司连续森林存货(CFI)计算机系统中。CFI系统就会输出一系列汇总数据,包括树木品种、现有森林数量、森林增长率和预计未来森林增长率以及森林数量进行统计推断。抽样和有关样本数据统计汇总资料所提供的信息是米德公司对森林和林地资产进行有效管理的关键

【讨论】

1.该公司采用的抽样方法是什么?

2.如何对该公司林地树木的平均增长量进行区间估计?

【思考与练习】

一、思考题

1.推断统计学包括哪些内容?统计量有哪些?

2.什么是抽样分布?怎样理解抽样分布与总体分布和样本分布的区别和联系?

3.解释中心极限定理的含义。

4.重复抽样和不重复抽样相比,抽样均值抽样分布的标准差有何不同?

5.一个总体参数估计时样本统计量的抽样分布如何确定?

6.参数估计的方法有哪两种?评价估计量的标准是什么?

7.什么是置信区间?什么是置信水平?

8.估计总体均值时样本容量如何确定?

9.估计总体比例时样本容量如何确定?

二、练习题

1.某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。

(1)假定总体标准差为15元,求样本均值的抽样标准误差。

(2)在95%的置信水平下,求边际误差。(www.xing528.com)

(3)如果样本均值为120元,求总体均值μ的95%的置信区间。

2.利用下面的信息,构建总体均值μ的置信区间。

3.汽车销售人员每年销售的汽车数量是服从正态分布的,标准差是15。抽取由400名销售员组成的随机样本,发现每年平均销售量是75辆。计算总体均值95%的置信区间估计。解释其区间估计。

4.已知汽车的换油时间服从正态分布,标准差是5min。100个换油时间组成的随机样本的均值是22min。计算总体均值的99%的置信区间估计。

5.从一个正态总体中随机抽取样本量为8的样本,各样本值分别为:10,8,12,15,6,13,5,11。求总体均值95%的置信区间。

6.某居民小区为研究职工上班从家里到单位的距离,假设其服从正态分布,抽取了由16个人组成的一个随机样本,他们到单位的距离数据见表5.9。求职工上班从家里到单位平均距离95%的置信区间。

表5.9 距离样本/km

7.从一批零件中随机抽取36个,测得其平均长度为149.5cm,标准差为1.93cm。

(1)试确定该种零件平均长度95%的置信区间。

(2)在上面的估计中,你使用了统计中的哪一个重要定理?请简要解释这一定理。

8.利用下面的样本数据构建总体比例π的置信区间。

(1)n=44,p=0.51,置信水平为99%。

(2)n=300,p=0.82,置信水平为95%。

(3)n=1150,p=0.48,置信水平为90%。

9.某厂对一批产成品按不重复抽样方法随机抽选200件进行质量检测,其中一等品160件,试以90%的概率估计一等品率的范围。

10.在一项家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中,拥有该品牌电视机的家庭占23%。求总体比例的置信区间,置信水平分别为90%和95%。

11.一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋质量见表5.10。已知产品质量的分布服从正态分布。以95%的置信水平建立该种食品质量方差的置信区间。

表5.10 测量数据/g

12.从某班级学生中随机抽取16人,计算得其语文平均成绩为75分,方差为25分。假定学生成绩服从正态分布,试求总体方差及标准差的置信区间(给定的显著性水平为0.05)。

13.一位银行的管理人员想估计每位顾客在该银行的月平均存款额。他假设所有顾客月存款额的标准差为1000元,要求估计误差在200元以内,应选取多大的样本?(给定的显著性水平为0.05)

14.一位医学研究员想调查病人服用新止痛药后,缓解头痛症状所需要的时间。她计划使用统计方法来估计总体的平均缓解时间。她相信总体服从正态分布,标准差是20min。如果以90%的置信水平,在1min之内估计平均时间,她应抽取多大的样本?

15.要估计总体比例π,计算下列个体所需的样本容量:

(1)E=0.02,π=0.40,置信水平为96%。

(2)E=0.04,π未知,置信水平为95%。

(3)E=0.05,π=0.55,置信水平为90%。

16.某居民小区共有居民500户,小区管理者准备采取一向新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。

(1)求总体中赞成该项改革的户数比例的置信区间,置信水平为95%。

(2)如果小区管理者预计赞成的比例能达到80%,应抽取多少户进行调查?

【注释】

[1]凯勒,沃拉克.统计学:在经济和管理中的应用[M].王琪延,郝志敏,廉晓红,等,译.6版.北京:中国人民大学出版社,2006:402.

[2]贾俊平.统计学[M].6版.北京:中国人民大学出版社,2015:144.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈