首页 理论教育 特征分析、频数统计、集中量、相关量

特征分析、频数统计、集中量、相关量

时间:2023-11-02 理论教育 版权反馈
【摘要】:描述统计又称为数据描述,主要用于特征分析,即通过一些概括性量数来反映数据的全貌和特征。频数是描述统计中常用的统计量。教育统计中常用组距为2,3,5,10。图10-7学生成绩频数分布图(二)描述统计1.集中量集中量是描述一组数据典型水平或集中趋势的统计量。教育统计中最常用的集中量主要是算术平均数和加权算术平均数。算术平均数简称平均数、均数或均值。续表10-63.相关量相关量是描述两列变量之间的相关程度的统计量。

特征分析、频数统计、集中量、相关量

描述统计又称为数据描述,主要用于特征分析,即通过一些概括性量数来反映数据的全貌和特征。最常用的数据描述包括集中量数、差异量数、相关系数等。

(一)频数分布

频数是指某些数据呈现的次数。频数是描述统计中常用的统计量。频数分布可以使我们直接了解掌握数据的某些突出的性质,如分布情况、平均水平、差异情况等。

【例10-1】某班级54名学生的数学成绩如下:82,83,64,59,94,81,67,75,90,48,57,86,75,93,88,72,65,77,60,79,70,81,56,64,73,99,87,66,50,45,80,82,67,74,68,92,54,57,87,64,76,74,61,65,70,89,71,49,60,72,70,73,67,55。试编制频数分布表。

编制频数分表表一般步骤如下:

(1)求全距。全距也称两极差,它是全部数据中最大值与最小值之差,用符号R表示。

R=最大值-最小值

本例中,R=99-45=54

(2)定组数。定组数就是指在分数统计中把大量的数据划分为一定分数档。一般来说,分组数以10~15组为宜。本例R=54,拟分11组。组数用k表示。

(3)求组距。组距是指每一组数据的间距。它是全距除以组数所得的商,用i表示。

教育统计中常用组距为2,3,5,10。本例中i=4.9。为便于计算,取整数5为组距。

(4)定组限。组限就是一组分数的起点值和终点值,即下限和上限。本例以最小一组分值45~50为上下限起始,其他各组上下限依次为50~55,55~60,……,95~100。

(5)求组中值。组中值即每组数据分布正中位置的点值。组中值等于组中上限分值和下限分值的平均数。

(6)登记频数(表10-4)。

表10-4 某班级数学成绩频数分布表

按频数分布表做频数分布图直方图,直方图可以直观地显示分布的总体状态(图10-7)。从频数分布图可以看出,数据呈正态分布形式。

图10-7 学生成绩频数分布图

(二)描述统计

1.集中量

集中量是描述一组数据典型水平或集中趋势的统计量。教育统计中最常用的集中量主要是算术平均数和加权算术平均数。

(1)算术平均数。算术平均数简称平均数、均数或均值。它是各观测值总和除以观察值个数所得的商。

用算术平均数公式求【例10-1】中学生的数学平均成绩为71.54分。

(2)加权算术平均数。加权算术平均数即一组数据中各观测值与其频数乘积的总和除以观察个数所得的商。

用加权算术平均数公式求【例10-1】中学生的数学平均成绩亦为71.54分。

用公式求“问卷题目:你对数学课的满意程度如何?”中学生的满意度,其均值如表10-5所示。

表10-5 问卷题目:你对数学课的满意程度如何?

2.差异量

差异量是描述一组数据的离散趋势的统计量。常用的差异量数有全距、平均差、方差、标准差等。全距已在频数中介绍,不再赘述。平均差是指一组数据中每个数据与该组数据的平均数(算数平均数或中位数)之差(离差)的绝对值的算术平均数。平均差作为表述一组数据离散程度的一种量数,意义明确,计算简单,但由于采用绝对值的形式,不便于代数运算。如果将离差绝对值加以平方,便克服了这个缺点。这样,便得到两种新的差异量数——方差与标准差。这里只介绍教育统计中最常用的方差与标准差。

(1)方差。方差是离差平方的算术平均数,即各数值与平均数之差的平方之和除以总次数所得的商。方差公式为

(2)标准差。标准差即方差的算术平方根。方差克服平均差不便代数运算的缺点,但又产生了新的缺点,即方差将原来数据的单位平方了,方差的单位与原来数据的单位不一致了,为克服这个缺点,把方差开平方,取其算术平方根便得到标准差。标准差公式为

假如两班对数学课的满意度调查问卷选答情况如表10-6所示,可以看出,虽然两班的态度倾向的均值相等,但从方差和标准差可以看出,两班态度倾向离散程度是不同的,1班态度倾向比2班更集中。通过方差与标准差的比较,说明要全面准确描述数据全貌,不能只凭集中量,还要根据差异量。

表10-6 问卷题目:你对数学课的满意程度如何?

续表10-6

3.相关量

相关量是描述两列变量之间的相关程度的统计量。如学生的数学成绩与物理成绩之间的关系,学生的身高与体重之间的关系,等等。

相关分正相关负相关和零相关。相关程度用相关系数r表示。相关系数介于[-1.00,+1.00]之间,即-1.00≤r≤+1.00。相关系数为-1.00时,称为完全负相关,相关系数为+1.00时,称为完全正相关,相关系数为0时,称为零相关,即完全无关。相关系数绝对值越大,表示相关程度越高。最常用的相关量有积差相关、等级相关、点二列相关。

(1)积差相关(r)——皮尔逊积差相关。积差相关适用范围为计算数据呈正态分布,且变量的对数不少于30的两列连续变量的相关程度的一种方法。

第一,用平均数与标准差计算积差相关系数

积差相关公式(10-6)是由公式(10-5)推导而来的,是根据原始数据的离差计算的。

【例10-2】某地区某年级学生期中考试中10名学生历史与语文成绩如表10-7所示,求积差相关系数。

表10-7 10名学生历史与语文成绩的相关系数表

第二,用原始数据计算积差相关系数

计算步骤如下:(www.xing528.com)

表10-8 10名学生历史与语文成绩的相关系数计算表

公式(10-7)与公式(10-6)两种方法的计算结果是一致的。因为公式(10-6)与公式(10-7)本质上是一致的。

(2)等级相关(rρ)——斯皮尔曼等级相关。等级相关适用范围为计算数据为非连续的等级变量和非正态分布的变量之间的相关关系。其公式为

式中,D为两列数据对应等级之差。

【例10-3】将下列数据排成等级,数据如下:

5,4,3,3,2,6,7,10,3,7;

将数据按大小顺序排列结果如下:

10,7,7,6,5,4,3,3,3,2。

最大数值为10为第1等;其次为7,占据第2,3等级,因而它们的等级数都为(2+3)/2=2.5;再次是6,占据第4等;接下来5是第5等,4是第6等;数值3分别占据第7,8,9三个等级,因而它们的等级数均为(7+8+9)/3=8;最小数据是2,其等级数为10。故10个数据的等级分别为

数据:5,4,3,3,2,6,7,10,3,7

等级:6,5,8,8,10,4,2.5,1,8,2.5

【例10-4】10名学生的概率统计和线性代数成绩如下,求其等级相关系数。

计算步骤:①先将变量X和Y化成等级,如表RX和RY;②求等级差D和D2;③代入公式可得rρ=0.87,如表10-9所示。

表10-9 10名学生概率统计与线性代数成绩的相关系数计算表

(3)点二列相关。点二列相关适用于计算一列变量为连续变量、另一列变量为二分变量的两列变量之间的相关关系。其公式为

【例10-5】某次化学考试10名考生中,6名男生的成绩分别为:67,72,83,74,65,46;4名女生的成绩分别为:91,80,56,60。求化学成绩与性别之间的相关系数。

性别为二分称名变量,化学成绩为连续变量。

计算步骤如下:

表10-10 10名学生化学成绩与性别的相关系数计算表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈