首页 理论教育 SAS数据集的含义及特点-例2.1 | 实用SAS基础

SAS数据集的含义及特点-例2.1 | 实用SAS基础

时间:2023-08-10 理论教育 版权反馈
【摘要】:SAS数据集由变量和它们的数据体组成,下面通过例2.1说明数据集的含义。为了让SAS作计算和分析,必须把各种系统数据集化为SAS数据集。SAS数据集也是已定变量数据体。SAS数据集的变量名由英文字符、阿拉伯数字和下划线等组成,长度不超过32个字符,不允许有中文字符,例如用mingzi、gonghao、jiben、gangtie、jiangjin分别表示名字、工号、基本工资、岗位津贴、奖金。SAS数据集变量的值一般不超过8个字符,可以是数值变量和字符串变量,包括中文字符。

SAS数据集的含义及特点-例2.1 | 实用SAS基础

SAS软件的使用特点是在Editor窗口中输入SAS程序(SAS代码),然后让SAS系统完成这些代码表示的任务。SAS程序主要由两大部分组成:DATA步和PROC步。DATA步又称为数据步,其功能是产生SAS数据集并加工,例如扩充、剪切、合并等(如第4章所示),使之成为统计方法和其他方法(例如画图表)加工的合适数据。PROC步又称为加工步,其功能是对数据集进行加工(计算、分析、制表、画图、输出等)。有时一个SAS程序中只有数据步,例如第3章中的许多例子;有时只有加工步,例如例1.1和例1.2。SAS数据集由变量和它们的数据体(多次观测值)组成,下面通过例2.1说明数据集的含义。

例2.1 上世纪80年代某公司发给职员的工资原始统计表如表2-1所示,为了简单仅考虑3名职员,也不考虑其他“五险一金”的数额。

表2-1 工资原始统计表

按照SAS的规定,表2-1中包含5个变量:姓名、工号、基本工资、岗位津贴、奖金;张三、李四、王五分别是3名职员的姓名,它们是变量姓名的3次观测值。当这些数据变成SAS数据集后,SAS特别强调这3次观测的顺序:对每个变量而言,张三的信息是第1次观测,李四的信息是第2次观测,王五的信息是第3次观测,而且当打印SAS数据集时,SAS自动增加一列来说明每一行是第几次观测(见例1.1和例2.2的输出)。

3名职员的信息值(统计数据)作为5个变量的3次观测值。这3次观测也是有序的:先张三,后李四,再王五。SAS数据集的观测值可以是数值型,也可以是字符串型,甚至是汉字(例如取值:张三,李四,王五)。变量的观测值也简称为变量的值,例如变量工号有3个值:217、335和442。所有变量的一次观测值称为一个数据行,本例有3次观测,即有3个数据行。每个数据列可以看成一个向量,它是所有变量的一次观测值。所有数据行就是全部观测值,本书称之为数据体,也就是说数据体是由全体数据行组成。表2-1中张三的信息算1次观测,构成一个数据行,李四的信息构成另一个数据行,王五的信息构成最后一个数据行,三个人的全部信息,也就是3个数据行构成一个数据体,由于观测数据一般具有随机性,数据体中的数据行数也称为样本容量或样本量。(www.xing528.com)

以上介绍的数据集都有一个特点:各个变量的观测数一样多,也就是每一个数据列有同样多的观测值(表2-1中所有5个变量都有3次观测)。某些数据系统的数据集不一定有这个特点,可能有的变量观测数多,有的变量观测数少。本书中对于能与SAS数据集互相导入的其他系统数据集(可能是DAT、TXT、SPSS、Excel等)都要求每一个数据行有同样多的列,每一列有同样多的行。为了让SAS作计算和分析,必须把各种系统数据集(DAT、TXT、SPSS、Excel等)化为SAS数据集。

本书常用的数据文件有两种:一种是待定变量数据体(也就是上一段所介绍的数据体),另一种是已定变量数据体。待定变量数据体由一些数据行组成,也就是说只有观测值,例如仅由表2-1中后3行组成的数据体,它们和变量没有联系。在使用该数据体时表2-1中第2列可以作为变量工号的值,也可以是变量x1的值;第3列可以是变量基本工资的值,也可以是变量x2的值。待定变量数据体和变量间的联系需要另外规定。待定变量数据体可以作为DAT、TXT文件存储起来,调用待定变量数据体后可以根据需要建立变量和数据体的联系。但是许多数据系统中的数据文件都不是待定变量数据体,例如表2-1的全体4行组成的数据体就不是待定变量数据体,其中数据行和变量间的关系固定下来了:第1列中后3行是变量姓名的值,第2列中后3行是变量基本工资的值……Excel、SPSS和许多商业数据库中的数据都已建立变量和数据间的联系。这种既有数据体又联系了变量的数据文件被称为已定变量数据体。3.3节和4.1节中某些数据文件是待定变量数据体而不是已定变量数据体,除了3.3和4.1,本书所说数据集几乎都是已定变量数据体。SAS数据集也是已定变量数据体。

SAS数据集的变量名由英文字符、阿拉伯数字和下划线等组成,长度不超过32个字符,不允许有中文字符,例如用mingzi、gonghao、jiben、gangtie、jiangjin分别表示名字、工号、基本工资、岗位津贴、奖金。有些SAS符号在最前面和最后面都是下划线,例如_null_,_obs_,_n_等,它们有特殊含义,所以读者给变量命名时,不要在最前面和最后面加下划线。SAS数据集变量的值一般不超过8个字符,可以是数值变量和字符串变量,包括中文字符。为了编程方便和加快运算速度,在大量运算时,变量值应当尽可能简单,不用中文字符。

练习题 表2-2给出3只股票10个工作日的价格,其中有哪些变量?每个变量有几个观测值?有几个数据行?数据体是什么?已定变量数据体是什么?

表2-2 连续10个工作日的股票价格

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈