首页 理论教育 大数据制造业税收指数构建及应用

大数据制造业税收指数构建及应用

时间:2023-08-08 理论教育 版权反馈
【摘要】:此法用于指标间关系简单者。表4.6连加评分法表4.7分级加法评价法ⅱ.连积评价型。表4.8和数相乘评价法续表ⅳ.加权评价型。将评价对象中的各项指标项目依照评价指标的重要程度,给予不同的权重,即对各因素的重要程度做区别对待。三是指标过多时数据统计量大,且权重难以确定。

大数据制造业税收指数构建及应用

1.指标赋权方法

目前国内外提出的综合赋权方法已有几十种之多,但总体上可归为两大类:主观赋权法和客观赋权法。前者多是采取定性的方法,由专家根据经验进行主观判断而得到权数,如层次分析法、模糊综合评判法等;后者根据指标之间的相关关系或各项指标的变异系数来确定权数,如灰色关联度法、主成分分析法等。本书采用因子分析法。

(1)主观赋权法

①专家打分法

专家打分法是指通过匿名方式征询有关专家的意见,对专家意见进行统计、处理、分析和归纳,客观地综合多数专家经验与主观判断,对大量难以采用技术方法进行定量分析的因素做出合理估算,经过多轮意见征询、反馈和调整后,对债权价值和价值可实现程度进行分析的方法。

(a)适用范围:专家打分法适用于存在诸多不确定因素、采用其他方法难以进行定量分析的债权。

(b)专家打分法的程序:

ⅰ.选择专家;

ⅱ.确定影响因素,设计征询意见表;

ⅲ.向专家提供背景资料,以匿名方式征询专家意见;

ⅳ.对专家意见进行分析汇总,将统计结果反馈给专家;

ⅴ.专家根据反馈结果修正自己的意见;

ⅵ.经过多轮匿名征询和意见反馈,形成最终分析结论。

(c)使用专家打分法应当注意的问题:

ⅰ.选取的专家应当熟悉状况,有较高权威性和代表性,人数应当适当;

ⅱ.对每项因素的权重及分值均应当向专家征询意见;

ⅲ.多轮打分后统计方差如果不能趋于合理,应当慎重使用专家打分法结论。

(d)专家打分法的计算方法:

ⅰ.加法评价型。将评价各指标项目所得的分值加法求和,按总分来表示评价结果。此法用于指标间关系简单者。计算公式为:

其中,W为评价对象总分值;Wi为第i项指标得分值;n为指标项数。

该法有两种方式:连加评分法和分级加法评价法,如表4.6和表4.7所示。

表4.6 连加评分法

表4.7 分级加法评价法

ⅱ.连积评价型。将各个项目的分值连乘,并按其乘积大小来表现业绩结果。这种方法灵敏度很高,被评价对象各指标间的关系特别密切,其中一项的分数连带影响到其他各项的总结果,即具有某项指标不合格,就对整体起否定作用的特点。计算公式为:

其中,W为评价对象总分值;Wi为i项目得分值;n为指标项数。

ⅲ.和数相乘评价型。将评价对象的评价指标分成若干组,先计算出各组评分值之和,然后再将各组评分值连乘,所得即是总的评分,如表4.8所示。这是考虑到各因素之间的关系密切程度不同和相互影响方式不同来确定的。计算公式为:

其中,Wij为评价对象中第i组j指标值;m为评价对象的组数;n为i组中含有的指标项数。

表4.8 和数相乘评价法

续表

ⅳ.加权评价型。将评价对象中的各项指标项目依照评价指标的重要程度,给予不同的权重,即对各因素的重要程度做区别对待。计算公式为:

其中,W为评价对象总得分;Wi为评价对象的i指标项得分;Ai为i指标项的权值,

ⅴ.功效系数法。这是化多目标为单目标的方法,由评价者对不同的评价指标分别给予不同的功效系数,则总功效系数d为:

dj=1表示第j个目标效果最好;

dj=0表示第j个目标效果最差;

0≤dj≤0.3是不可接受的范围;

0.3<dj≤0.4是边缘范围;

0.4<dj≤0.7是次优范围;

0.7<dj≤1是最优范围。

(e)专家打分法的优缺点:专家打分法优点在于能够把各位专家的意见和分歧表达出来;缺点在于主观性强、研究过程较长,关键在于筛选出高水平的专家并激励其投入指标评价赋权。

②层次分析法

层次分析法(Analytic Hierarchy Process,AHP)最早由匹兹堡大学Saaty教授于20世纪70年代中期提出,20世纪80年代初由其学生介绍到我国。该方法就是将一个复杂的决策问题表示成一个有序的递阶层次结构,通过人们的比较判断来分析各种决策方案的相对重要性,再以此为判断决策方案优劣的标准。这个过程的核心就是计算相对重要性矩阵

由于统计权数是一种重要性的度量,所以将AHP法引入到统计权数的构造是完全可行的(苏为华,2005)。目前AHP构权法是综合评价实践中应用最广泛的一种权数构造方法。

要注意的是,AHP本身是一种决策方法,而AHP构权法作为一种构权方法,不能和AHP画上等号。这是因为,AHP决策关注的是样品的“优劣”排序,而AHP构权则更专注于权值的精度,要求构造的权值能反映物理意义。所以,若AHP决策中有些仅有排序意义而权数物理意义不足时,不能将之引为构造权数的方法,否则只能导致AHP构权法的滥用。

层次分析法的优点有三个方面:一是系统性的分析方法。层次分析法中每一层的权重设置最后都会直接或间接影响到结果,而且在每个层次中的每个因素对结果的影响程度都是量化的,非常清晰、明确。二是定性方法与定量方法有机结合,使复杂的系统分解,计算简便,并且所得结果简单明确。三是所需定量数据信息较少。层次分析法把判断各要素的相对重要性的步骤留给了大脑,只保留人脑对要素的印象,化为简单的权重进行计算,能处理许多用传统的最优化技术无法着手的实际问题。

层次分析法的缺点:一是不能为决策提供新方案。层次分析法的作用是从备选方案中选择较优者。这个作用正好说明了层次分析法只能从原有方案中进行选取,而不能为决策者提供解决问题的新方案。二是定量数据较少,定性成分多,不易令人信服。层次分析法是一种带有模拟人脑的决策方式的方法,因此必然带有定性色彩,较多地取决于个人的经验。三是指标过多时数据统计量大,且权重难以确定。当我们希望能解决较普遍的问题时,指标的选取数量很可能也就随之增加。

③模糊综合评判法

任何概念都有内涵和外延两方面的规定。内涵是指概念所反映的事物本质属性的总和,也是一个概念的基本内容;而外延则是指一个概念所指的范围。在日常生活和研究中,有很多外延并不清晰,我们称为模糊概念。例如老年、青年的概念,到底几岁算老年,80岁算老,70岁算不算老?20岁算青年,30岁算不算?显然,这些概念的外延十分模糊,高收入和低收入之间也没有截然明确的界限,老年和非老年同样也没有清晰的界限。

模糊数学就是对精确数学的补充和发展。而模糊数学的基础是模糊集合理论。模糊集合理论最早由美国自动控制专家查德(L.A.Zadeh)教授在1965年首先提出。经过很多年的发展,模糊数学的内容得到很大丰富。模糊综合评价法(Fuzzy Comprehensive Evaluation,FCE)就是一个重要的研究内容,因此,模糊综合评价法成为目前多指标评价实践中应用最广的方法之一。

苏为华(2005)在其著作《综合评价学》中系统归纳与研究了模糊综合评价法的分类,并将其分为两大类:一类属于分类综合评价,主要包含模式识别和模糊聚类,在多元统计中属于“判别分析”和“聚类分析”;另一类属于排序评价方法,包括基于评语等级的排序和基于单个评语等级所做的排序评价。此外,已有的针对模糊评价方法的扩展还包括“群组模糊评价”和“多层模糊评价”等。图4.3为模糊综合评价方法体系。

图4.3 模糊综合评价法体系结构

模糊综合评价法实施最关键的就是确定模糊边界和隶属函数。而模糊边界实际上是隶属函数的一个重要参数。一般地,模糊边界可以采用专家打分的方式确定,又或者根据样品的平均水平给出模糊边界以完成隶属函数。而隶属函数的选择则要根据变量的属性决定。一般地,模糊综合评价包括5个步骤:(a)确定对象集,因素集和评语集;(b)由其他方法确定各个层次的权数分配;(c)根据变量属性建立合适的隶属函数,进而确定各变量的隶属度;(d)计算模糊综合指数;(e)将权数和综合指数合成以进行多层次综合评价。

模糊综合评判法的优点在于,一是隶属函数和模糊统计方法为定性指标定量化提供了有效的方法,实现了定性和定量方法的有效集合;二是在客观事物中,一些问题往往不是绝对的肯定或绝对的否定,涉及模糊因素,而模糊综合评判方法则很好地解决了判断的模糊性和不确定性问题;三是所得结果为一向量,即评语集在其论域上的子集,克服了传统数学方法结果单一性的缺陷,结果包含的信息量丰富。

模糊综合评判法的缺点在于不能解决评价指标间相关造成的评价信息重复问题;各因素权重的确定带有一定的主观性;在某些情况下,隶属函数的确定有一定困难。尤其是多目标评价模型,要对每一目标、每个因子确定隶属函数,过于烦琐,实用性不强。

(2)客观赋权评价法

①主成分分析法

主成分概念最早由Karl Pearson在1901年引进,不过当时只是针对非随机变量的讨论。1933年Hotelling将这一概念推广到随机向量。

在实际问题中,经常遇到多指标问题的研究,然而在多数情况下,不同指标之间总有一些相关性。正是由于指标较多而且相互之间还有一定关联,使得分析问题时复杂程度加大。而主成分分析就是设法通过将原来的指标重新组合,得到一组相互无关的综合指标来尽可能反映原来指标的信息(于秀林,任雪松,1999)。这种把多个指标转化为少数相互无关的综合指标的方法就叫主成分分析或主分量分析。数学上,这也是一种降维的方法。在其他领域,该方法亦得到了广泛应用,很多指数比如生活费用指数、物价指数和商业繁荣指数等都可以用该方法计算得到。

由于该方法可以克服指标间高度相关带来的分析困难,亦经常与其他方法组合使用,例如和回归分析结合就是主成分回归。用于构权,则可以尽可能剔除指标中叠加信息对评价的影响等。

主成分分析就是设法将原来较多的具有相关性的指标,重新组合成一组相互无关的综合指标来替代原来的指标。通常数学上是将原来的p个指标作线性组合,作为新的综合指标,但是如果这种组合不加限制,则可以有很多种,这也就意味着必须有个选择的标准。那么,该标准意味着如果选取的第一个线性组合即第一个综合指标为F1,那么自然希望F1尽可能多地反映原指标的信息,这里的信息也就是F1的方差。当F1的方差越大,则它包含的信息就越多。因此,线性变化的标准和目的就是为了得到一个最大方差的F1,即第一主成分。如果第一主成分不足以代表原来所有指标的信息,那么就选取第二个主成分,但是为了有效地反映信息,要求第二个主成分中不再含有第一主成分里的信息,用数学语言表达就是Cov(F1,F2)=0,依次类推可以得到与原变量数相同数量的主成分。不难想象这些主成分之间互不相关,而且方差递减。因此,实际工作中,就挑选前几个最大的主成分,虽然这样会损失一些信息,但是由于已经抓住了主要矛盾,并已经获得了大部分信息,相比之下效益大于损失,这也就是主成分分析最大的优点。

主成分分析的数学模型为:

F2=a12ZX1+a22ZX2+…+ap2ZXp

……

Fp=a1mZX1+a2mZX2+…+apmZXp

其中,a1i,a2i,…,api(i=1,2,…,m)为X的协方差阵的特征值所对应的特征向量,ZX1,ZX2,…,ZXp是原始变量经过标准化处理的值。

A=(aijp×m=(a1,a2,…,am),Raiiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0。

进行主成分分析主要步骤如下:

(a)指标数据标准化(SPSS软件自动执行);

(b)指标之间的相关性判定;

(c)确定主成分个数m;

(d)主成分Fi表达式;

(e)主成分Fi命名。

为了便于理解主成分分析的基本思想,再给出主成分分析的基本模型。

设有n个样品,每个样品有p个观测指标,则得到原始数据资料矩阵:

用数据矩阵X的p个指标作线性组合,得到:

上述方程要求:

多指标综合评价有相对评价和绝对评价之分。相对评价的终极目标是:将评价对象尽可能最大限度地区分开。评价指标的区分度一般可用方差来衡量。因此,单项指标的区分度越高,则其对综合评价排序的影响也就越大。基于这种观点,理论界提出用方差信息量大小来判断单项评价指标的权重,并提出了“信息量权重”的概念。

目前,主成分构权法是应用最广泛的信息量构权法。从主成分的数学表达形式看,它实质上是“同度量化值”的加权算术平均值(对于R型分析,同度量化方法是“标准化”;对于从协方差矩阵出发的主成分分析,同度量化方法就是“中心化”)。因此,主成分中的“系数”其实就是权数(苏为华,2005)。人们自然可以将“对方差矩阵求特征向量”过程从主成分分析法中剥离出来,使之不唯一依附于“标准化”同度量化方法,而是可以与其他任何同度量化方法结合。这样,主成分分析法就成为一种独立的构造评价权数的方法。

主成分分析法的优点:一是根据评价指标中存在着一定相关性的特点,用较少的指标来代替原来较多的指标,并使这些较少的指标尽可能地反映原来指标的信息,从根本上解决了指标间的信息重叠问题,又大大简化了原指标体系的指标结构,因而在社会经济统计中,是应用最多、效果最好的方法;二是各综合因子的权重不是人为确定的,而是根据综合因子的贡献率的大小确定的。这就克服了某些评价方法中人为确定权数的缺陷,使得综合评价结果唯一,而且客观合理。

主成分分析法的缺点在于:计算过程比较烦琐,且对样本量的要求较大;评价的结果跟样本规模有关系;主成分分析法假设指标之间的关系都为线性关系。但在实际应用时,若指标之间的关系并非为线性关系,那么就有可能导致评价结果出现偏差。

②因子分析法

在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在:(www.xing528.com)

(a)计算量的问题

由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。

(b)变量间的相关性问题

收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。

为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。

因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象地质经济学等领域,并因此促进了理论的不断丰富和完善。

因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点:

(a)因子个数远远少于原有变量的个数

原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。

(b)因子能够反映原有变量的绝大部分信息

因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。

(c)因子之间的线性关系并不显著

由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。

(d)因子具有命名解释性

通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解释性有助于对因子分析结果的解释评价,对因子的进一步应用有重要意义。例如,对高校科研情况的因子分析中,如果能够得到两个因子,其中一个因子是对科研人力投入、经费投入、立项项目数等变量的综合,而另一个是对结项项目数、发表论文数、获奖成果数等变量的综合,那么,该因子分析就是较为理想的。因为这两个因子均有命名可解释性,其中一个反映了科研投入方面的情况,可命名为科研投入因子;另一个反映了科研产出方面的情况,可命名为科研产出因子。

总之,因子分析是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。

因子分析模型中,假定每个原始变量由两部分组成:共同因子(common factors)和唯一因子(unique factors)。共同因子是各个原始变量所共有的因子,解释变量之间的相关关系。唯一因子是每个原始变量所特有的因子,表示该变量不能被共同因子解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因子负荷(factor loadings)表示。

因子分析最常用的理论模式如下:

Zj=aj1F1+aj2F2+…+ajmFm+Uj(j=1,2,…,n,n为原始变量总数)

可以用矩阵的形式表示为Z=AF+U,其中F称为因子,由于它们出现在每个原始变量的线性表达式中(原始变量可以用Xj表示,这里模型中实际上是以F线性表示各个原始变量的标准化分数Zj),因此又称为公共因子。因子可理解为高维空间中互相垂直的m个坐标轴,A称为因子载荷矩阵,aji(j=1,2,…,n,i=1,2,…,m)称为因子载荷,是第j个原始变量在第i个因子上的负荷。如果把变量Zj看成m维因子空间中的一个向量,则aji表示Zj在坐标轴Fi上的投影,相当于多元线性回归模型中的标准化回归系数;U称为特殊因子,表示原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。

其中,

ⅰ.Zj为第j个变量的标准化分数;

ⅱ.Fi(i=1,2,…,m)为共同因素;

ⅲ.m为所有变量共同因素的数目;

ⅳ.Uj为变量Zj的唯一因素;

ⅴ.aji为因素负荷量。

围绕浓缩原有变量提取因子的核心目标,因子分析主要涉及以下五大基本步骤:

(a)因子分析的前提条件

由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的,因此它要求原有变量之间应存在较强的相关关系。否则,如果原有变量相互独立,相关程度很低,不存在信息重叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无须进行因子分析。本步骤正是希望通过各种方法分析原有变量是否存在相关关系,是否适合进行因子分析。

SPSS提供了四个统计量可帮助判断观测数据是否适合作因子分析。

ⅰ.计算相关系数矩阵(Correlation Matrix)

在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析;当原始变量个数较多时,所输出的相关系数矩阵特别大,观察起来不是很方便,所以一般不会采用此方法或即使采用了此方法,也不方便在结果汇报中给出原始分析报表。

ⅱ.计算反映象相关矩阵(Anti-image correlation matrix)

反映象矩阵主要包括负的协方差和负的偏相关系数。偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的净相关系数。如果原有变量之间确实存在较强的相互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控制了这些影响后的偏相关系数必然很小。

反映象相关矩阵的对角线上的元素为某变量的MSA(Measure of Sample Adequacy)统计量,其数学定义为:

其中,rij是变量xi和其他变量xj(j≠i)间的简单相关系数,pij是变量xj(j≠i)在控制了剩余变量下的偏相关系数。由公式可知,某变量xi的MSAi统计量的取值在0和1之间。当它与其他所有变量间的简单相关系数平方和远大于偏相关系数的平方和时,MSAi值接近1。MSAi值越接近1,意味着变量xi与其他变量间的相关性越强;当它与其他所有变量间的简单相关系数平方和接近0时,MSAi值接近0。MSAi值越接近0,意味着变量xi与其他变量间的相关性越弱。

观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其他大多数元素的绝对值均小,对角线上元素的值越接近1,则说明这些变量的相关性较强,适合进行因子分析。与第ⅰ条中最后所述理由相同,一般少采用此方法。

ⅲ.巴特利特球体检验 Bartlett Test of Sphericity

Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位矩阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小(<0.05)表明原始变量之间越可能存在有意义的关系;如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。

ⅳ.KMO(Kaiser-Meyer-Oklin Measure of Smapling Adequacy)

KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5,表明样本偏小,需要扩大样本。

综上所述,经常采用的方法为巴特利特球体检验(Bartlett test of sphericity)和KMO(Kaiser-Meyer-Oklin Measure of Smapling Adequacy)。

(b)抽取共同因子,确定因子的数目和求因子解的方法

将原有变量综合成少数几个因子是因子分析的核心内容。此步骤正是研究如何在样本数据的基础上提取和综合因子。决定因素抽取的方法,有主成分分析法(Principal Components Analysis)、主轴法、一般化最小平方法、未加权最小平方法、最大概似法、Alpha因素抽取法与映象因素抽取法等。使用者最常使用的是主成分分析法与主轴法,其中又以主成分分析法使用最为普遍。在SPSS使用手册中,也建议研究者多采用主成分分析法来估计因素负荷量(SPSS Inc,1998)。所谓主成分分析法,就是以较少的成分解释原始变量方差的较大部分。进行主成分分析时,先要将每个变量的数值转换成标准值。主成分分析就是用多个变量组成一个多维空间,然后在空间内投射直线以解释最大的方差,所得的直线就是共同因子。该直线最能代表各个变量的性质,而在此直线上的数值所构成的一个变量就是第一个共同因子,或称第一因子(F1)。但是在空间内还有剩余的方差,所以需要投射第二条直线来解释方差。这时,还要依据第二条准则,即投射的第二条直线与第一条直线成直交关系(即不相关),意为代表不同的方面。第二条直线上的数值所构成的一个变量,称为第二因子(F2)。依据该原理可以求出第三、第四或更多的因子。原则上,因子的数目与原始变量的数目相同,但抽取了主要的因子之后,如果剩余的方差很小,就可以放弃其余的因子,以达到简化数据的目的。

因子数目的确定没有精确的定量方法,常用的方法是借助两个准则来确定因子的个数。一是特征值(eigenvalue)准则;二是碎石图检验(scree test)准则。特征值准则就是选取特征值大于或等于1的主成分作为初始因子,而放弃特征值小于1的主成分。因为每个变量的方差为1,该准则认为每个保留下来的因子至少应该能解释一个变量的方差,否则达不到精简数据的目的。碎石检验准则是根据因子被提取的顺序绘出特征值随因子个数变化的散点图,根据图的形状来判断因子的个数。散点曲线的特点是由高到低,先陡后平,最后几乎成一条直线。曲线开始变平的前一个点被认为是提取的最大因子数。后面的散点类似于山脚下的碎石,可舍弃而不会丢失很多信息。

(c)使因子更具有命名可解释性

通常最初因素抽取后,对因素无法作有效的解释。这时往往需要进行因子旋转(rotation),通过坐标变换使因子解的意义更容易解释。转轴的目的在于改变题项在各因素负荷量的大小,转轴时根据题项与因素结构关系的密切程度,调整各因素负荷量的大小,转轴后,使得变量在每个因素的负荷量不是变大(接近1)就是变得更小(接近0),而非转轴前在每个因素的负荷量大小均差不多,这就使对共同因子的命名和解释变量变得更容易。转轴后,每个共同因素的特征值会改变,但每个变量的共同性不会改变。常用的转轴方法,有最大变异法(Varimax)、四次方最大值法(Quartimax)、相等最大值法(Equamax)、直接斜交转轴法(Direct Oblimin)、Promax转轴法,其中前三者属于“直交转轴法”(Orthogonal Rotations),在直交转轴法中,因素(成分)与因素(成分)间没有相关,亦即其相关为0,因素轴间夹角为90°;而后二者(直接斜交转轴法、Promax转轴法)属“斜交转轴法”(oblique rotations),采用斜交转轴法,表示因素与因素间彼此有某种程度的相关,亦即因素轴间的夹角不是90°。

直交转轴法的优点是因素间提供的信息不会重叠,观察体在某一个因素的分数与在其他因素的分数,彼此独立不相关;而其缺点是研究者迫使因素间不相关,但在实际情境中,它们彼此有相关的可能性很高。因而直交转轴方法偏向较多人为操控方式,不需要正确响应现实世界中自然发生的事件(Bryman&Cramer,1997)。

所谓直交旋转法(Orthogonal Rotations),就是要求各个因子在旋转时都要保持直角关系,即不相关。在直交旋转时,每个变量的共同性(commonality)是不变的。不同的直交旋转方法有不同的作用。在直交旋转法中,常用于社会科学研究的方式是Varimax旋转法。该方法是在旋转时尽量弄清楚在每一个因子上各个变量的因子负荷情况,也即让因子矩阵中每一列的α的值尽可能变成1或0,该旋转法的作用是突出每个因子的性质,可以更清楚哪些变量是属于它的。由此可见,Varimax旋转法可以帮助找出多个因子,以澄清概念的内容。Quartimax旋转法则可以尽量弄清楚每个变量在各个因子上的负荷情况,即让每个变量在某个因子上的负荷尽可能等于1,而在其他因子上则尽可能等于0。该方法可以增强第一因子的解释力,而使其他因子的效力减弱。可见,Quartimax旋转法适合于找出一个最强效力的因子。Equamax旋转法则是一种折中的做法,即尽可能简化因子,也可弄清楚负荷情况。其缺点是可能两方面都未照顾好。

斜交旋转(oblique rotation)方法是要求在旋转时各个因子之间呈斜交的关系,表示允许该因子与因子之间有某种程度上的相关。斜交旋转中,因子之间的夹角可以是任意的,所以用斜交因子描述变量可以使因子结构更为简洁。选择直接斜交旋转时,必须指定Delta值。该值的取值范围在-1~0之间,0值产生最高相关因子,大的负数产生旋转的结果与直交接近。Promax斜交旋转方法也允许因子彼此相关,它比直接斜交旋转更快,因此适用于大数据集的因子分析。

综上所述,不同的因子旋转方式各有其特点。因此,究竟选择何种方式进行因子旋转取决于研究问题的需要。如果因子分析的目的只是进行数据简化,而因子的确切含义是什么并不重要,就应该选择直交旋转。如果因子分析的目的是要得到理论上有意义的因子,应该选择斜交旋转。事实上,研究中很少有完全不相关的变量,所以,从理论上看斜交旋转优于直交旋转。但是斜交旋转中因子之间的斜交程度受研究者定义的参数的影响,而且斜交旋转中所允许的因子之间的相关程度是很小的,因为没有人会接受两个高度相关的共同因子。如果两个因子确实高度相关,大多数研究者会选取更少的因子重新进行分析。因此,斜交旋转的优越性大打折扣。在实际研究中,直交旋转(尤其是Varimax旋转法)得到更广泛的运用。

(d)决定因素与命名

转轴后,要决定因素数目,选取较少因素层面,获得较大的解释量。在因素命名与结果解释上,必要时可将因素计算后的分数存储,作为其他程序分析的输入变量。

(e)计算各样本的因子得分

因子分析的最终目标是减少变量个数,以便在进一步的分析中用较少的因子代替原有变量参与数据建模。本步骤正是通过各种方法计算各样本在各因子上的得分,为进一步的分析奠定基础。

③灰色关联度分析法

灰色关联度分析(Gray Relational Analysis)便是灰色系统理论应用的主要方面之一。它是针对少数据且不明确的情况下,利用既有数据所潜在之信息来白化处理,并进行预测或决策的方法。

灰色关联度分析的基本原理:灰色关联度分析认为若干个统计数列所构成的各条曲线几何形状越接近,即各条曲线越平行,则它们的变化趋势越接近,其关联度就越大。因此,可利用各方案与最优方案之间关联度的大小对评价对象进行比较、排序。该方法首先是求各个方案与由最佳指标组成的理想方案的关联系数矩阵,由关联系数矩阵得到关联度,再按关联度的大小进行排序、分析,得出结论。

灰色关联度分析的优点在于计算简单,通俗易懂,数据不必进行归一化处理,可用原始数据进行直接计算。此外,该方法无须大量样本,也不需要经典的分布规律,只要有代表性的少量样本即可。

灰色关联度分析的缺点包括:第一,现在常用的灰色关联度量化模型所求出的关联度总为正值,这不能全面反映事物之间的关系,因为事物之间既可以存在正相关关系也可以存在负相关关系,而且存在负相关关系的时间序列曲线的形状大相径庭,若仍采用常用的关联度模型,必将得出错误的结论。第二,目前建立各种灰色关联度量化模型的理论基础很狭隘,单纯从比较曲线形状的角度来确定因素之间的关联程度是不合适的。总的来说,目前的“规范性”准则不够全面、准确,应该进行修正。第三,该方法不能解决评价指标间相关因素造成的评价信息重复问题,因而指标的选择对评判结果影响很大。

④人工神经网络评价法

人工神经网络也简称为神经网络,是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。人工神经网络具有自学习和自适应的能力,可以通过预先提供的一批相互对应的输入-输出数据,分析掌握两者之间潜在的规律,最终根据这些规律,用新的输入数据来推算输出结果,这种学习分析的过程被称为“训练”。

人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。

人工神经网络评价法的优点包括:第一,并行分布式处理。因为人工神经网络中的神经元排列并不是杂乱无章的,往往是分层或以一种有规律的序列排列,信号可以同时到达一批神经元的输入端,这种结构非常适合并行计算。同时,如果将每一个神经元看作是一个小的处理单元,则整个系统可以是一个分布式计算系统,这样就避免了以往的“匹配冲突”“组合爆炸”和“无穷递归”等问题,推理速度快。第二,可学习性。一个相对很小的人工神经网络可存储大量的专家知识,并且能根据学习算法,或者利用样本指导系统来模拟现实环境(称为有教师学习),或者对输入进行自适应学习(称为无教师学习),不断地自动学习,完善知识的存储。第三,容错性。由于采用大量的神经元及其相互连接,具有联想记忆与联想映射能力,可以增强专家系统的容错能力,人工神经网络中少量的神经元发生失效或错误,不会对系统整体功能产生严重的影响。而且克服了传统专家系统中存在的“知识窄台阶”问题。第四,泛化能力。人工神经网络是一类大规模的非线性系统,这就提供了系统自组织和协同的潜力。它能充分逼近复杂的非线性关系。当输入发生较小变化,其输出能够与原输入产生的输出保持相当小的差距。第五,具有统一的内部知识表示形式,任何知识规则都可以通过对范例的学习存储于同一个神经网络的各连接权值中,便于知识库的组织管理,通用性强。

人工神经网络评价法的主要缺点包括:一是没有能力解释自己的推理过程和推理依据;二是神经网络不能向用户提出必要的询问,而且当数据不充分的时候,神经网络就无法进行工作;三是神经网络把一切问题的特征都变为数字,把一切推理都变为数值计算,其结果势必是丢失信息;四是神经网络的理论和学习算法还有待于进一步完善和提高。

其他还有TOPSIS评价法、蒙特卡罗模拟评价法,数据包络分析(DEA)评价法等。各种赋权方法的优劣势比较如表4.9所示。

表4.9 赋权方法优缺点比较

综合比较主观赋权法和客观赋权法,加之原始数据均为客观数据,因此,指数的赋权拟采取客观赋权法中的主成分分析赋权法。

2.制造业税收指数的指标赋权

本书中,对全部指标从2011年至2017年的所有数据进行因子分析,用主成分分析提取公共因子,得到各指标在此期间的客观权重。所有计算均由SPSS软件实现,分析结果如表4.10所示。

表4.10 KMO和Bartlett的检验

得到KMO值=0.687进行因子分析的结果较好。Bartlett值=1048.523,P值小于0.001,说明相关矩阵不是一个单位矩阵,因子分析模型较为适合。

其次,选择“抽取”,使用主成分分析提取办法,导出“未旋转的因子解”和“碎石图”,可以观察这12个指标所获得的主成分个数。其中“未旋转的因子解”复选框表示输出未旋转的因子载荷(因子模式矩阵)、公因子方差和因子解的特征值。

表4.11 解释的总方差

注:提取方法为主成分分析法。

表4.11给出了因子贡献率的结果。该表中左侧部分为初始特征值,右边为提取主成分后结果。“合计”指因子的特征值,“方差”表示该因子的特征值占总特征值的百分比,“累加”表示累积的百分比。其中,有四个因子的特征值大于1,其方差贡献率累计已达83.295%,足以表达原始指标信息,予以提取。在此基础上各指标的共同度如表4.12所示。

表4.12 公因子方差

续表

注:提取方法为主成分分析法。

表4.12给出了每个变量共同度的结果。该表左侧表示每个变量可以被所有因素所能解释的方差,右侧表示变量的共同度。从该表可以看出,因子分析的变量共同度都非常高,表明变量中的大部分信息均能被因子所提取,说明因子分析的结果是有效的。

接下来,选择“得分”,导出因子得分系数矩阵,用于输出因子得分的系数矩阵及因子得分之间的相关性矩阵,可以从中观察各变量与四个主成分的相关性(见表4.13)。

表4.13 成分矩阵a

注:提取方法为主成分分析法,a表示已提取了4个成分。

表4.13中的因子得分系数矩阵给出了主成分的载荷矩阵,每一列载荷值都显示了各变量与有关主成分的相关系数。对每一行进行求平方和,就是公因子方差,又称为共同度,它刻画了全部公因子对该变量的总方差所作的贡献。从另一个角度说,变量的共同度是变量对提取的因子的重要性体现,共同度越大说明该变量越能影响公共因子的变化。进一步利用因子分析过程中各原始指标的共同度做归一化处理,来赋予各个指标权重。由此,各评价指标的客观权重如表4.14所示。

表4.14 各指标客观权重汇总

注:提取方法为主成分分析法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈