首页 理论教育 常用信息分析方法的介绍

常用信息分析方法的介绍

时间:2023-07-25 理论教育 版权反馈
【摘要】:同任何科学研究一样,信息分析也要采用各种方法,对方法的合理使用是决定信息分析水平和效率以及信息分析质量和效益的重要因素。信息分析法是由多种方法构成的。

常用信息分析方法的介绍

同任何科学研究一样,信息分析也要采用各种方法,对方法的合理使用是决定信息分析水平和效率以及信息分析质量和效益的重要因素。信息分析方法是指信息分析研究过程中所采取的一切方法和技巧的总和。因此,怎么强调信息分析方法的重要性也不为过,本节就一些常用的信息分析方法做一下介绍。

信息分析法是由多种方法构成的。按照手段可分为文献统计分析法、数学模型分析法、系统分析法、矩阵分析法、网络分析法等。其中最基本的是文献统计法、内容分析法、引文分析法、基于文献的发现法、逻辑分析法、聚类分析法和回归分析法等。

1.文献统计法

文献统计法指以某一特定单位对文献或其相关媒介进行统一的计量,它是利用统计学原理对文献进行统计分析,以数据来描述和揭示文献的数量特征和变化规律,从而达到一定的研究目的的一种分析研究方法。一般包括统计调查、统计整理和统计分析等类型。

文献计量法是对文献和文献工作进行定量研究的方法,所以必须建立一套具有“量”的规范化概念。但在文献信息领域,由于存在着许多不易计量的现象,所以我们需要采用质量问题数量化的研究方法把它们变成可计量的因素,然后再将各种因素之间的关系归纳成一定的数学表达式,从而实现定量化研究。文献计量的基础需要有一系列统计数据,这就是文献计量法的量度。主要包括:

(1)出版物统计:某一学科出版物的数量能够反映这一学科的基本状况。可以通过书目索引、文摘等二次文献和书目指南等三次文献来获取详细的数据。

(2)科学术语的统计:通过对科学术语的统计研究可以进行科学水平的分析,使科学用语规范化,并为信息检索语言编制提供科学依据。

(3)著者统计:对著者进行统计可以研究著者与出版物之间的关系。

(4)引证文献与被引文献的统计:统计分析文献之间的引证与被引之间的情况,可以揭示科学研究中的文献之间或著作之间的各种关系。

(5)用户统计:对用户进行统计分析可以研究用户的来源分布、需求倾向、利用文献的类型、查阅资料的重点以及对文献信息服务的评价等。

(6)文献利用情况的统计:包括文献的阅览数量、借阅数量、复印数量、拒借率、满足率等文献指标。

2.内容分析法

内容分析法是一种系统化和定量化分析文献集合等信息载体中所含信息内容(如短语、词汇、概念、主题、句子、段落、人物等)的方法,尤其擅长于揭示信息生产者无意之间透露的真实信息,较之于一般的文献统计方法,更能洞悉问题的实质。早在20世纪初,就有人尝试在常规阅读文献的途径以外,采用一些半定量的方法来对文献所包含的内容做出进一步的分析。此后,在社会调查、心理研究和战时信息工作等许多领域中,这一方法得到了不断改进和发展。

内容分析是以行为科学传播学语言学和计算机科学等理论和方法作为基础的。主要类型包括主题分析、词频分析和篇幅分析等。内容分析的基本步骤包括抽取文献样本、确定分析单位、界定内容的类别、对内容进行定量处理等。

目前,内容分析的主要应用领域和成果有:

(1)社会情势调查分析。社会舆论动态、公众态度和关切的问题等社会情势,是公共决策或企业决策的重要基础。奈斯比特以美国有代表性的地方报纸为分析对象,每月扫描6000种报纸,对反映美国社会问题教育就业环境等10个一级主题、若干个二、三、四级主题进行内容单元的编码建库,并采用具体的定性和定量分析,以此得出了《大趋势》。

(2)军事政治信息分析。在第二次世界大战中,以拉斯韦尔为代表,在美国国会图书馆组织了“战时通信研究”小组,以德国公开出版的报纸为对象,通过内容分析获取军政方面的机密信息。例如,为了估计法西斯政权近期政治攻击的矛头所向,他们在报纸上抽出“民主”、“共产主义”、“英格兰”和“希特勒”等关键词,分别在“容忍”、“反对”和“中立”三种语境下统计关键词的出现频率。这项工作不仅取得了实际效果,而且在方法上形成了一套模式,为战后内容分析的发展奠定了基础。美国参谋长联席会议特种行动部从1980年起出版《苏联新闻与宣传》就是一个应用的实例。该部对前苏联国防部机关报《红星报》逐月进行分析,从中推测苏联对外军事和政治的意图和动向。

1973年,美国中央情报局成立了一个探索在国际政治信息分析中运用计算机与定量方法的专门机构,后来该机构公布了几个内容分析的实例,其中之一,就是通过文献上特定指示词的词频来推测文献作者的倾向性。中央情报局认为,了解前苏联领导阶层对其领袖的态度,对研究其政治动态至关重要。一般通过以下4种途径就可以达到:一是地方党领导人及其密友的政治经历;二是他被人所知的政策立场;三是出席各种公共场合的情况及其排名顺序;四是在公开演说或著作中对领袖的称呼和提法等。

(3)科技经济信息分析。早在1967年,日本机械振兴协会经济研究所出版的《关于信息分析的理论和实际研究》一书中,就把内容分析作为一种重要方法列入其中。例如,研究人员以美国的《商业周刊》和《新闻周刊》12年来所刊登的日本产品广告为对象,分析了日本企业打进美国市场的广告战略,并验证了广告战略四阶段假设:当日本产品在美国知名度还很低时,不突出产品,而是强调该企业在日本国内的优越地位;当企业知名度提高后,开始强调产品的价格、质量和外形等;当进入与美国企业竞争阶段时,广告就强调优于对手产品的特点;最后当产品进入世界市场,广告就突出其产品在世界上的地位。

其他方面的应用实例:我国学者在美国威斯康星大学用计算机对《红楼梦》后40回进行了词频分析,并同前80回做了比较,从而对其作者进行了推测。世界各国在20世纪80年代曾出现过“高技术区热”,有的国家盲目模仿,走了弯路;而日本通过篇幅分析,一方面极其深入地学习了别国的经验,另一方面密切结合本国的实际,做得比较成功。

3.引文分析法

在科技文献的体系结构中,每篇文献都不是孤立存在的,而是相互联系的,这种联系突出表现在文献之间的相互引用。科技文献的相互引用说明了各学科的相关性和自组织性,展示出科技发展过程中各事件的联系和知识信息的继承、交流和利用状况。科技文献之间的引用除了直接引用外,最有代表性是引文耦合(如果两篇论文同时引用一篇或多篇相同的论文,则称其在引文上是耦合的)、同被引(指两篇或多篇论文共同被后来的一篇或多篇论文所引用)、自引(指作者引用自己或与他人合著的先前的论文)等。

1927年,格罗斯(P. L. K. Gross)等人进行了文献学史上第1次引文分析,他们对化学专业的某些期刊论文的参考文献进行了统计分析,得出了化学教育方面的核心期刊。真正对分析做出杰出贡献的是美国的加菲尔德(E. Garfield)。加菲尔德根据《谢泼德索引》(Shepard’s Citation,1873)的原理,采用科学计量学和文献计量学的方法,创造出了一种实用的“引文索引”和“引文分析方法”。1963年SCI的出现,打破了传统的主题和分类索引的垄断地位,开辟了新的检索途径。1973年和1978年,加菲尔德又分别创办了SSCI和A&HCI,并与普赖斯合作,创造了引文分析方法。

1995年,在国家自然科学基金委员会和中国科学院的支持下,在已经建成的“中国科学引文数据库”的基础上,中国科学院文献信息中心决定出版发行《中国科学引文索引》(China Science Citation Index,CSCI)。CSCI收录科技期刊300多种,年报道量3万余篇,由引文索引、来源索引、机构索引和轮排主题索引4部分组成。20世纪90年代末南京大学中国社会科学研究评价中心研制出《中文社会科学引文索引》(Chinese Social Sciences Citation Index,CSSCI)。

目前,引文分析已经成为文献计量方法中研究最活跃、发表文章最多的一个领域。引文分析可以评价一个国家科学能力、科学团体和个人的学术水平;可以根据不同学科之间引用与被引用的统计,勾画出学科的内部网络;还能够比较客观地反映论文和期刊的质量等。例如,有人通过对1989年《情报学报》等9种信息学重要期刊论文所引用的论文和论文所属学科进行统计分析,结果发现,除了图书馆学和计算机科学外,经济学方面的文章是信息学论文引用次数最多的,并由此得出信息学与经济学之间的关系非常密切的结论,而这一结论大大出乎当时人们的意料。

常用引文分析的测度指标如下:

(1)引文率:是衡量研究对象吸收情报能力的一个相对指标,根据研究对象不同可分为期刊引文率、著者引文率、学科引文率、机构引文率、国家引文率等。例如:期刊引文率=该刊中参考文献总数/期刊载文量;

(2)影响因子:某期刊第k年的影响因子=第k年对该期刊在第k-1年和第k-2年发表文献的引用数量/该期刊第k-1年和第k-2年发表的文献数量;

(3)自引率:就是对主体本身范围内文献引用的次数与主体引用的文献总数的比值。自引率=主体的自引次数∕主体引用的文献总数;(www.xing528.com)

(4)即时指标:是测度期刊被引用速度的指标,即时指标=该年度对该刊当年发表文献的引用次数∕当年该刊发表的文献总数;

(5)耦合强度:当两篇文章同时引用一篇或多篇相同的文献时,这种现象称为引文耦合,这两篇文献就具有耦合关系。引文耦合的文献之间总存在着这样或那样的联系,其联系的程度(共同引用的文献数)称为耦合强度;

(6)共引文强度:当两篇(或多篇)论文同时被别的论文引用时,则称这两篇论文具有“共引文”关系,引用它们的论文的多少,称为共引文强度。

引文分析方法在信息分析中有着广泛应用:利用引用数据研究文献结构和科学结构;利用引用数据研究文献的动态规律和用户行为特征和需求特点;利用引用数据研究科学发展史;利用引用数据评价人才、机构和成果;测定某一学科的影响和某一国家某些学科的重要性;研究学科信息源分布、评价和选择期刊和文献等。除了上述列举的应用之外,许多国家还用引文分析来确定科研资助政策和重点研究领域等等。

4.基于文献的发现法

随着科技文献的爆炸性增长,表面上没有任何联系(指不存在互引、共引或其他书目文献上的联系)的文献中,可能存在着被人们忽视的某种能导致新知识产生的潜在关联关系。基于文献的发现(Literature-based Discovery)就是以揭示蕴含于公开发表的文献中但尚未被人们认识或发觉的知识片断间的逻辑联系,从而提出知识假设,以便专业研究人员进一步证实,促使新知识的产生为目的的信息分析方法。它是继实验发现模式、理论发现模式之后的又一种新科学发现模式。

20世纪80年代,以美国芝加哥大学的斯旺森(Don R. Swanson)教授为代表的一些信息研究人员开始对揭示文献中隐含的逻辑关系产生兴趣。1985年,斯旺森对生物医学文献进行了研究,他发现两篇医学文献放在一起,会揭示出一个问题的答案,而这个答案是从单独一篇文献得不到的。这预示着在医学文献中存在着大量的未被发现的隐含的关联。据此,斯旺森提出了“未被发觉的公开知识”的概念,即公开知识有可能不被发觉,只因为组成这种知识具有逻辑联系的各部分从没有被任意同一人所知,并率先创立了一种纯信息学的研究方法,即基于非相关文献的知识发现法,为基于文献的知识发现研究奠定了理论基础。

斯旺森通过对比分析25篇论述“食用鱼油可以引起血液的某种变化”的生物医学文献和34篇论述相似的“血流变化可以导致雷诺氏症”的生物医学文献,然后在两组文献之间建立了联系。1986年,斯旺森在Perspectives in Biology and Medicine上撰文,提出如下知识假设:食用鱼油会对雷诺氏症患者有益。尽管这一假设当时还没有以任何形式公开发表过,不过两年后,他的这一假设却得到了临床报告的证实。接下来,斯旺森又通过文献研究发现了偏头疼和镁的11条被忽视的联系,并提出镁缺乏可引起偏头疼的假设,也得到了临床实验的证实。此外,他还发现了精安酸和生长调节素C、镁和神经健康等之间的隐含关系。

鉴于“基于文献的发现”研究中的文献是关于不同主题或属于不同学科的,从中推理出新的知识可能需要相当长的时间或具有某种偶然性,为此,斯旺森及其合作者还专门设计出一个用于发现MEDLINE数据库中所收录的医学文献间联系的软件Arrowsmith(http://Arrowsmith.psych.uic.edu/),去搜索非相关文献中的这种联系,目的在于帮助研究者从中找到新的有科学价值的知识。

5.常用逻辑分析方法

(1)比较法

比较也称对比,就是对照各个研究对象,以确定其差异点和共同点的一种逻辑思维方法。比较实际上就是对研究对象的某些共同特性或属性进行对比,所以在对比时必须对反映事物本质的特征或属性进行分解和分析,并从中确定其主要特征、属性和次要特征、属性,做到抓住主要特征和属性并尽可能多地分析次要特征和属性。

在比较时,应注意:事物间的可比性,如时间、空间和内容上的可比性;比较方式的选择;比较内容的深度;注意数据和图表的运用。

在信息分析中,比较的应用是非常广泛的,如行政管理领域中各种政策的比较、科学技术领域中各国科技发展水平和趋势的比较、经济领域中企业经济指标的比较、社会领域中人口素质的比较等。总之,只要符合比较的基本规范,比较法就可以以各种形式在信息分析中得到广泛应用。

(2)分析与综合

分析与综合是信息加工的基本方法、是揭示事物本质和规律的基本手段、是形成观点和模型的主要工具。分析法是将复杂的事物分解为若干部分,根据部分之间的特定关系进行分析,从已知的事实中分析得到新的认识,产生新的知识或结论。按分析的角度不同,有对比分析法和相关分析法。

在对比分析法中,对比的目的有:①可对同类事物不同方案、技术、用途进行对比,即从对比分折中找出最佳方案、最优技术、最佳用途;②可对同类事物不同时期技术特征进行对比,即从对比分析中了解发展动向和趋势;③可对不同事物进行类比,即从不同事物的类比中找出差距,取长补短。对比的方式有:文字分析对比,数据分析对比,图表分析对比等。

所谓相关分析法,是指利用事物之间或事物内部各个组成部分之间存在的某种相关关系,如利用事物的现象与本质、起因与结果,事物的目标与方法和过程等相关关系,从一种或几种已知事物特定的相关关系顺次地、逐步地来预测或推测未知事物,或获得新的结论。

综合法是把与研究课题有关的各种分散信息,按特定的目的汇集归纳成系统而完整的信息集合。综合的具体方法有简单综合、分析综合和系统综合。简单综合是把原理、观点、论点、方法、数据、结论等有关信息一一列举,进行综合归纳;分析综合是把有关的信息进行对比、分析、推理,在此基础上进行归纳综合,并可得出一些新的认识或结论;系统综合是一种纵横交错的综合方式。从纵的方面看,把获得的信息与有关的历史沿革、现状和发展预测进行综合,从中得到启迪,为有关决策提供借鉴。从横的方面看,把与之有关的相关学科领域、相关技术进行综合,从中找出规律,为技术创新或技术改革提供相关依据。

(3)推理分析

人们认识事物的过程,是从个别到一般,又从一般到个别的。归纳和演绎推理就是这一过程所采用的两种基本思维方法。推理是通过两个或两个以上的事实、数据、判断及他们之间的关系,推演出一个新的判断。推理方法一般可分为归纳推理和演绎推理,归纳推理是从个别到一般,即以若干特殊场合下的情况为前提,推断出一般的原理、原则等,简称归纳法;演绎推理是从一般到个别,即以一般的原理、原则、定理、公理为前提,推论到某个特殊的场合,得出结论,做出判断,简称为演绎法。

在信息分析中,还常用一种类比推理法,这是利用信息客体的特征和某些性质上的相同点,推知他们在另一些性质上也可能相同。

6.聚类分析法

聚类分析(Cluster Analysis)是根据事物本身的特性研究个体分类的方法,是多元分析与当代分类学结合的产物,又称为群分析、点群分析或簇类分析。 基本的思想是:认为研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据样本的多个观测指标,将其置于多维空间,按照它们空间关系的亲疏程度进行分类。关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位。 聚类分析在文献信息分析中有着广泛的应用。

7.回归分析法

回归分析法(Regression Analysis)是通过研究两个或两个以上变量之间的相关关系对未来进行预测的一种数学方法。回归分析法主要解决以下两个问题:一是确定几个变量之间是否存在相关关系,如果存在,找出他们之间适当的数学表达式;二是根据一个或几个变量的值,预测或控制另一个或几个变量的值,且要估计这种控制或预测可以达到何种精确度。回归分析法有以下几个工作步骤:根据自变量因变量的现有数据以及关系,初步设定回归方程;求出合理的回归系数,并确定回归方程;进行相关性检验,确定相关系数;在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况;并计算预测值的置信区间

除上述分析方法外,还有原理法、枚举法、外推法、特尔菲法、层次分析法、未来图景草拟法等。信息分析的创造性和智能性的特点正是通过该阶段才充分体现出来的,同时充分的分析工作又是信息利用和创新的前提。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈