首页 理论教育 局部引文分析:优化方法和应用领域

局部引文分析:优化方法和应用领域

时间:2023-07-08 理论教育 版权反馈
【摘要】:被引次数引文分析一般的基本观点是,引用一篇文章表明对这个文章的认可,一篇学术论文的被引次数通常被描述为该论文的重要性程度或者影响力。这种观点即罗伯特·默顿所持的基本看法。在默顿1973年的研究中[5],他提出一篇文献被引用意味着这篇文献对知识的发展过程提供了贡献,这种贡献体现在其研究的观点或内容渗透到了后续的研究中。全局被引数指文献在数据库中客观实际被引总次数。图5-1耦合和共被引的三方组形式

局部引文分析:优化方法和应用领域

(1)被引次数

引文分析一般的基本观点是,引用一篇文章表明对这个文章的认可,一篇学术论文的被引次数通常被描述为该论文的重要性程度或者影响力(impact)。这种观点即罗伯特·默顿所持的基本看法。在默顿1973年的研究中[5],他提出一篇文献被引用意味着这篇文献对知识的发展过程提供了贡献,这种贡献体现在其研究的观点或内容渗透到了后续的研究中。被引次数越多的文章贡献越大,重要性程度也就越高,相同的,做出重要贡献并将之发表出来的科学家或刊载重要文献的期刊也就会被多次提到。相反的,一个没有被引用的文献、作者或者期刊则与科学知识的发展没有关系。根据这种假设,文献、作者或者期刊的价值就能够体现在被引次数上,但可惜的是,这种假设过于简化而存在明显的缺陷。例如一篇文献如果是某个研究领域的末裔,是某个主题的终结,那么即使它的价值和贡献十分巨大,也不会有被引次数。同样的,如果某个文献或者作者的研究是无法被实现的,但其研究思想十分有影响力,那么也同样不会被经常引用,因为其研究内容形成了所在研究领域的外延;某些多次被引用的文献或者作者可能并不缘于其对知识的直接贡献,而是由于其提供了有用的方法[6]。被引次数从网络分析的层面来说,就是衡量节点重要性中节点的出度(入度则代表其参考了多少资源)。

作为一个基础指标,被引次数最大的优势在于其易获取性,目前绝大多数数据库都提供文献的被引次数,例如英文的Web of Science数据库、中文的CNKI数据库、万方数据库、学术搜索引擎Google Scholar等,被引次数给用户提供一个直观的重要性判断。此外,被引次数同样可以用来衡量论文研究内容的交叉性,最突出的指标即论文的全局被引数(Global Citation Score,GCS)和分主题的局部被引次数(Local Citation Score)[7]。全局被引数指文献在数据库中客观实际被引总次数。在大科学时代,绝大多数科学研究都或多或少与其他研究内容相关,研究的学科交叉性越来越明显;在研究主题上这种交叉性则体现得更为明显,除了少数封闭程度较高的研究内容外,绝大多数科学文献无法归到单一主题中。相对于引用次数来说,这种交叉性则体现为文献在各个主题文献集中的局部被引次数上,局部被引次数指某一篇论文在特定领域中的被引次数,因此也可以称为领域或主题被引次数。利用所获取文献的总的领域被引次数和全局被引次数进行比较,可以确定获取文献在特定研究主题上的集中率,对单篇文献进行比较,则可以衡量单篇文献的跨学科知识输出。

在实际的引用过程中,文献与文献之间的引用次数的计算与不同类型出版物参考文献的著录规则存在关联,一般情况下,在衡量文献之间引用关系时往往采用二值方法,即“有-没有”引用,有则计1,无则计0。这种定义事实上是比较模糊的,主要存在两个方面问题:第一,对于文献之间存在引用关系,单纯的二分计数方法对强度的衡量存在局限性。对于某一篇文献而言,某些文献对于它是相对次要的,例如作为背景而被引用的文献;某些文献则是相对重要的,比如多次提及的文献,或者借鉴核心思想、方法迁移而引用的文献。事实上传统的引文分析是引用参考文献分析,而不是针对文献中引用本身的分析,引用行文本身可能是多对多的关系,要解决这个问题需要对引文出现在施引文献的具体部分和引用的原因进行区分。胡志刚等研究人员提出的引用内容分析为解决这个问题提供了可能[8],然而他们的方法对原始信息的描述方式有许多要求,必须要有全文数据才能实施,因此暂时还主要集中在特定的数据库例如PubMed中。第二,传统引用次数在作为衡量文献重要性的标准时的另一个问题是无法区分施引文献的重要性,在实际的科学研究过程中,某一篇文献被不同的文献引用都会计一次,但被一篇重要性很低的文献和一篇重要性程度很高的文献引用对整个知识系统而言重要性是不一样的,想要区分不同文献的重要性,则又回到了是否用被引次数来衡量重要性的问题原点上,陷入无法解决的泥潭,从局部的角度基本上无法解决这个问题。

(2)文献耦合与同被引(www.xing528.com)

对于文献耦合的概念,国内一般认为是1963年由美国MIT(麻省理工学院)的Kessler提出来的[9],事实上,在更早的1956年,欧洲人Fano就已经提出了文献耦合的概念和思路,只是并未引起更多的关注[10]。文献耦合是指施引文献通过其参考文献(即被引文献)建立的一种关系。在科学研究过程中,研究内容相近的论文往往会引用相同的论文,且内容越相近,相同的参考文献越多,相同参考文献的数量即耦合的强度[11]。另一种关系类型——文献同被引,则是耦合的一种逆关系,最早由美国情报学家Small和前苏联情报学家Marshakova在1973年同时提出[12],文献同被引则利用两篇文献被相同文献引用的强度来衡量内容的相似程度。

文献耦合和同被引在实践应用中往往以这两种关系形成的网络为分析对象,并在此基础上进行聚类分析,其角度看似是针对资源集合全局进行研究,但这种关系的切入点仍旧是局部的,即主要考虑的仍旧是文献对之间的关联。事实上,一旦建立整个资源的引文网络,文献耦合与同被引都是局部的三方关系的特例,假设A→B表示B引用了A,那么耦合就可以用三方关系组谱系中的4-021D来表示,而共被引则可以用5-021U来表示,如图5-1所示。此外,由于同被引强度和文献耦合强度计算的基础是文献之间直接被引次数,因此被引次数存在的问题影响了文献耦合与文献同被引的准确性。

图5-1 耦合和共被引的三方组形式

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈