首页 理论教育 引文数据清洗及统计描述策略

引文数据清洗及统计描述策略

时间:2023-07-08 理论教育 版权反馈
【摘要】:图5-6显示了1996年关于XML研究的第一篇文章发表以来至2013年间发文数量与文献被引数量的时间分布图,其中XML研究相关的文献数量从1996年到2003年呈现出急剧增长的趋势,2003年为文献发表最多的年份,达到近1 800篇。大量处于孤岛位置的文献中某些文献拥有很大的绝对被引数量,说明这些文献也很重要,但是与XML的研究并非十分相关。

引文数据清洗及统计描述策略

不可逆是引用关系的一个基本特征,理论上来看,发表时间较早的文献不可能引用出版时间在它之后的文献,在引文网络中,这种不可逆性表现为所有的引用关系都是非回路的,但在现实中却可能存在一些特殊情况,导致异常引用的出现,本研究中主要包括如下三种:

(1)论文自引

论文自引即论文引用自身,这种情况的产生主要有两种原因,其一是数据库系统的误标,其二是作者本身的不规范引用。后者的一个典型是本书研究的数据集中的文献“Working with the DICOM and NIFTI Data Standards in R”,该文献在文章的3.6节中引用了论文自身,是一种典型的不规范引用。

(2)先发表论文引用后发表论文

这种情况的产生主要是由当前新的出版环境所导致的,目前有许多期刊采用优先出版或者预印本的方式将已经接受的论文在网上早于实体出版公布出来,由于各期刊出版的周期不一致,就会导致先出版的论文引用后出版论文的情况。

(3)论文之间的互相引用

论文之间的互相引用一般主要集中在联系非常紧密的作者群体之间或某个期刊所开设的专题中,这类引用关系则主要体现了当前研究工作的合作程度越来越高。

上述三种情况占引用关系总数的0.05%,比例非常小,因此删除这些不规范引用关系对整个研究产生的影响很小。去掉不规范引用后,15 093篇文献间共包含12 581对引用关系。

图5-6显示了1996年关于XML研究的第一篇文章发表以来至2013年间发文数量与文献被引数量的时间分布图,其中XML研究相关的文献数量从1996年到2003年呈现出急剧增长的趋势,2003年为文献发表最多的年份,达到近1 800篇。从2003年开始到2006年是一个缓慢减少的时期,但2006年之后XML的研究迅速降温,发文数量急剧减少,且未再呈现出回升趋势。而从相关的引用数量上来看,相关研究论文的被引数量从1996年开始一直增加,2007年之后被引数量开始回落,2009年之后回落十分明显。(www.xing528.com)

通过分析发现,这种趋势产生的原因可能包括两个方面:其一,XML技术在某些领域已经发展成熟,逐渐作为行业标准而存在,因此相对的研究内容不断减少或逐渐消失;其二,XML在诞生之初是被寄予厚望的,各领域的研究人员和信息行业的工作者普遍希望利用XML解决自身领域中存在的问题,但是经过一段时间的研究发现,XML并不具备这些功能,因此对XML的研究逐渐缩小到某些特定的领域,而对于以往成果的引用也开始集中于少量的文献上。例如,2012年在芬兰赫尔辛基召开的第78届国际图联大会上,第92个主题关于下一代编目数据格式的讨论中,来自英国朴次茅斯大学的学者就认为,XML虽然作为MARC被引入图书馆的资源组织和描述领域中,但是并没有带来明显的额外好处,而相对于将目前的MARC格式向XML进行的转化所面临的成本来说,这种替代可能是得不偿失的[24]

对引文网络的结构进行初步的分析发现,整个网络中包含了382个联通子图,其中最大的一个子图包含了5 667篇文献和11 935个引用关系对,有8 435篇文献是孤立存在的,即没有引用其他文献也没有被其他文献所引用。这两个部分占到了整个文献数量的绝大多数,表明其中存在明显的集中和离散趋势。大量处于孤岛位置的文献中某些文献拥有很大的绝对被引数量,说明这些文献也很重要,但是与XML的研究并非十分相关。

图5-6 1996—2013年XML论文与引文的时间分布

整个网络中重要性最高的论文遍历计数为5 831,而重要性程度最高的引用关系遍历计数为3 897,根据这两个值,采用最大值归一法可以得到每个节点和边的遍历权重。整个网络中边的遍历权重分布在0.000 257到1之间,而论文的遍历权重分布在0.000 171 5到1之间。图5-7和图5-8是文献和引用关系遍历权重的对数分布图,从图中可以看出,随着遍历权重的升高,频数的下降呈现出明显的幂律分布,利用Newman的Maximum Likelihood Estimation方法[25]可以计算出两个分布的幂律指数分别为1.91±0.008和2.54±0.012。这表明在整个XML发展过程中,只有数量极小的一部分文献和引用关系是比较重要的,因此,在进行子结构聚合的时候可以将大部分次要的节点和引用关系删除以提升运算效率

图5-7 文献遍历权重频数对数分布

图5-8 引用关系遍历权重频数对数分布

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈