首页 理论教育 XML研究领域的数据采集

XML研究领域的数据采集

时间:2023-07-08 理论教育 版权反馈
【摘要】:本书以XML研究领域的科学文献作为多元计量聚合的实证对象,主要原因包括以下方面:①XML研究在资源体系中的状态符合本研究对于样本数据的要求。②作为样本,获取XML研究的相关数字文献具有比较高的查全率和查准率。XML从产生到2006年经历了一个蓬勃发展的时期,但在2006年之后的研究则相对较少。④选择XML领域作为试验样本的另一个重要原因是笔者曾对相关领域进行过跟踪,对该领域相对熟悉。

XML研究领域的数据采集

科学知识多元计量聚合的实现是一项实践性非常强的研究,方法和效果的研究需要通过实证分析来体现。通过综述部分的研究发现,与本研究相关的成果大多选择特定的领域或者群体作为分析对象,例如克兰的无形学院研究以数学科学领域和乡村社会学研究群体作为观测对象[72],Neman利用生物医学、物理学和计算机科学研究科学合作结构特征的小世界研究[73],因此本研究也将结合实例分析的方式开展研究。

XML即可扩展标记语言,在当前的数字化环境下,XML研究一直都是计算机与信息科学的重要子领域之一,该领域是伴随着信息时代的到来和Web的快速发展而产生的,事实上最初发展出XML就是为下一代网络提供基础,在目前的数字图书馆环境中,XML应用面也非常广泛。正如Zeldman所说,从XML产生开始,就对网络服务、电子商务、语义网及其他技术应用产生了巨大影响[74]。本书以XML研究领域的科学文献作为多元计量聚合的实证对象,主要原因包括以下方面:

①XML研究在资源体系中的状态符合本研究对于样本数据的要求。作为一个成熟的技术领域,XML研究的资源数量十分庞大,其中包含了从理论到技术发展再到平台应用的多层面的内容,其核心十分明确,都与XML相关,但资源的主题分布相对零散,与用户在科学研究过程中面临的整个科学知识空间的特征相近,因此以XML研究领域作为案例可以模拟用户对科学文献资源收集时获取知识的特征。

②作为样本,获取XML研究的相关数字文献具有比较高的查全率查准率。相对于其他的研究领域,特别是社会科学研究领域,以XML作为核心检索词具有很高的资源查全率,只要与XML相关的研究基本上都会使用这个词汇,且XML及其全称“eXtensive Markup Language”的歧义很小,因此以关键词作为检索入口获取资源能较好覆盖相关文献,也符合用户的信息检索习惯特征。(www.xing528.com)

③便于系统评价和借鉴以往的研究成果。对XML领域的研究已经有一定的研究成果,赵党志等曾以XML研究的网络文献与印本文献为样本,利用作者共被引方法研究了该领域的知识结构,其最新的研究成果发表于2007年[75]。XML从产生到2006年经历了一个蓬勃发展的时期,但在2006年之后的研究则相对较少。以XML为样本可以综合反映一个领域从产生到发展再到逐渐走向成熟的整体过程,并且有利于与早期的研究成果进行比较。

④选择XML领域作为试验样本的另一个重要原因是笔者曾对相关领域进行过跟踪,对该领域相对熟悉。要对科学知识多元计量聚合的结果进行解释,评价聚合的效果就必须较为熟悉样本的研究背景、特点等核心内容,否则容易对现象和结果的解释产生错误。由于笔者曾对这个领域进行过一段时间的跟踪,并曾经发表过相关的研究成果,因此能够保证从整体上把握试验的效果。

在数据采集阶段,本研究选择Web of Science平台的科学引文索引展板(SCI-E)、社会科学引文索引(SSCI)和会议论文索引(CPCI)作为数据来源,以“XML”和“eXtensible Markup Language”作为关键词,以采集系统中所收录的图书章节、期刊论文、综述、会议论文和软件评述等五种典型的数字资源类型作为实验样本,通过数据预处理,共获得了来自5 291种期刊、会议和图书的15 093篇文献,检索时间为2013年9月1日。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈