首页 理论教育 大数据时代图书馆信息系统的研究方法及工具

大数据时代图书馆信息系统的研究方法及工具

时间:2023-07-31 理论教育 版权反馈
【摘要】:①基于统计的研究方法。主要研究每年的文献增长率、期刊录用分布和第一作者单位分布这三个类别。本书采用的技术手段分别是面向统计的研究方法和网络研究方法。其中,统计研究方法主要采用的技术工具为R-Studio,统计类软件采用的是R-Studio,MATLAB和SPSS。③研究分类问题。关于文献分类,国内有成熟的编码体系,即中国图书馆分类法,在实际研究中发现,作者对中国图书馆分类法的细分分类并没有严格执行。④研究主题抽取。

大数据时代图书馆信息系统的研究方法及工具

本书选取中文社会科学引文索引(CSSCI)数据库中图书情报与档案管理领域已经发表的文献作为数据来源,选取的时间段为2011—2018年,2011年是微信上线的时间,也是本书研究数据的起点,考虑到论文的出版周期导致的文献客观上具有一定的滞后性,本书对2019年的文献未做处理。

数据获取的第一步是通过对中国知网数据的采集,然后对文献数据进行清洗,删除其中无效的文献。在数据预处理之后,本书采用的研究方法分为两类,即“基于统计的研究方法”和“基于网络的研究方法”。

①基于统计的研究方法。主要研究每年的文献增长率、期刊录用分布和第一作者单位分布这三个类别。首先,是文献增长率分析,可以通过统计每年相关研究的增长率,了解和展示学者对研究问题热度的变化情况;其次,是期刊录用分布分析,可以呈现哪些期刊重点关注了该研究热点;最后,是第一作者单位分布分析,通过统计文献的第一作者单位分布,有利于解析该问题是哪些科研机构的研究热点。

②基于网络的研究方法。主要包含合作者网络分析、关键词热点分析和关键词共现密度分析这三个类别。其一,是合作者网络分析,指通过统计作者单位的合作网络来展示热点问题研究单位的分布状态,通过研究不同研究者的合作关系,有助于快速梳理该问题的研究脉络;其二,是关键词热点分析,即通过统计文献元数据关键词的词频,展现相关问题的主要研究类别;其三,是关键词共现密度分析,即通过对关键词共现分析,生成热点密度图,聚类出该问题的主要研究主题。

本书采用的技术手段分别是面向统计的研究方法和网络研究方法。其中,统计研究方法主要采用的技术工具为R-Studio,统计类软件采用的是R-Studio,MATLAB和SPSS。本书之所以采用R-Studio主要在于,其作为开源软件插件丰富。网络研究方法主要采用的技术工具为VOSViewer,在文献计量中除了VOSviewer外,还有CiteSpace等第三方软件。选择VOSviewer在于,其共现分析使用流程和方法相对简单。

另外,本书在实验过程中需要对大量的文本进行数据清洗,数据清洗主要采用Java编程语言,对于中间的数据岛,则保存为逗号分隔符文件(CSV),相关实验数据上传至GitHub[14],供研究者下载验证。(www.xing528.com)

本书在数据分析时,针对不同的数据字段采用不同的策略,主要包含以下类别。

①依托单位歧义消除。对于依托单位,尤其是第一作者依托单位,主要存在两种情况:第一,一个作者同时有几个不同的依托单位;第二,不同作者的依托单位存在语义层面的上下位,例如,第一作者为“武汉大学”,第二作者为“武汉大学图书馆”,在语义层面构成上下位关系,因为都作为“武汉大学”进行外部成果统计和比较。由于国内缺乏完善的文献标识符DOI体系和作者标识符ORCID(开放研究者与贡献者身份)体系,因此,本书在研究中为了简化问题,采用Java进行合并统计,只保留独立法人机构,即通过文本切割,将类似“武汉大学图书馆”等依托单位保留为“武汉大学”。

②作者歧义消除。作者歧义消除是一个复杂的问题,由于本书采用的数据量不大,因此根据依托单位来判断,不考虑作者变更工作单位的情况,即不把同一个人因单位不同视作同一个人。同时,对于同一工作单位的不同作者,作者名称相同的,即合并成同一个人,这也是国内科研系统缺乏国外成熟的作者标识符ORCID体系带来的弊端。

③研究分类问题。关于文献分类,国内有成熟的编码体系,即中国图书馆分类法,在实际研究中发现,作者对中国图书馆分类法的细分分类并没有严格执行。因此,如果基于中国图书馆分类法,会带来研究分类的不准确性问题,因此,本书对于研究分类主要采用关键词作为依据,尽管关键词作为分类依据尚未考虑关键词在语义的上下位问题,但是由于关键词通俗易懂并且为作者主观选择,因此,带来的误差客观上比中国图书馆分类更准确。

④研究主题抽取。对于研究主题的抽取是一个复杂且重要的问题,本书为了简化该问题的研究,主要基于标题来进行研究主题抽取研究,相关研究国外主要采用SAO(Subject-Action-Object)的方法,由于本书的研究数据较少,不需要采用SAO方法提取范式,因此,主要采用词组抽取的方法,研究的关键问题是“微信在图书馆领域的研究抽取”,本书选取的期刊全部为CSSCI核心期刊(不含扩展版)中图书情报与档案管理领域的期刊,此类期刊代表国内图书情报与档案管理领域的重要研究成果。另外,本书抽取的关键词同时包含“微信”和“图书馆”,围绕“微信”这个关键词构成的词组代表国内不同学者的研究分布,因此,本书在研究主题抽取时主要通过程序抽取围绕“微信”的词组,词组主要为形容词构成的修辞词组或者名词构成的并列词组。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈