首页 理论教育 在泛在知识环境下的图书馆中进行数据预处理的技术及应用

在泛在知识环境下的图书馆中进行数据预处理的技术及应用

时间:2023-08-08 理论教育 版权反馈
【摘要】:有效数据共241 464条,根据各个学科数据所占的比例,选取用户检索最高的经济学科数据共计53 323条作为学科研究对象。利用Bibexcel软件对从ERU采集的经济学科数据进行关键词词频统计,选取词频≥100的经济学科关键词进行分析,数量共有193个。

在泛在知识环境下的图书馆中进行数据预处理的技术及应用

本章从两种数据源选取数据进行分析。一种是从定制开发的图书馆电子资源使用统计分析和访问监控平台(ERU)统一从网络底层获取用户对本校所有中文数据库的检索、浏览、下载等信息的日志数据,以及对应的数据库文献信息,如关键词、作者、引用、发表时间等数据。这部分数据为动态数据,采集时间段为2013年8月到2014年2月。有效数据共241 464条,根据各个学科数据所占的比例,选取用户检索最高的经济学科数据共计53 323条作为学科研究对象。另一种数据源是从数据库中获取一定时间段的文献数据,这部分数据为静态数据,本章的经济学数据来源是以JCR 2012版社会科学版为依据,选取经济学学科的高影响力前10%的期刊,共33种,按照每种刊名在Web of Science中检索该刊1999年到2013年共计15年所有发表的文章,文献类型为Article和Review。按照每五年为一个时间段,导出全记录数据,分别得到1999~2003年(9 590条)、2004~2008年(10 181条)、2009~2013年(12 356条)三个时间段的文献数据记录共计32 127条数据。数据采集的详细情况在第2章中已有描述,在此不赘述。

利用Bibexcel软件对从ERU采集的经济学科数据进行关键词词频统计,选取词频≥100的经济学科关键词进行分析,数量共有193个。排除如对策、启示、影响因素、问题、现状、影响等经济学意义不强的关键词31个,对剩余162个关键词进行分析。对这162个关键词构建关键词共现矩阵,矩阵数值为关键词两两共现次数,并加上相关性。对于相同Session ID访问的几篇文献认为具有相关性,赋值0.2。162个备选关键词(部分)如表5-1,构建的162个关键词共现矩阵(部分)如图5-1。

表5-1 162个备选关键词表(部分)(www.xing528.com)

图5-1 162个关键词共现矩阵(部分)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈