首页 理论教育 大数据图书馆信息系统关键词共现可视化分析

大数据图书馆信息系统关键词共现可视化分析

时间:2023-07-31 理论教育 版权反馈
【摘要】:共现分析的难点是提炼领域词库。本书基于“Term”和“Keyword”两种类别进行共现分析。图5-31CiteSpace的Keyword共现分析配置图配置完成后点击“GO!”可以根据基于关键词共现的分析,分析不同主题中最热的关键词分布。其中“前沿主题”“突发事件”均为根据关键词分析的研究热点。图5-38基于Keyword进行定量分析图进一步研究行业的分布,如选取“#2突发事件”,研究围绕该主题的相关文献,生成结果如图5-39所示。

大数据图书馆信息系统关键词共现可视化分析

上述合作网络分析只能用于了解不同学术依托单位的历史沿革,如果要进一步分析,需要进行共现分析和共引分析,本节主要介绍共现分析。共现分析的难点是提炼领域词库。

一篇论文关键词,通常有两个种方法获得:一种通过作者发表文章的关键词创建领域词库,但是不同作者对关键词的理解差异导致词库需要进行加工,如同义词、反义词、上位词、下位词;另一种通过分析摘要,从摘要中提炼关键词,这种方法的优势在于基于统计规律对文章进行自动化标签(tagging),不过这种方法对中文文献来说难度较大。对英文文献(如SCI期刊的论文)来说,空格即为分词符,但中文文献中,词语存在大量的同义表达和歧义词,且中文句式语法较英文复杂。

尽管共现分析存在很多细节不完善的地方,却是主题分析最重要的方法。本节主要进行共现分析,CiteSpace默认的共现分析包含“Term”“Keyword”“Source”和“Category”四类。

本书基于“Term”和“Keyword”两种类别进行共现分析。“Term”即从摘要中提炼关键词。“Keyword”即作者文章元数据定义的关键词或者CiteSpace自带关键词库。对于“Keyword”分析,首先需要进行配置和生成,如图5-31所示。

图5-31 CiteSpace的Keyword共现分析配置图

配置完成后点击“GO!”按钮进行生成并可视化,生成的结果如图5-32所示。

图5-32 CiteSpace的Keyword共现分析结果图

从图5-32中可以看到,最近10年来“舆情”研究的热点关键词,其中“网络舆情”“大数据”“意见领袖”“微博舆情”均是研究热点。为了提高可读性,需要通过时间选项进行过滤,如只分析2013年舆情领域的研究热点,结果如图5-33所示。

图5-33 CiteSpace的Keyword共现分析结果图(2013年)

从图5-33中可以发现2013年“舆情”领域的研究热点,如“社会网络”,但是如果选择2018年,则结果不同,如图5-34所示。

图5-34 CiteSpace的Keyword共现分析结果图(2018年)

从2018年的数据可以看到,在2018年,“新媒体网络谣言”也是研究热点。如果利用聚类分析,则可以生成研究的聚类主题,并且可以清楚看到这些聚类的英文主题和关键词的分布关系。英文主题主要根据英文摘要(即“Term”方法)生成,如图5-35所示。

图5-35 CiteSpace的主题共现分析结果图

从图5-35中可以看到,最热的研究主题(即“簇”)是“#1 social media era”和“#2 take public opinion event”,其中“#1”和“#2”代表簇序号。可以根据基于关键词共现的分析,分析不同主题中最热的关键词分布。同时,也可以基于关键词对聚类的主题进行标记,点击“Clusters”菜单的子菜单“Extract Cluster Labels”的“Label:Use Keywords”选项,即基于作者提供的关键词进行生成,如图5-36所示。

图5-36 基于Keyword进行标记操作图

点击后,可以更好地看到研究主题的聚类分布,如图5-37所示。

从图5-37中可以看到中文聚类主题和关键词分布的关系。其中“前沿主题”“突发事件”均为根据关键词分析的研究热点。点击“Summary Table”查看聚类详情,如图5-38所示。

图5-37 基于Keyword进行标记的结果图

图5-38 基于Keyword进行定量分析图

进一步研究行业的分布,如选取“#2突发事件”,研究围绕该主题的相关文献,生成结果如图5-39所示。

图5-39 基于“突发事件”聚类的文献分布图

从图5-39可以看到,关于“突发事件”的研究成果主要集中在2017年,进一步研究相关文献,点击“The Keyword Appeared in 52 Records”面板可以看到具体分析,如图5-40所示。

图5-40 基于“突发事件”聚类的文献详情图

从图5-40中可以看到,相关文献的“DE”字段均包含关键词“突发事件”,此类方法是基于作者提供的关键词进行聚类分析。同理,如果基于“Term”分析方法,可以看到“突发事件”和英文关键词的分布关系,如图5-41所示。

图5-41 基于“突发事件”的聚类图(基于“Term”分析)

右键点击“List Citing Papers to the Cluster”,可以看到该簇的关键词分布以及对应的文献,以“#7 Communication Stage”为例,如图5-42所示。(www.xing528.com)

图5-42 基于“Term”分析法的簇7研究主题的关键词分布

也可以看到相关的文献分布,如图5-43所示。

图5-43 基于“Term”分析法的簇7研究主题的文献分布

从图5-43中可以进一步研究簇7的相关文献。如果要对指定的簇进行单个聚类的研究,则需要对生成图进行降维显示。例如,选定指定的簇,对“舆情生态”进行研究,如图5-44所示。

图5-44 对指定的簇进行分析

例如,输入“8”,只显示“#8舆情生态”的聚类,如图5-45所示。

图5-45 对指定的簇进行显示

如果对不同的簇进行定量分析,则选择菜单“Clusters”的子菜单“Cluster Explorer”,如图5-46所示。

图5-46 对簇进行定量分析

CiteSpace的程序会在后台进行计算,然后生成簇的数据,用于定量分析,如图5-47所示。

图5-47 生成簇的数据进行定量分析

选定指定的簇进行计算,会得到相应的数据,本书选择“舆情”中序号为8的簇“舆情生态”进行分析,结果如图5-48所示。

图5-48 对选定簇进行定量分析

从“Cited References|Keywords”面板中可以看到选举的簇的“词频”“突现”“度”“中心度”“PageRank算法的引用分”“关键词”等信息。同时,可以查看每一个簇每年相关关键词的热点,如图5-49所示。

图5-49 “舆情生态”簇每年的研究关键词热点

从图5-49中可以看到,2019年“舆情生态”的研究热点是“网络安全”“网络谣言”“政治安全”“谣言治理”“网络舆情”“风险建模”相关领域。根据时间轴进行更详细的分析,则需要切换到“时间轴”视图,如图5-50所示。

图5-50 基于时间轴的视图设置

通过时间轴可以看到“舆情生态”领域的研究迁移,如图5-51所示。

图5-51 基于时间轴的单聚类分析

如果研究“舆情”领域全部的聚类分析,则显示所有的聚类,结果如图5-52所示。

图5-52 基于时间轴的全聚类分析

从图5-52中可以看到,过去10年每年不同主题的研究热点,并且可以从图中看到不同热点之间的关联关系。点击菜单“Visualization”的子菜单“Citiation/Frequency Burst History”,可以看到过去10年“舆情”领域的突现研究热点,如图5-53所示。

图5-53 基于时间轴的全聚类设置

从图5-53中可以看到,“预警”“传播模式”“微博舆情”“治理”“仿真”属于突现技术,其中,红色(即深颜色)代表具体的突现技术成为热点的年份。“突现”研究的很重要的意义在于,发现过去未曾引起足够注意的研究热点。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈