首页 理论教育 基于论文重要性的知识聚合方法

基于论文重要性的知识聚合方法

时间:2023-07-08 理论教育 版权反馈
【摘要】:图5-9基于论文相对重要性的多元计量聚合可视化结果表5-614个聚合结果的语义主题分布续表续表编号为14的文献聚合是所有聚合中规模最大的,其中包含了50篇文献,占到全部160篇文献的31.25%。聚合8中的15篇文献发表于2003年到2010年,主要是关于基于XML的配置管理。图5-10聚合14的可视化结果文献聚合11、聚合12和聚合13的研究内容主要是关于跨学科XML应用。聚合7中的5篇文献则是关于XML在仿真研究中的编码问题。

基于论文重要性的知识聚合方法

利用相对值聚合法,可以从文献遍历权重和引用关系遍历权重两个角度实施聚合。在生成正式的聚合结果过程中,需要对最终获得的子结构的规模进行一个预设定,这是因为相对值聚合得到的结果都是联通的子网,规模过小则会导致包含的信息较少,规模过大则不利于对子网进行整体上的主题判断。为了便于对结果进行比较,本研究将从文献角度和从引用关系角度实施的聚合均选择5~50作为最终子网的规模。图5-9是在文献重要性程度基础上XML研究领域文献相对值聚合的可视化结果,14个文献聚合中共包含了160篇文献,这些文献由329条引用关系链接起来,代表了XML领域研究中最重要的部分内容,具体结果见附录3所示。表5-6中列出了每个聚合所包含的主题语义分布,按照聚合在语义主题上的权重从高到低,累计到80%的方式选取。

图5-9 基于论文相对重要性的多元计量聚合可视化结果

表5-6 14个聚合结果的语义主题分布

续表

续表(www.xing528.com)

编号为14的文献聚合是所有聚合中规模最大的,其中包含了50篇文献,占到全部160篇文献的31.25%。采用阈值聚合得到的所有文献都被包含在这个聚合中,聚合14中文献的遍历权重在所有的文献中也是最高的一批。但是经过分析发现聚合14中的文献分成了两个研究内容差异依旧比较大的群体,但是彼此之间通过少量研究内容具有跨越性的文献联系起来。图5-10是聚合14的可视化结果,从中可以发现,位于该图左半部分的文献研究的内容主要集中于数据依赖问题,其目的是为了在XML和关系数据库中更好地表达语义;而位于右半部分的文献则更多地偏向于XML文档和关系数据库的检索问题,即如何发现语义。结合表5-6的分析结果,可以认为这个聚合的主要内容总体上包括两个部分:数据依赖,XML和关系数据库中的信息检索

Web服务(Web Service)是XML开发出来应用最广泛的领域Web服务,让使用不同程序语言和系统的用户之间能够分析内容和交换数据,XML因其良好的特性常被选作系统间交换数据的统一规范。文献聚合1、聚合3、聚合5、聚合6和聚合8都与Web服务直接相关,反映了XML在Web服务中应用的不同面。文献聚合1中的6篇文献均主要与Web服务描述语言(Web Services Description Language,WSDL)相关,研究的内容集中在利用WSDL进行服务测试上。文献聚合3中的研究内容主要是移动Web服务,例如移动Web服务的性能分析,使用上下文存储的移动Web服务等。文献聚合5中的研究内容主要侧重于服务发现协议和服务发现的安全体系架构。聚合6包含了8篇文献,主要内容是基于网络的制造业数据,例如工艺数据、流程信息的集成。聚合8中的15篇文献发表于2003年到2010年,主要是关于基于XML的配置管理

图5-10 聚合14的可视化结果

文献聚合11、聚合12和聚合13的研究内容主要是关于跨学科XML应用。聚合11中的13篇文献主要是关于热力物理学和热力化学属性数据的存储和交换问题;聚合12中的文献则主要是关于生物医学数据交换;而聚合13中的文献则主要是关于医疗数据的交换问题。

此外,聚合4、聚合9和聚合10都是关于数据模型问题的研究。聚合4中的9篇文献讨论了通用信息模型(Common Information Model,CIM)在电力数据交互、分布式管理系统、地理信息系统中的应用数据模型。聚合9中的9篇文献则主要是关于流媒体数据,主要是MPEG视频格式的数据存储和交互模型。聚合10中的文献则主要是关于技术交流中基于XML的内容复用问题。

聚合2和聚合7都是关于数据编码的问题。聚合2中的14篇文献发表于2001年到2012年之间,主要关于XML编码的语音语料库的研究,例如语言注释、多模态语料库编码和相关的软件工具等。聚合7中的5篇文献则是关于XML在仿真研究中的编码问题。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈