首页 理论教育 学术水平等级切分用于检索排序

学术水平等级切分用于检索排序

时间:2023-10-27 理论教育 版权反馈
【摘要】:学术等级切分技术在知识服务中应用于自动判断该文献的学术水平等级,从水平等级角度进行分类。随着文献资源的急剧增长和用户需求的不断深化,数据超载现象日益严重,有必要结合论文重要性来对文献检索的结果进行排序。[37]通过文献资源学术水平切分,可确定检索结果的重要性。鉴于学术论文的统一格式,利用基于词条位置权重的向量空间技术,可建立学术文献质量水平评价模型,并对检索出的学术文献根据其水平层次进行排序及分类。

学术水平等级切分用于检索排序

学术等级切分技术在知识服务中应用于自动判断该文献的学术水平等级,从水平等级角度进行分类。随着科学技术的发展和交流,科技论文的数量日渐增多,怎样在众多的科技期刊中,找到高质量和可信的学术文献是一大问题。

学术文献水平质量的评价是非常复杂的,要考虑的因素很多。目前的成果主要从学术文献被引用的因子、被下载的因子、专家评审因子和作者因子及出版物等几个方面进行,并根据用户使用、评价情况,进行不断改善,建立知识库,对水平等级进行调整。以期刊论文学术水平为例,期刊的影响因子、特征因子、h-指数等各种评价指标,为查找高质量的期刊提供了参考依据,但仍不全面,且存在不足。目前,国内外已经有一些专家学者提出一些解决方法。1972年,美国科技信息研究所所长尤金·菲尔德(Eugene Garfield)博士在《科学家》(The Scientists)期刊中叙述了影响因子的产生过程,他最初提出影响因子的目的是为《现刊目次》(Current Contents)评估和挑选期刊。目前人们所说的影响因子一般是指从1975年开始,《期刊引证报道》(Journal Citation Reports,JCR)每年提供上一年度世界范围收录期刊的引用数据,给出该数据库收录的每种期刊的影响因子。[35]2005年,美国物理学家乔治·赫希(Jorge E.Hirsch)提出了将论文发表数量与论文被引数量相结合的复合指标,即h-指数。自2005年提出以来,h-指数得到了国内外情报学界和科技期刊界的广泛关注,并由评价科学家个人迅速扩展到对机构、地区、国家的期刊、基金资助项目、学科研究热点等方面的科学评价。比利时著名科学计量学家埃格赫(Egghe)对其进行了改进,他认为,在评价科学家的科研绩效时,应充分考虑到高被引论文的贡献,为此提出了g-指数。

信息检索的核心目的是在文档集中为用户检索出最相关的子文档集,依靠排序算法对检索结果按照相关性进行排序,排序后的结果作为对用户所提出查询的回应。随着文献资源的急剧增长和用户需求的不断深化,数据超载现象日益严重,有必要结合论文重要性来对文献检索的结果进行排序。用户的一个查询请求往往会检索出庞大的结果集,而用户所需要的信息却只是其中的一小部分,面对如此多的结果,用户仍然会不知所措。

信息检索的性能(检出结果)由诸多因素决定,如查询表达式的质量以及索引、词干提取、无义词的停用、查询扩展等技术的应用等,但从根本上来说,它是由排序函数决定的。排序函数以某种准则计算文档表示与用户查询表示的匹配程度,并据此做出文档相对于数字化期刊在实现投稿、审稿、查询、全文上网、检索等网络化办公外,需要提供给作者更多个性化的服务,其中论文推荐是将作者查询检索的论文按其在该领域的学术质量从高到低进行排序后,推荐给作者的,是一项很具个性、友好的服务。[36]检索数据库,如中国知网、维普咨询等提供了包括智能化检索服务工具、跨库检索、知识挖掘型搜索引擎、学术性动态翻译知识库等,都是非常成熟的全文搜索引擎,但提供论文推荐服务的则很少。[37]

通过文献资源学术水平切分,可确定检索结果的重要性。文档排序按照检索式与文献内容相似度的大小进行,处在排列最顶端的文献被认为最相关。将论文重要性应用于检索排序之中,就需要对论文质量进行评价。前人关于论文评价已经开展了许多工作,但主要是面向科研实力评估或绩效评估,迄今尚无针对检索排序的相关研究。PageRank算法把引文分析引入网页重要性计算中,应用于Google搜索引擎获得了巨大的成功。鉴于学术论文的统一格式,利用基于词条位置权重的向量空间技术,可建立学术文献质量水平评价模型,并对检索出的学术文献根据其水平层次进行排序及分类。对搜索的论文按学术质量进行由高到低排序,将排序后的论文推荐给作者,该功能的实现可以提高论文检索的效率和质量。

【注释】

[1]朱先忠,孙一钢,张洪亮.数字对象的存储与传输[J].现代图书情报技术,2002,91(1):6-8.

[2]郑文才.基于龙芯系统的家庭数字媒体终端开发[D].杭州:浙江大学,2008.

[3]方舟洲.基于Linux家庭智能终端的研制与开发[D].杭州:浙江大学,2007.

[4]吕海,龚振彬,倪雷.统计降尺度法在我国未来区域气温变化预测中的应用研究[J].现代商贸工业,2007,19(6):190-192.

[5]刘胜华.利用数据挖掘技术增强企业竞争优势[J].湖北经济学院学报(人文社会科学版),2005,2:77-78.

[6]张蕾.天津港煤炭货运管理系统的设计与实现[D].大连:大连海事大学,2010.

[7]邹峰.数据挖掘在移动用户离网预警分析中的应用[D].武汉:华中科技大学,2005.

[8]赵静.基于PageRank的MBA教育资源搜索引擎研究[D].大连:大连海事大学,2009.

[9]高志.云计算在图书馆中的应用研究综述[J].图书馆学刊,2011(4):130-132.

[10]赵莉莉,王引斌.浅谈数据库系统的发展[J].科技情报开发与经济,2005,15(14):221-223.

[11]崔师锐.基于Web的高校学工信息管理平台的设计与实现[D].济南:山东大学,2012.

[12]魏杰.乡级土地利用总体规划辅助决策支持系统研究[D].郑州:河南大学,2011.

[13]李刚.基于WEB方式的设备管理系统的设计与权限管理模块的实现[D].北京:北京邮电大学,2009.

[14]戴光麟.基于FMS的远程互动教学系统设计与实现[D].杭州:浙江工业大学,2007.

[15]丛中兴.基于GIS的空气质量预报数据可视化研究[D].济南:山东大学,2004.

[16]章琳.基于GIS技术的水质评价与变化预测研究——以杭州四港四河地区为例[D].南京:南京师范大学,2011.(www.xing528.com)

[17]吴丽莉.知识可视化在教育中的应用研究——Vee图在生物探究实验中的实践应用[D].沈阳:沈阳师范大学,2010.

[18]姚兰.网页主题概念的抽取处理及可视化实现[D].石家庄:河北科技大学,2012.

[19]张弘第.中外纳米传感器技术领域知识计量比较研究[D].北京:中国科学技术信息研究所,2011.

[20]孙丹.基于用户信息行为的个性化知识服务研究[D].武汉:华中师范大学,2012.

[21]朱德利.基于本体的知识可视化系统研究与实现[D].重庆:重庆大学,2006.

[22]赵国庆,黄荣怀,陆志坚.知识可视化的理论与方法[J].开放教育研究,2005,11(1):23 27.

[23]姜晓林.科技项目管理中知识管理系统研究[D].大连:大连理工大学,2008.

[24]席秋波.基于Ncut的图像分割算法研究[D].成都:电子科技大学,2010.

[25]朱庆生,邹景华.基于本体论的论文检索[J].计算机科学,2005,32(5):172-173.

[26]姜永常.基于知识构建的数字图书馆知识服务研究[D].哈尔滨:黑龙江大学,2007.

[27]王吉星,龚传信,杜立伟.弹药供应系统电子文书自动化处理的研究与实现[C].中国系统工程学会军事系统工程委员会第九届学术年会,1999.

[28]李亚涛.基于机械机构设计领域的概念内涵语义分析[D].西安:西安电子科技大学,2004.

[29]刘有长.积件系统中的概念网技术研究[D].长沙:中南大学2005.

[30]李生琦,田巧燕,汤承.基于《知网》词汇语义相关度计算的消歧方法[J].情报学报,2009,28(5):706-711.

[31]李锐,王泰森.基于知识元的知识组织与知识服务[J].图书馆学研究,2008(8):84-86.

[32]李海瑞.基于信息增益和信息熵的特征词权重计算研究[D].重庆:重庆大学,2012.

[33]任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010(12):4.

[34]侯放.业主方工程质量管理机制研究南京技师学院数字化校园建设实践[D].上海:东南大学,2008.

[35]邢新主.从论文视角看博士后制度对创新型人才培养的作用[D].成都:西南交通大学,2008.

[36]高炜,张超,梁立,等.基于边际的信息检索排序算法研究[J].计算机工程与设计,2009(20):4636 4638.

[37]陈呈超.资源共享的期刊联盟网络平台设计与实现[D].青岛:中国海洋大学,2007.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈