首页 理论教育 基于排序的识别方法:学术文本词汇功能分析

基于排序的识别方法:学术文本词汇功能分析

时间:2023-11-20 理论教育 版权反馈
【摘要】:机器学习排序系统对摘要中的名词术语进行排序,实现从摘要文本中抽取核心问题和核心方法这一目标。机器学习排序是信息检索中的一个重要方法。机器学习排序利用机器学习的方法对待排序项目进行打分,并将其按照打分的高低进行排序。机器学习排序模型会为每个排序对象给予一个得分,利用文档得分的大小,可以为文档进行排序。ListWise方法返回的是全局排序结果。

基于排序的识别方法:学术文本词汇功能分析

上一节利用中英文标题的特点构建了一个大规模的训练数据集,本节将介绍如何利用训练数据训练构造一个机器排序系统。机器学习排序系统对摘要中的名词术语进行排序,实现从摘要文本中抽取核心问题和核心方法这一目标。

机器学习排序是信息检索中的一个重要方法。机器学习排序利用机器学习的方法对待排序项目进行打分,并将其按照打分的高低进行排序。机器学习排序系统一般由4个步骤组成:训练数据表标注、文档特征提取、排序模型训练和预测。机器学习排序模型主要有3种学习形式:

①PointWise方法:这一方法的思路是将排序问题转化为回归问题或者分类问题,构造机器学习模型实现排序对象到评分的对应。机器学习排序模型会为每个排序对象给予一个得分,利用文档得分的大小,可以为文档进行排序。这一方法最大的弊端是相同得分排序对象之间没有办法比较排序的高低。

②PairWise方法:这一方法输出的结果是排序对象两两之间的排序,例如对{A,B,C}进行排序,可能的排序结果为A>B,A>C且B>C,利用两两间的排序关系,可以得到全局的排序结果为A>B>C。PairWise方法真正实现了排序工作的目标,能够获得一个确定的全局排序结果,但这一方法也存在着计算量大、排序效果某些时候不太理想的问题。(www.xing528.com)

③ListWise方法:这一方法从排序列表全局角度对排序进行建模,追求特定排序效果测评指标(如NDCG)的最大化。ListWise方法返回的是全局排序结果。

本书使用PairWise方法。为了抽取文档的核心问题和核心方法,给定训练数据中的一篇文档的摘要以及摘要中的名词术语集合,假设从标题中抽取的问题和方法构成了最优的对文档核心问题和核心方法的标注,训练特定类别的排序模型时,摘要中每一个名词术语的排序得分由其与该类别对应标注结果的相似性而定(见表4-2)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈