首页 理论教育 学术搜索:查询意图与词汇功能分析

学术搜索:查询意图与词汇功能分析

时间:2023-11-20 理论教育 版权反馈
【摘要】:同样的,对于这类隐含有词汇功能限定的搜索任务,本书称为词汇功能敏感检索任务。如果查询用户的目标是检索马尔可夫模型的应用,这样的排序结果无疑是合理的,实际上,大多数检索这一查询语句的用户的目的正是如此。图6-3在Google学术搜索中检索“markovmodel”返回的前三条结果在这个例子中,为了改善针对统计学家和机器学习理论研究者的搜索引擎返回结果,需要结合用户的查询意图和查询语句在文献中的功能对文献进行词汇功能敏感文档排序。

学术搜索:查询意图与词汇功能分析

学术搜索引擎如Google学术[6]百度学术[7]等已经成为人们查找学术文献的重要途径,基于用户输入的查询,学术搜索引擎可以快速找到并返回查询相关文档。

不同的检索用户在检索不同查询语句(query)时有着一定的偏好,表现出各自不同的查询需求。正如本书开头给出的四个应用场景中的前两个场景所示,第一个场景中的学者A搜索“神经网络”,希望返回的是神经网络理论的文章,这些文章的研究主题是神经网络;第二个场景中,研发工程师B希望将神经网络应用于机器翻译,希望获取的文档是关于神经网络的应用性研究,特别是将神经网络应用于机器翻译的文章。在这两个场景中,即使使用的是同样的查询语句“神经网络”,查询需求也是各自不同的。对于这类在搜索时隐含了对词汇功能进行限定的查询,本书称为词汇功能敏感查询。同样的,对于这类隐含有词汇功能限定的搜索任务,本书称为词汇功能敏感检索任务。

已有的学术搜索引擎可以通过对文献来源、文献作者的分析,调整不同文档的相关性得分,从而实现为不同的人返回不同排序结果。但是,这些处理方法并不能很好地适应词汇功能敏感检索任务。

通过对学术文本中词汇功能的识别,可以为不同的词汇或者词汇序列打上功能标签。在检索时,结合对查询需求的识别结果,可以通过线性插值法等平滑方法调整词汇或者词汇序列的打分,从而获得更好的排序效果。

本节通过一个例子说明词汇功能敏感查询以及排序效果。在Google学术中搜索“markovmodel(马尔可夫模型)”,检索结果[8]如图6-3所示。

如果查询用户的目标是检索马尔可夫模型的应用,这样的排序结果无疑是合理的,实际上,大多数检索这一查询语句的用户的目的正是如此。但是,对于统计学者或者机器学习理论研究者,这样的排序可能就不太合理。前两条检索结果都是将马尔可夫模型作为方法使用,研究的是如何使用马尔可夫模型解决特定问题,但统计学者和机器学习理论研究者可能更关心的是马尔可夫模型本身,而非应用。(www.xing528.com)

图6-3 在Google学术搜索中检索“markovmodel”返回的前三条结果

在这个例子中,为了改善针对统计学家和机器学习理论研究者的搜索引擎返回结果,需要结合用户的查询意图和查询语句在文献中的功能对文献进行词汇功能敏感文档排序。用户的查询意图可以通过对用户过往阅读论文进行分析得到,如果用户阅读的大部分文献的主题是统计学模型或者机器学习模型,则能够判定用户的主要兴趣点是模型本身而非模型的应用。如果用户关注的是马尔可夫模型本身,图6-3中给出的三个文档,理想的排序结果如图6-4所示。

图6-4给出的排序结果中,标题为“An introduction to hidden Markovmodels”的文档被排到第一位,因为这篇文档的研究主题是马尔可夫模型(具体为隐马尔可夫模型),“A hidden Markov model for predictiing transmembrane helices in protein sequences”和Predicting trasmembrane……with a hidden Markovmodel:……仍然各自保持原有排序。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈