专家检索是一类特殊的检索任务,返回的是专家排序列表而非一般意义上的文档排序列表。[121-123]专家检索是指利用“能够表征专家专长的各种文档和资源,如电子邮件、报告、数据库文件和网页等,识别专家在某给定查询主题(领域)的专长(相关性)程度,并按程度高低排序显示专家结果列表的过程”[124]。
在专家检索中,常见的应用场景是:用户输入查询字符串,字符串可能表示一个技术,也可能表示某个研究问题,系统根据查询字符串反映的知识匹配专家专长,经过排序返回专家列表。在这一过程中,主要是利用文本相似度的各种变体来实现专家相关性排序。
然而,这样做也会出现一些问题,例如用户需要搜索研究深度神经网络或者支持向量机模型的专家,但返回的却有可能是那些经常使用深度神经网络或支持向量机的专家。图6-7对这一问题给出了一个说明。Vapnik和林智仁都是支持向量机研究的专家,两人的区别在于:Vapnik是支持向量机学习理论的提出者,也是推动这一理论发展的资深学者;林智仁则是支持向量机应用和实现方面的研究专家。如果使用图中所示文字作为专家档案,当用户搜索“SVM”时,专家检索系统根据BM25或者其他类似模型为专家进行排序,则会将林智仁排在Vapnik前面。如果用户是需要查找支持向量机应用或者工具实现方面的专家,这样的排名是可以的,但在一般意义上,人们还是普遍认为Vapnik应该是支持向量机研究领域更为重要的专家。

图6-7 词汇功能在专家检索中的应用示例
词汇功能识别的结果可以用于改进专家排名的效果。在计算相关性得分时,可以将词汇功能识别结果作为打分项应用于专家打分,并综合使用查询意图分析和词汇功能,实现词汇功能敏感的专家排序。下面将简要介绍如何在信息检索的概率排序模型中融入词汇功能的因素,构造词汇功能敏感的专家排序模型。
在专家排序过程中,最重要的工作是计算给定候选专家生成查询的概率,这一概率直接构成了相关性计算的依据。[125]词汇功能敏感的专家检索计算需要考虑查询的词汇功能设定,用户需要制定查询语句的目标功能,这里的功能可以是问题、方法、工具、数据等。在此设定下,从专家到查询的生成过程表示如下:
• 记候选专家为ca;
• 记查询q的功能设定为func;
• 记ca的相关文档为d(也即专家的支持文档,可以是专家撰写的论文、专家相关的网页等);
• 文档d和候选专家ca以概率
生成查询q。(https://www.xing528.com)
给定专家的支持文档集D ca,d∈D ca,通过计算D ca中各个文档d生成查询q的概率之和,得到由候选专家ca生成查询q的概率,表示为:

表示专家与文档的关系强度,很多指标都可以用于对其的测度。
可以在词独立性假设的设定下通过公式
进行计算,其中,n(t,q)表示词汇t在查询q中出现的次数。将其代入公式(6.2),得到公式(6.3):

可以通过插值公式的形式计算得到,见公式6.4:

可以通过多种方法加以计算,如TF-IDF[126-127]、BM25[128]、语言模型[129]等。方法的关键是计算![]()
,简单的实现方法是使用TF-IDF的一个扩展,见公式(6.5):

n(t func,d)是词汇功能为func的词汇t在文档中的长度,
是文档的长度,
是数据集的长度,
表示文档集中包含了t func的文档的数量。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
