首页 理论教育 短文本信息检索和传统信息检索的区别分析

短文本信息检索和传统信息检索的区别分析

时间:2023-11-18 理论教育 版权反馈
【摘要】:微博是社交媒体中存在的一种常见的短文本。本书对于短文本信息检索的研究,聚焦于微博检索。以典型的短文本信息检索应用——推特检索为例。推文检索结果通常包含很多社交花絮或者社交事件,而传统信息检索结果一般是基础事实。这些区别导致了研究短文本信息检索所必须回答的三个问题:用户进行微博检索的目的是什么?微博检索的内容与传统Web信息检索的内容有什么不同?

短文本信息检索和传统信息检索的区别分析

微博是社交媒体中存在的一种常见的短文本。本书对于短文本信息检索的研究,聚焦于微博检索。从应用角度出发,微博的特点之一便是微博往往是在某个突发事件发生时,人们大量发布的内容,这使得微博成为探究“某时某事”的重要线索。

以典型的短文本信息检索应用——推特(Twitter)检索为例。推特的查询的特点可以概述为简短、频繁。与传统Web查询相比,推特的查询不太可能作为会话的一部分发展,即推特用户会重复使用同一个查询来“监控”时态变化;而在传统信息检索中,往往会变换和改正查询,以得到想要“学习”的内容。推文检索结果通常包含很多社交花絮或者社交事件,而传统信息检索结果一般是基础事实(Basic Fact)。

除了使用推特“共享”信息外,用户经常使用推特来“查找”信息。例如,有时用户更新的推文就是对其社交圈的直接发问。由于很多推文是公开的,因此用户也会在全网的推文中查找关于某个特定主体的相关推文或者报道。例如,推特提供了搜索接口,Bing搜索引擎和Google搜索引擎也曾经提供对于推特的在线搜索功能。近年来,越来越多的研究开始重视研究用户使用微博检索的动机,以及与传统Web信息检索行为的区别。微博信息的很多属性不同于传统Web内容;推文简短、发布频率高、更新之后不更新,而Web文本内容丰富、发布频率低、发布之后经常更新。这些区别导致了研究短文本信息检索所必须回答的三个问题:用户进行微博检索的目的是什么?微博检索的内容与传统Web信息检索的内容有什么不同?微博检索的结果与传统Web信息检索的结果有什么不同?(www.xing528.com)

通过对比提交给推特的查询和提交给Web搜索引擎(如Bing搜索引擎和Google搜索引擎等)的查询,并考察相同用户对相同内容在不同媒介(推特、传统Web搜索引擎)的不同信息检索行为,可以对上述问题做出回答:用户使用微博检索是为了寻找时间相关信息(Temporally Relevant Information,例如正在发生的事件或者特定事件的当下趋势与最新进展等)、实时信息(Real-Time Information,例如天气交通等区域性信息或者在线服务等)、社交信息(Social Information,例如与人相关的信息等)等,因此姓名(如推特用户姓名、名人姓名等)是微博检索的常见查询,有时是为了搜索有特定兴趣的用户(例如志同道合的朋友等),有时是为了搜索特定人群或者意见领袖针对某个主题的言论(例如总结性质的观点);微博检索的目的往往是“监控”一个事件,而传统Web信息检索的目的是“学习”一个主题,相较于传统Web信息检索,出现在推特上的查询更加简单、经常重复、很少改动;微博检索的结果更倾向于社交内容和事件信息,传统Web信息检索的结果倾向于基本事实(Basic Fact)和导航内容(Navigational Content)等,此外,微博检索结果所使用的语言风格和Web检索所使用的语言风格存在显著不同。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈