首页 理论教育 信息获取服务模式:信息推荐系统

信息获取服务模式:信息推荐系统

时间:2023-10-31 理论教育 版权反馈
【摘要】:信息拉取和推送的区别在于用户获取信息的模式不同。信息拉取服务的方式主要有两种:基于关键词检索的信息拉取和基于分类目录的信息拉取服务[8]。目前,百度在国内各地分别设立的服务器,能直接从离用户所在地最近的服务器上,把所搜索的信息返回给用户,使用户享受方便、快捷的信息搜索服务。

信息获取服务模式:信息推荐系统

信息拉取和信息推送是人们从网上获取信息的两种主要手段。信息拉取和推送的区别在于用户获取信息的模式不同。所谓信息拉取是用户根据自身的需求,通过信息服务系统搜索或浏览信息,经过不断筛选和重定位,找到所需信息资源的过程;信息推送是指信息服务系统无须用户表明自身的信息需求,就能根据用户的历史访问记录以及所处环境等,主动在网上搜索信息,将符合用户需求的信息以合适的方式主动推送给用户的过程。可以看出,从信息系统服务的视角上,信息拉取是系统根据用户的请求,被动地提供信息服务;而信息推送则是系统主动地提供信息服务。两种服务模式之间的关系如图1-1所示。

图1-1 “信息推送”和“信息拉取”示意图

(1)信息拉取服务

信息拉取是用户获取网络信息资源的传统方式,它是指用户有目的地在网络上主动查询信息,其一般过程为:用户从浏览器给Web服务器发出请求,由Web服务器处理用户的请求,并将处理结果(即满足用户请求的信息或无法满足的信息)返给用户[7]。信息拉取服务的方式主要有两种:基于关键词检索的信息拉取和基于分类目录的信息拉取服务[8]

①基于关键词检索的信息拉取。

这种信息拉取方式是搜索出符合检索条件的网页信息,信息服务系统服务器端通常采用基于机器人的技术,即使用一个被称为机器人(Robot,也叫做Spider、Web Crawler)的机器人程序自动访问Web站点。机器人程序以某种策略自动地在Internet中搜索和发现信息,由索引器为搜索到的信息建立索引,根据用户的查询输入检索索引库,并将查询结果返回给用户。这种拉取服务方式是基于网页的全文检索服务,其优点是信息量大、更新及时、不需要人工干预;缺点是返回信息过多,没有个性化的考虑,用户仍需要从检索出的信息中手工选择自己所需要的信息。另外,基于关键词检索的信息拉取仍会出现两个问题:一个是用户有时很难简单地用关键词来准确地表达需要检索的内容,用户需求表达困难将导致检索困难;另一个是检索词的语义问题,同一概念可以用不同的检索形式来表达,如“计算机”和“电脑”,同时同一检索词在不同的上下文环境中可能语义不同,如“苹果”可以指一种水果,也可以指Apple公司旗下的“苹果手机”或“苹果电脑”。

②基于分类目录的信息拉取方式。

这种信息拉取方式使用网站分类技术,即把网站进行树状的归类,对每个站点进行简略的描述,形成分类目录。分类目录按网站的内容进行系统的分类整理,最终形成一个按类别编排的网站目录。在每一类中,排列着属于这一类别的网站的别名、网址链接、内容摘要以及子分类目录。同时,为了信息资源分类的科学准确,需要相关各学科的专业人员对信息资源进行分类和维护。这些专业人员在访问了某个Web站点后撰写一段对该站点的描述,并根据站点的内容和性质将其进行归类,即把该Web站点的URL(Uniform Resource Location,统一资源定位符)和描述放在这个类别中。当用户通过目录的某一节点进行检索时,用户安装目录的层次结构逐步细化直到找出满足用户需求的信息资源。由于基于分类目录的信息拉取方式是依靠人工来评价该Web网站的信息内容,因此用户从目录搜索得到的结果往往更具参考价值。这类信息服务系统因为包含人的智能辅助,所以发布的信息较为准确、信息导航质量较高;但是缺点也很明显,即信息服务系统需要大量的人工介入,信息资源维护量大,因此信息更新不及时,维护成本较高。

搜索引擎是实现网络信息拉取服务的主要工具,它可以在面对拥有海量信息的网络环境时,辅助用户快速、高效地寻找有用信息。根据工作原理的不同,可以把搜索引擎分为两个基本类别:全文(Full Text)搜索引擎和分类目录(Directory)搜索引擎。Google、百度都是比较典型的全文搜索引擎。分类目录搜索引擎则是通过人工的方式收集整理网站资料形成数据库,比如雅虎中国、搜狐新浪网易等均采用了分类目录和索引技术搜索信息资源。以Google为例,它是目前全球规模最大的搜索引擎,它支持用户以关键词的方式查询,提供包括网页、图像、视频、地图、学术、博客、电子商务等在内的信息搜索功能。同时,Google也提供了许多智能化的搜索功能,例如跨语言信息搜索功能,允许用户使用自己的本国语言搜索外文网站,从而解决了互联网上横亘在人们面前的语言障碍。百度搜索引擎是目前世界上最大的中文搜索引擎,它拥有超过千亿的中文网页数据库,同样也支持用户以关键词的方式搜索信息资源,提供包括网页、图片、视频、MP3、地图、新闻等在内的信息搜索。目前,百度在国内各地分别设立的服务器,能直接从离用户所在地最近的服务器上,把所搜索的信息返回给用户,使用户享受方便、快捷的信息搜索服务。

除以Google、百度等为代表的传统搜索引擎外,元搜索引擎也是一种比较常用的信息搜索工具。元搜索引擎(Meta Search Engine)通过调用、控制和优化其他多个独立搜索引擎的搜索结果,并以统一的格式在同一界面集中显示。例如,国内开发的搜魅网(Someta),推出了一种全新的信息聚合服务,它集成Google、百度、雅虎、搜狗等多家主流搜索引擎的结果,即将其他搜索引擎的返回结果利用自动聚类的方法聚合在一个独立的搜索界面上,为用户提供网页、图片、资讯等信息搜索服务。

从以上分析,我们可以看出:信息拉取服务在当前网络环境下仍然居于主导地位,在网络数字化信息服务中依然会发挥重要的作用。在信息拉取过程中,用户是通过明确表达自身的需求后(例如输入搜索关键词)才从信息服务系统中得到现有的信息服务。但是,信息拉取方式存在着如下缺点:

第一,信息拉取所获取的信息结果仍然是大量的,用户仍将从搜索结果进行人工过滤,以获取自己所需信息,这将耗费用户较多的时间和精力。

第二,信息拉取从本质上是以“信息资源”为中心,而不是以“用户”为中心的信息获取行为,即需要用户主动从信息服务系统中获取信息资源。因此,用户不能随时进行搜索,无法得到及时的信息更新。

第三,用户表达请求不准确,例如采用基于关键词的信息搜索,无法用合适的关键词精准地表达自己的需求,因而导致信息服务的误差。(www.xing528.com)

第四,信息拉取方式没有考虑用户个性化需求,搜索的信息资源并不符合用户的个性化需求。

因此,从以上几点可以看出,现有的信息拉取及其实现工具(例如信息资源门户网站、专业数据索引、搜索引擎)从本质上仅是帮助用户进行网络信息资源过滤的手段。这些工具只提供公共用户的一般需求,并没有针对目标用户的个性化需求提供定制的信息服务,因此仍然不能很好地解决信息过载的问题。

(2)信息推送服务

随着互联网上数字信息资源的迅速增长,基于“信息拉取”方式的搜索引擎返回的结果少则几百条多则上千条甚至更多。用户通常需要不断手工构造复杂的查询条件以减少无关的返回结果。为减轻用户的负担,提高信息获取服务的质量,研究人员在研究信息服务系统新的搜索算法的同时,更关注用户的个性化需求和行为。因此,新的信息获取服务——信息推送服务应运而生。

①信息推送的定义。

关于信息推送的研究目前已为国内学者所关注,关于信息推送的概念也有不同的解释和定义。其中具有代表性的有:第一,信息推送服务是利用推送技术(Push Technology)自动搜索网络上用户感兴趣的信息,并主动推送到用户面前的服务,也可以称为基于“推”模式的网络信息服务。从技术上看,Push模式的网络信息服务是具有一定智能性、可以自动提供信息服务的一组计算软件,或者将其描述为网络环境下的一个高度专业化、智能化的网络专题信息服务系统[9]。第二,信息推送服务利用推送技术主动把用户感兴趣的信息推送到用户端,与传统的信息拉取技术(Pull Technology)相比,减少了用户盲目的网上搜索时间,提高了信息检索效率[10]。第三,信息推送服务就是通过一定的技术和协议,从网上的信息源或信息提供商获取信息,通过固定频道向用户发送信息的新型信息传播系统[11]。第四,信息推送服务相对于传统的信息拉取服务而言,它是在“推”技术作用下以信息寻找用户,而不是用户找信息[12][13]

我们可以将以上关于信息推送的定义进行综合,给出一个较为全面的定义:信息推送服务是信息服务系统通过识别和获取用户在信息检索过程中的行为和个性化需求特征,记录、学习并推导出用户的潜在需求和偏好,并及时动态追踪用户需求的更新情况,主动实时地把用户所需的信息资源推送给用户。

②信息推送的方式。

根据信息推送采取的媒介和方式不同,可以将信息推送的方式分为以下几种[10]:其一,频道推送服务。信息服务系统将互联网上一些内容相关的文档、网页以及多媒体信息等组合起来,通过特定的频道推送给用户查看。其二,页面推送服务。页面是互联网的基本组成单元,页面推送就是把以页面形式组成的信息内容推送给用户。其三,电子邮件推送服务。电子邮件推送主要利用了电子邮件的群发功能,将用户预订的或可能感兴趣的信息内容推送给相关用户群组。其四,专用式推送服务。专用式推送采取专门的信息收发软件进行推送,由信息员把信息直接推送给用户。其五,移动通信推送,即将用户感兴趣的信息通过移动设备进行传送。

③信息推送技术的应用。

信息推送技术最早于1996年由美国Point Cast公司提出,它因而成为第一个在Internet上使用推送技术发表信息的公司[14]。该公司通过与一些媒体公司合作,利用信息推送软件通过Internet网络向读者发送预先打包好的新闻、经济体育和其他信息,如CNN、《纽约时报》、生活时尚等信息会在预先的频道中循环播出。信息推送技术最成功的应用是在一些特定的领域,针对特定的用户群体,如通过E-mail或短消息方式向特定用户提供新闻、天气广告等。

RSS是一种起源于网景(Netscape)的信息推送技术。由于版本的不同,RSS全称既可以是Really Simple Syndication(真正简单聚合),又可以是Rich Site Summary(丰富站点摘要)或RDF Site Summary(RDF,站点摘要)。虽然三种规范定义的结构不同,但是所包含的核心信息和技术实质却基本相同[15]。从本质上来讲,RSS是一种数据规范或结构,该规范规定网站在发布新信息的时候要遵循的标准格式,以XML文件形式呈现某网站内容更新的摘要信息,是一种用于共享新闻标题、摘要等内容的XML文件。作为互联网上信息推送方式的实现,RSS能够将新内容在服务器中出现的第一时间推送到用户端阅读器中,极大地提高了信息的时效性和价值。网上信息发布者,无论是企业还是个人,都可以通过RSS服务平台向所有用户“推送”出他们所需要的信息内容。另外,RSS能够实现信息的“聚合”,即能将互联网上很多不同源信息以feeds订阅的方式集中到同一点[16]。因为RSS是一种被广泛采用的内容包装定义格式,所以任何内容源都可以采用这种方式来发布信息。而在用户端,RSS阅读器软件按照用户的喜好,有选择地将用户感兴趣的内容来源聚合到软件界面中,从而为用户提供多来源信息的“一站式”服务。基于RSS的信息推送服务使得大量经过筛选的高质量信息能够及时满足用户的需求,同时信息流的方式也不再是用户单一方向的“拉”,还包括反方向的“推”,从而提高了信息服务与信息利用的效率和效益[17]。目前,基于RSS的信息推送服务被广泛地应用于网络在线新闻、电子报刊、电子学习和数字图书馆等领域。

信息推送技术还被广泛地应用于博客、论坛和电子商务中,用来为不同类型的用户推送广告、新闻、朋友和商务等信息。此外,信息推送技术也被应用于企业情报搜集、信息资讯等服务中[6]。例如,企业竞争情报系统(Enterprise Competitive Intelligence System),它将反映企业自身、竞争对手和企业外部环境的时间状态和变化的数据、信息、情报进行收集、存储、处理和分析,并以适当的方式推送给企业有关战略管理人员。

从以上关于信息推送的定义、推送方式和推送技术的应用中可以看出,信息推送服务与信息拉取服务的本质区别在于:信息推送服务是信息服务系统根据用户的需求为其主动推送所需的信息资源,服务是以“用户”为中心;而传统的信息拉取服务则相反,信息拉取是用户根据自身需求向信息服务系统提出服务请求,通过信息服务系统在网络上寻找相应的信息资源,因此服务是以“信息资源”为中心。因此,在当前互联网上数字信息资源呈几何级数增长,信息服务领域面临“信息丰富、但有用信息获取困难”的窘困背景下,信息推送服务为信息服务学科提供了一种崭新的信息服务方式和解决问题的思路。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈