首页 理论教育 智能搜索引擎信息过滤技术实现结果

智能搜索引擎信息过滤技术实现结果

时间:2023-11-23 理论教育 版权反馈
【摘要】:与传统搜索引擎相比,智能引擎具有用户数据登记和兴趣自动识别机制,这是构建个性化信息需求模块的基础,也是实施有效信息过滤的关键。智能搜索引擎信息过滤的运行结构如图3-7所示。图3-7 智能搜索引擎信息过滤的运行结构2.智能搜索引擎信息过滤机制智能搜索引擎是一种基于智能代理的信息过滤和个性化信息服务系统。

智能搜索引擎信息过滤技术实现结果

国内外种类繁多的搜索引擎在为用户提供浏览和查询信息、拦截与过滤不良信息和无用信息方面起到了一定的作用,成为广大网络用户获取网络信息的首选工具。但是,随着网络信息的爆炸性增长及用户信息需求的个性化发展,搜索引擎简单的过滤网络信息状况已难以满足用户精确查询信息的需要。问题存在的主要原因是由于传统搜索引擎在因特网中的搜索过程缺少系统对信息进行检索与筛选的智能行为,其关键是对用户查询条件与目的以及网络资源缺乏理解和认识。

智能搜索引擎是以自然语言理解技术为基础的新一代搜索引擎。所谓智能是指该搜索引擎所具有的一种综合能力,包括对网络信息环境及用户信息的感知能力;对感知到的环境与用户信息进行记忆与存储的能力;通过学习实现某一目标的知识获取与过滤能力等。因此,有关智能搜索引擎的理念与实践主要源于人的大脑分析与查询信息的高度智能化过程。智能搜索引擎采用机器学习的方法研究文本信息的自动搜集、抽取与分类处理,解决网络信息的主动推送,实现网络信息服务个性化。目前虽然对于智能搜索引擎的研究尚处于概念层次的讨论,但是关于如何提高搜索引擎的智能性探索近十年来一直都在进行[36]

1.智能搜索引擎信息过滤特点

面向动态数据流:智能搜索引擎面对的是半结构化和非结构化的数据,为用户长期的信息需求提供服务,而传统搜索引擎面向的是用户短期的实时查询。智能搜索引擎注重向个人或一组具有相同或相近兴趣的用户提供信息,用户访问的是动态数据流,而不是静态数据库

语义理解:智能搜索引擎是一种基于内容的信息搜索工具,能够实现对以自然语言形式的用户请求内容和文档内容的理解。其语义理解体现在两个方面:一是理解用户的搜索请求;二是分析信息内容。由于智能引擎对知识具有一定的理解和处理能力,可实现分词技术、同义词技术、短语识别、机器翻译和支持自然语言查询等,因此可将目前的基于分类浏览与简单关键词查询提高到基于概念和知识层面的检索,从而为用户提供更方便、更确切的搜索服务。上述功能的实现主要基于所采用的语义网络等智能技术。中文智能引擎通过汉语分词、句法分析以及统计理论可有效地理解用户查询请求。

动态获取用户兴趣、构建需求模板:智能搜索引擎可动态观察和记录用户行为,不断获取用户长期的、相对固定的兴趣与爱好,并通过不断的训练学习,增长获取用户兴趣的智能。对返回的信息进行及时评价,不断分析用户请求,了解用户的真正需要以便调整搜索策略。与传统搜索引擎相比,智能引擎具有用户数据登记和兴趣自动识别机制,这是构建个性化信息需求模块的基础,也是实施有效信息过滤的关键。

个性化信息服务:个性化信息服务的实质就是针对性服务,即针对不同个体采用不同的服务策略,提供不同的服务内容。如前所述,与现有搜索引擎相比,智能引擎不仅可以根据不同用户的信息需求建立需求模板并进行自我学习,以便动态地获取不断变化着的用户兴趣,而且可以主动将切合需要的有关信息推送给用户,为用户提供具有针对性的、个性化的信息服务。智能引擎个性化服务的核心就是通过跟踪分析用户的搜索行为,发现其某段时间内的高频检索词,了解用户关心的内容,然后由引擎主动地将与高频检索词相关的信息进行针对性地推送,以提高用户的搜索效率

智能化信息过滤:智能搜索引擎是一个网页信息的智能获取与处理工具,其智能性首先体现在智能搜索器的使用方面:搜索器通过对特定站点或者遍历In-ternet不断寻找可利用的知识,自动过滤掉非需求信息,完成在线信息索引,再通过启发式学习、类比学习、归纳学习或发现学习等调整搜寻策略。智能搜索是信息过滤技术中的关键技术,智能浏览器则是智能搜索引擎基于机器学习理论设计的智能系统。智能索引数据库或采用客户推送式(由客户数据操作启动信息推送)或采用服务器推送式(由数据库中的触发器启动信息推送)将符合需要的信息推送(过滤)给需要者。将智能代理应用于客户端和服务器可起到自动的不断过滤信息的作用。智能搜索引擎信息过滤的运行结构如图3-7所示。

978-7-111-33166-7-Chapter03-26.jpg

图3-7 智能搜索引擎信息过滤的运行结构(www.xing528.com)

2.智能搜索引擎信息过滤机制

智能搜索引擎是一种基于智能代理的信息过滤和个性化信息服务系统。如图3-7所示,其工作原理是将通过智能代理自动获得的资源模型(如Web知识、领域资源等)与用户模型进行匹配,并智能化地主动将信息推荐给特定用户,智能代理具有不断学习和不断适应信息资源与用户兴趣动态变化的能力,从而提供个性化的信息服务。智能代理既可以在客户端进行,也可以在服务器运行,其智能机制主要体现在以下方面:

(1)网络“蜘蛛”智能化。网络蜘蛛的概念起源于1990年,目前能在各种搜索引擎中运行的蜘蛛程序约有30多个,其中著名的网络蜘蛛有AOL Search NetFind、WebCrawler等。智能引擎的网络蜘蛛面对信息更替无时无刻不在进行的网络环境(如文档常被增加或删除、改变或添加),采用启发式或类比式学习方法以及最有效的搜索策略,选择最佳时机,从因特网上抓取信息并自动完成在线信息的索引,其可以遍历因特网的任何地方,并将尽可能地挖掘获取的信息进行索引,其中包括获取特定论点的信息。为了提高搜集速度,智能系统可同时启动多个引擎进行并行工作,然后将各引擎的搜索结果加以整合后再存放于索引数据库。

(2)多文档处理智能化。智能引擎为了使文本信息处理的精度得到提高,降低向量空间的维数,通常采用基于统计、模式识别、禁用词表或奇异值分解等方式对文本进行预处理,过滤掉一些无关属性,以减少无关信息对文本信息处理过程的干扰。与此同时,智能搜索引擎还具有跨平台工作以及处理多种文档结构的能力,如对网络上的各类文档进行智能化处理。

(3)自然语言过滤智能化。智能搜索引擎支持直接采用自然语言中的字、词或整个自然语句作为过滤检索式,如使用“超媒体技术向纵深方向发展”作为过滤检索式等,这对于一般用户更适合。此外,利用自然语言中的管道过滤也有助于检准率的提高,所谓管道过滤即使用管道符—连接若干检索词,智能系统首先对第1个词进行过滤和检索,然后在其结果信息的基础上,对后一个词所涉及的信息进行检索和过滤,依次类推,以达到逐步缩小过滤范围,提高检准率的目的。此外智能搜索引擎的语种过滤以及相关性排序等功能也较强。

(4)多种语言信息过滤与检索智能化。智能搜索引擎可为用户提供多种语言查询,包含有两层意思:其一,系统可以按用户指定的任何语种进行信息搜索,并输出查询结果;其二,支持用户采用某一语言提交查询,系统在多种语言的索引库中搜索并返回所有的结果文档,再经过机器翻译把信息结果呈现给用户。

(5)用户服务智能化。智能引擎可通过跟踪用户行为,了解用户兴趣爱好,根据用户每次返回的评价,调查其查询行为,并对搜索结果做出合理解释。智能服务一般包括以下内容:其一,根据用户需求的变化不断提供动态的信息服务,提高用户获取特定信息的效率、减轻用户认知负担;其二,根据用户反馈不断调整搜索策略、并选择最佳时机,自动搜集与整理结果信息;其三,允许用户为自己定制起始页面,以便将感兴趣的内容与经常使用的服务置于该页面,供搜索引擎推送服务时参考;第四,将多个搜索引擎的结果文档进行整合,并将其整合后的整体存放在索引数据库备用。

(6)用户界面智能化。中文智能引擎采用诸如语义网络等智能技术,通过汉语分词,句法分析以及统计理论等,使用自然语言与用户交互。力求最大程度地了解用户,与用户实时交流。目前已有一些搜索引擎采用自然语言智能答询,用户可以输入简单的疑问句,搜索引擎在对提问结构进行分析和内容分析后,或直接给出答案,或引导用户从几个可选择的问题中进行再选择。多数智能搜索引擎可用人机对话的方式,在专业、智能、多媒体搜索的基础上,为用户提供即时、准确的所需信息。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈