首页 理论教育 信息检索的现状和优化方法

信息检索的现状和优化方法

时间:2023-07-08 理论教育 版权反馈
【摘要】:1)全文信息检索全文检索是以全文本信息为主要检索对象,允许用户以布尔逻辑和自然语言,根据资料内容而不是外在特征来实现检索的先进检索技术。有些智能体使用神经网络与模糊逻辑而不是关键词来识别信息的模式。4)其他信息检索技术知识发现技术就是从大量的数据中发现有用知识的高级处理过程,是数据库技术和机器学习的交叉学科。

信息检索的现状和优化方法

1)全文信息检索

全文检索是以全文本信息为主要检索对象,允许用户以布尔逻辑和自然语言,根据资料内容而不是外在特征来实现检索的先进检索技术。全文检索系统标引方式有词典法标引、单汉字标引、特殊标引等。检索技术有后控检索、原文检索(含位置检索)和期望值与加权检索等,检索功能强大。以全文检索为核心技术的索引擎已成为互联网时代的主流技术之一。

2)基于内容检索技术

基于内容检索即多媒体信息检索,20世纪90年代初,国际上就开始了这方面的研究。它是直接对图像、视频、音频等多媒体信息进行分析,抽取特征和语义,利用这些内容特征建立索引,然后进行检索。目前,大量的原型系统已推出,典型的系统有IBM公司的QBIC系统等。超媒体检索是超文本检索的自然扩展,检索对象由文本扩展为多媒体信息。它的检索方法与超文本检索是一样的。目前,超媒体检索正向智能超媒体检索和协作超媒体检索方向发展。WWW是第一个全球性分布式超媒体系统。

3)WWW信息检索技术(www.xing528.com)

WWW信息检索技术主要是以搜索引擎为检索手段,它的检索方式有分类目录式(网站级)检索、全文(网页级)检索等。分类目录式检索也就是超文本检索。在全文检索方式中,搜索引擎使用网络信息资源自动采集机器人(robot)程序(也称网络蜘蛛、爬虫软件),动态访问各站点,收集信息,建立索引,并自动生成有关资源的简单描述,存入数据库中供检索。元搜索引擎(又称多元搜索引擎或集成搜索引擎)是网络检索的后起之秀,是多个单一搜索引擎的集合。它没有独立的数据库,主要依靠系统提供的统一界面,构成一个一对多的分布式且具有独立功能的虚拟逻辑机制。主要的元搜索引擎有Metacrawler等。网络智能检索包括智能搜索引擎(intelligent search engine)、智能浏览器(intelligent browser)、智能体(agent)等。智能搜索引擎可以预期用户的需求,并可有效地控制关键词的多义性;智能浏览器是基于机器学习理论设计的智能系统,经过训练后,可成为某个领域中熟练的搜索专家;智能体是一个具有控制问题求解机理的计算机单元,网络中的智能体通常是一个专家系统、一个模块等,它在经过用户指导后,可在不用用户干预的情况下,找到所需信息。有些智能体使用神经网络与模糊逻辑而不是关键词来识别信息的模式。

4)其他信息检索技术

知识发现技术就是从大量的数据中发现有用知识的高级处理过程,是数据库技术和机器学习的交叉学科。数据挖掘(data mining)技术是知识发现的核心技术。数据挖掘的定义是:按照某种既定目标,对大量数据进行分析和探索,从中识别出有效的、新颖的、潜在的、有用的知识,以最终可理解的模式显示的一系列处理过程。它涉及机器学习、模式识别统计学、数据库、联机分析、模糊逻辑、人工神经网络、不确定推理等多种学科知识。数据挖掘是一种分析工具。网格技术是第三代互联网,目前还处于起步阶段。信息推拉技术也是一种信息检索技术,分为信息推送和拉取两种模式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈