首页 理论教育 搜索引擎类型与评价的介绍

搜索引擎类型与评价的介绍

时间:2023-07-25 理论教育 版权反馈
【摘要】:世界上典型的全文搜索引擎是A lta Vista。分类全文搜索引擎的特点是搜索范围小、误检率低。为了解决这些问题,搜索引擎需要具备符合用户实际需要的知识库。其缺点是查询时间长、查询结果的质量依赖于其他独立搜索引擎的收集质量。此外,搜索引擎能否对检索内容进行高效的过滤与去重、能否具有友好的用户界面与交互特性,目录分类是否合理和全面,以及能否对用户提供及时全面的帮助等等也是非常重要的评价指标。

搜索引擎类型与评价的介绍

1.索引擎的类型划分

(1)根据信息组织的方式进行划分

①目录式分类搜索引擎(网站级):按传统的信息分类方式来排列信息,用户按类查找。其工作流程是:目录式分类搜索引擎搜索到一个新网站时,将该网站划分到自己数据库中的某个类目之下,记录一些摘要信息,并对该网站进行概述性的简要介绍。这种搜索引擎的特点是查准率高,特别适合于那些希望了解某一范围内的信息但又没有明确搜索目的的用户使用;不过,与全文搜索引擎相比,搜索范围要小得多,一般被称为网站级搜索引擎。世界上最具代表性的目录式分类搜索引擎是Yahoo!。

②全文搜索引擎(网页级):能够对各网站的每个页面中的每个词进行搜索。优点是查全率高,搜索范围较大;但由于缺乏分类式搜索引擎那样清晰的层次结构,有时给人一种多而杂的感觉,而且查询结果集中,重复链接较多,查准率低。它的工作流程是:当全文搜索引擎搜索到一个新网站时,将该网站上所有的网页全部获取下来,记录到自己的数据库中。世界上典型的全文搜索引擎是A lta Vista。

③分类全文搜索引擎:这是针对全文搜索引擎和分类搜索引擎的缺点而设计的,通常是在分类的基础上再进一步进行全文检索。这样既可以使用户在分类目录中浏览,保证了一定的查准率;又可以使用户进行全文查询,避免了目录式搜索引擎只有网站级查询的缺陷。现在多数搜索引擎都朝这个方向发展。分类全文搜索引擎的特点是搜索范围小、误检率低。

④智能搜索引擎:传统的搜索引擎误查、漏查现象非常普遍。为了解决这些问题,搜索引擎需要具备符合用户实际需要的知识库。在搜索时,引擎将根据已有的知识库,了解检索词的意义并以此产生联想,运用人工智能方法进行推理,从而找出相关的文章。

目前比较成功的智能搜索引擎有FSA、Eloise和FAQFinder。Arthur Andersen的FSA(Financial Statement Analyzer)和Eloise(English Language Oriented System for Edgar)专门用于搜索美国证券交易委员会的Edgar商业数据库,这两个系统中内嵌了特定领域中的商业知识,并使用“推断—证明”(Prediction-Substantiation)式的自然语言理解技术。芝加哥大学人工智能实验室开发的FAQFinder,是一个具有问答式界面的智能搜索引擎。在获知用户问题后,查询FAQ文件再给出比较合适的回答。

(2)根据语种的不同进行划分

①单语种搜索引擎:用户在使用搜索引擎查询信息时只能使用一种语言进行查询,如HotBot和中文雅虎等。

②多语种搜索引擎。可以使用多种语言在同一个搜索引擎中搜索信息的搜索引擎。如Alta Vista现在可以用20多种语言进行查询。(www.xing528.com)

(3)根据搜索的范围进行划分

独立搜索引擎:这种搜索引擎有自己的数据库,并采用主动或被动搜索方式登录数据库,由数据库反馈出相应的查询信息或是相链接的站点指向。独立搜索引擎一般都会有各自的特色,如全文查询、简单搜索、分级查询等。目前大型的著名搜索引擎基本上都是独立的搜索引擎,如Yahoo!、Google、搜狐、悠游等。

②集搜索引擎(Meta Search Engine):将查询词在若干个搜索引擎中同时进行查询,对查询结果做出相关度排序,去除重复(几个搜索引擎同时查询出的重复链接和相同信息源)后,显示出查询结果。集搜索引擎是一种能够调用其他独立搜索引擎的引擎,它可能有也可能没有自己的数据库。当用户向此类搜索引擎提交查询后,它们便调用多个独立的搜索引擎数据库,并将得到的查询结果加以收集、整理、综合后,将获得的更多、更全面的网址反馈给用户,信息质量可以直观地显现,查询效率也大大改进。其缺点是查询时间长、查询结果的质量依赖于其他独立搜索引擎的收集质量。

③多合一搜索引擎(All-in-One Search Engine):除以上的两种搜索引擎外,还有一类搜索引擎是将搜索关键字在多个独立搜索引擎中串行查询,并逐个显示查询结果,不进行重复网页的分析和删除,这类搜索引擎被称为“多合一搜索引擎”。

2.搜索引擎的评价指标

(1)常规6项指标:收录范围、查全率、查准率、响应时间、用户负担和输出形式

收录范围是指搜索引擎数据库所涉及的学科领域和所索引的出版物类型和数量,以及收集的网站或网页数目;查全率是指一次搜索结果集合中符合用户要求的数目与和用户查询相关的总数之比;准确率是指一次搜索结果集合中符合用户要求的数目与该次搜索结果总数之比;响应时间是指搜索引擎对某一命令或检索提问做出响应所需要的时间。

(2)新型4项指标:相关度、满意度、检索功能的延伸以及智能化水平

相关度是用户查询与搜索结果之间相似度的一种度量。相关度排序是指在搜索引擎对检索词在检索字段内容中出现的命中次数的排列顺序,次数越多越靠前。按检索词的出现频次、页面被访问的程度或者基于超链分析都可以计量出相关度的大小。满意度指搜索引擎的受欢迎程度,它体现了用户对搜索引擎的偏好程度,知名度高、性能稳定、运行速度快和搜索质量好的搜索引擎备受青睐。检索功能的延伸是指搜索引擎除了具有字段检索、布尔检索、邻近检索、截词检索等功能外,还可以提供增加检索技术支持和检索条件限制的高级检索、二次检索或进阶检索等功能,以满足用户个性化检索的需要。此外,搜索引擎能否对检索内容进行高效的过滤与去重、能否具有友好的用户界面与交互特性,目录分类是否合理和全面,以及能否对用户提供及时全面的帮助等等也是非常重要的评价指标。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈