首页 理论教育 典型搜索引擎的工作原理及特点

典型搜索引擎的工作原理及特点

时间:2023-07-07 理论教育 版权反馈
【摘要】:自1990年第一个搜索引擎Archie推出以来,各种搜索引擎层出不穷。搜索引擎可以分为五代。谷歌首先使用这种模式并且大获成功,这一成就在当时引起了学术界和其他商业搜索引擎的极度关注。谷歌在全世界的搜索引擎份额超过了70%,百度和必应搜索引擎的全世界份额接近10%。

典型搜索引擎的工作原理及特点

自1990年第一个搜索引擎Archie推出以来,各种搜索引擎层出不穷。现如今,搜索引擎的定义已经不仅仅是局限于狭义上的搜索引擎本身了,除了百度谷歌这样的搜索引擎,很多手机应用软件里的搜索功能,都属于广义上的搜索引擎。搜索引擎可以分为五代。

第一代:分类目录时代。导航网站是搜索引擎第一代的代表。主要是一些分类网址,用户可以从这个分类目录里找到自己想浏览的网页。

第二代:文本检索时代。搜索引擎查询信息的方法是通过用户所输入的查询信息提交给服务器,服务器通过查阅,返回给用户一些相关程度高的信息。这代的搜索引擎的信息检索模型主要包括例如布尔模型、概率模型或者向量空间模型。通过这些模型来计算用户输入的查询信息是否与网页内容相关程度高低,将相关度高的则返回给用户。采取这种模式的搜索引擎主要是一些早期的搜索引擎,例如像Alta Vista、Excite等等。

第三代:整合分析时代。主要采用外部链接形式,通过每个网站的推荐链接数量来判断一个网站的流行性和重要性。然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。谷歌首先使用这种模式并且大获成功,这一成就在当时引起了学术界和其他商业搜索引擎的极度关注。后来,学术界以此成就为基础,提出了更多的改进的链接分析算法。大多数的主流搜索引擎都在使用分析链接技术算法。

第四代:用户中心时代。主要是以用户为中心。当客户输入查询的请求时候,同一个查询的请求关键词在用户的背后可能是不同查询要求。例如用户输入的是“苹果”,那么作为一个想要购买iPhone的用户和一个果农来说,那么要求就是大大地不一样。甚至是同一个用户,所查询的关键词一样,也会因为所在的时间和所在的场合不同而返回的结果不同的所有主流搜索引擎,都在致力于解决同一个问题:怎样才能从用户所输入的一个简短的关键词来判断用户的真正查询请求。

移动设备的使用者,即使不向移动搜索互联网授权任何特征信息,移动搜索互联网仍然可以通过移动设备使用者搜索时的大量特征,比如上网的时间习惯、操作习惯、内容归类去逐渐勾勒出这人使用者的特征信息,这种“推测式”算法的可能性也是由于移动设备具有唯一性、随身性而产生的。这些使用者的蛛丝马迹,都是未来移动互联网搜索引擎进行“商业数据挖掘”的巨大宝藏。移动互联网搜索的必然使命,就是:提供精准到个人的搜索。

可以说前三代搜索引擎,都是基于计算机互联网的搜索,而精准到个人需求的移动互联网搜索,为“第四代搜索引擎”,那么,最有可能实现这个第四代搜索引擎的人才,可能不来自百度,甚至不来自谷歌,而很有可能来自亚马逊淘宝等掌握了大量个人信息的商业巨头,或者来自跨界研究行为心理学消费心理学社会心理学等背景的信息技术研究机构或信息技术创业团队,因为这些公司或机构,对人们的行为习惯背后的“动机”与“特征”更加了如指掌。2013年UC和阿里成立合资公司推出的移动搜索引擎——神马搜索。(www.xing528.com)

第五代:生活生态圈。第五代搜索引擎是基于物联网的搜索,物联网搜索拥有更广阔的搜索空间,能预测到物联网一个最典型的应用就是:寻物或物寻人。比如远程看管小孩、老人,或搜索走失小孩。同时,还有可能东西找你,比如AI(人工智能)泊车后超过某个时间点,车主动呼叫你;饭煮好后电饭煲主动呼叫你。

目前,在世界范围内较流行的搜索引擎有:谷歌(Google)、必应(Bing)、百度(Baidu)、雅虎(Yahoo)、Yandex、Ask、Duckduckgo、Naver、AOL、Seznam、有道、搜搜、搜狗、即刻、神马、360等。谷歌在全世界的搜索引擎份额超过了70%,百度和必应搜索引擎的全世界份额接近10%。必应是微软旗下的搜索引擎,它在多个国家都占据了搜索引擎排名第二的份额,虽然很多人往往会忽视它,但是每个月也有13亿人通过必应进行搜索。百度在我国占据了搜索份额的70%以上。

搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

① 搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛的自动搜索程序来连上每一个网页上的超链接。程序根据网页链到其中的超链接,就像日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超链接,搜索程序便可以遍历绝大部分网页。

② 整理信息:搜索引擎整理信息的过程称为“创建索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。

③ 接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这样通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。整理信息及接受查询的过程,大量应用了文本信息检索技术,并根据网络超文本的特点,引入了更多的信息。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈