首页 理论教育 搜索引擎基本工作原理简介

搜索引擎基本工作原理简介

时间:2023-05-22 理论教育 版权反馈
【摘要】:以下对搜索引擎的工作原理做进一步分析。这是搜索引擎工作的基本原理。

搜索引擎基本工作原理简介

索引擎的整个工作过程视为三个部分:一是蜘蛛互联网上爬行和抓取网页信息,并存入原始网页数据库;二是对原始网页数据库中的信息进行提取和组织,并建立索引库;三是根据用户输入的关键词,快速找到相关文档,并对找到的结果进行排序,同时将查询结果返回给用户。以下对搜索引擎的工作原理做进一步分析。

1.网页抓取

Spider每遇到一个新文档,都要搜索其页面的链接网页。搜索引擎蜘蛛访问Web页面的过程类似普通用户使用浏览器访问其页面,即B/S模式。引擎蜘蛛先向页面提出访问请求,服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库。搜索引擎使用多个蜘蛛分布爬行以提高爬行速度。搜索引擎的服务器遍布世界各地,每一台服务器都会派出多只蜘蛛同时去抓取网页。

蜘蛛是一个非常形象的说法,将互联网比作一张信息集合的大网,蜘蛛就负责爬行、寻找信息。搜索引擎爬虫,又被称为网页蜘蛛、网络机器人,是一种按照一定的规则自动抓取互联网信息的程序或者脚本,每个搜索引擎公司都有自己的网络爬虫。

网站和页面的权重大小、页面更新频率、建立首页的引导链接、原创内容等因素都是蜘蛛抓取网页时考虑的主要因素。

2.预处理,建立索引

为了便于用户在数万亿级别以上的原始网页数据库中快速便捷地找到搜索结果,搜索引擎必须将Spider抓取的原始Web页面做预处理。网页预处理最主要的过程是为网页建立全文索引,之后开始分析网页,最后建立倒排文件(也称反向索引)。

Web页面分析有以下步骤:判断网页类型,衡量其重要程度、丰富程度,对超链接进行分析,分词,把重复网页去掉。经过搜索引擎分析处理后,Web网页已经不再是原始的网页页面,而是浓缩成能反映页面主题内容的、以词为单位的文档。

数据索引中结构最复杂的是建立索引库,索引又分为文档索引和关键词索引。每个网页唯一的Doc ID号是有文档索引分配的,每个Word ID出现的次数、位置、大小格式都可以根据Doc ID号在网页中检索出来,最终形成Word ID的数据列表。倒排索引形成过程是这样的:搜索引擎用分词系统将文档自动切分成单词序列,然后对每个单词赋予唯一的单词编号,并记录包含这个单词的文档。单词对应的倒排列表除了记录文档编号之外,单词频率信息也被记录进去,便于以后计算查询和文档的相似度。 (www.xing528.com)

3.查询服务

在搜索引擎界面输入关键词,单击“搜索”按钮之后,搜索引擎程序开始对搜索词进行以下处理:分词处理、根据情况对整合搜索是否需要启动进行判断、找出错别字和拼写中出现的错误、把停止词去掉。接着搜索引擎程序便把包含搜索词的相关网页从索引数据库中找出,而且对网页进行排序,最后按照一定格式返回到“搜索”页面。查询服务最核心的部分是搜索结果排序,其决定了搜索引擎的好坏及用户满意度。实际搜索结果排序的因子很多,但最主要的因素之一是网页内容的相关度。影响相关性的主要因素包括如下五个方面。

(1)关键词常用程度。经过分词后的多个关键词,对整个搜索字符串的意义贡献并不相同。越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。常用词发展到一定极限就是停止词,对页面不产生任何影响。所以,搜索引擎用的词加权系数高,常用词加权系数低,排名算法更多关注的是不常用的词。

(2)词频及密度。通常情况下,搜索词的密度和其在页面中出现的次数成正相关,次数越多,说明密度越大,页面与搜索词关系越密切。

(3)关键词位置及形式。关键词越出现在比较重要的位置,如标题标签、黑体、H1等,说明页面与关键词越相关。在索引库的建立中提到的页面关键词出现的格式和位置都被记录在索引库中。

(4)关键词距离。关键词被切分之后,如果匹配的出现,说明其与搜索词相关程度越大,当“搜索引擎”在页面上连续完整的出现,或者“搜索”和“引擎”出现的时候距离比较近,都被认为其与搜索词相关。

(5)链接分析及页面权重。页面之间的链接和权重关系也影响关键词的相关性,其中最重要的是锚文字。页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。链接分析还包括了链接源页面本身的主题、锚文字周围的文字等。

这是搜索引擎工作的基本原理。如果将搜索引擎的工作流程进行归纳,可总结为收录—分析—排序—查询—展现。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈