首页 理论教育 目录索引的独特工作原理与全文搜索引擎相比的差异

目录索引的独特工作原理与全文搜索引擎相比的差异

时间:2023-07-02 理论教育 版权反馈
【摘要】:目录索引的基本工作原理与全文搜索引擎相比,目录索引的基本工作原理有许多不同之处。正如微软研究院负责搜索的一名技术专家说,75%的内容是通用搜索引擎搜索不出来的。

目录索引的独特工作原理与全文搜索引擎相比的差异

1.从概念角度了解索引擎工作的基本原理

(1)全文搜索引擎的基本工作原理

全文搜索引擎是从网站提取信息建立网页数据库的。搜索引擎的自动信息搜集功能分两种:一种是定期搜索,即每隔一段时间(比如谷歌一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)专门向网站派出“蜘蛛”程序,扫描网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不能保证用户的网站进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到网站并自动将网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法,通常根据网页中关键词的匹配程度、出现的位置/频次、链接质量等,计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

(2)目录索引的基本工作原理

与全文搜索引擎相比,目录索引的基本工作原理有许多不同之处。

首先,全文搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳网站。

其次,全文搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其像雅虎这样的超级索引,登录更是困难。

此外,在登录全文搜索引擎时,用户一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。

最后,全文搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,用户拥有更多的自主权;而目录索引则要求必须手工填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为提交的网站目录、网站信息不合适,他可以随时自行对其进行调整。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如果以关键词搜索,返回的结果跟搜索引擎一样,是根据信息关联程度排列网站,只不过其中的人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,全文搜索引擎与目录索引擎有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如谷歌就借用Open Directory目录提供分类查询。而像雅虎这些老牌目录索引也开了始全文搜索引擎技术的研发和推广。(www.xing528.com)

2.从技术角度分析解搜索引擎工作的基本原理

(1)从互联网上抓取网页(搜索软件的功能)

利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,不断重复这个过程,并把爬过的所有网页收集回来。

搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几个月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。

(2)建立索引数据库(索引软件的功能)

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

(3)在索引数据库中搜索排序(检索软件的功能)

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数据量达到几千GB甚至几万GB。但即使最大的搜索引擎建立的索引数据库占到互联网中不到30%的普通网页,不同搜索引擎之间的网页数据重叠率一般在30%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索引的。正如微软研究院负责搜索的一名技术专家说,75%的内容是通用搜索引擎搜索不出来的。这里面包含两层含义:

第一,网站结构不合理,网页对搜索引擎不友好。

第二,由于互联网中的信息是海量的,非结构化的信息需要经过结构化的梳理后才能更好地展现。同时,市场需求的多元化也导致了搜索引擎的发展格局必然是行业化和细分化。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈