首页 理论教育 垂直和通用搜索引擎的差别

垂直和通用搜索引擎的差别

时间:2023-07-02 理论教育 版权反馈
【摘要】:只对静态页面进行搜索,动态页面数据无法抓取;用户对搜索范围、内容、栏目和体现的结果无法精确、有效的控制,各种垃圾信息过多。(二)动态网页和静态网页很少有人知道,站内搜索和通用搜索之间有很大的不同:通用搜索一般都只是静态网页,而站内搜索却多为动态网页。静态网页的内容相对稳定,因此容易被搜索引擎检索。后面的内容,因此采用动态网页的网站在进行搜索引擎推广时,需要做一定的技术处理才能适应搜索引擎的要求。

垂直和通用搜索引擎的差别

(一)技术差别

站内搜索引擎一般有三种类型:基于数据库、基于Spider抓取和全文检索技术。

1.基于数据库的站内搜索

这种站内搜索的数据容量有限,因此检索速度较快,查准率高;但是不具备分词功能,无法完成全文检索,检索功能相对简单,用户对搜索范围、内容和体现的结果无法精确控制。可以用SQL的单字索引功能实现最低级的全文检索。但随着数据量上升,数据库压力增大,存在系统崩溃的危险。

2.基于spider抓取的站内搜索

一般用于大中型网站,其技术过程是经Spider抓取网页,对HTML解析/分词/索引实现网页式站内搜索,容量一般在千万级以上,速度在毫秒级,准确度低,支持分词功能;抗压能力强,系统安全系数高;但随数据量增加,搜索结果中垃圾信息比重上升,影响结果的排序和显示效果,严重影响精确度。只对静态页面进行搜索,动态页面数据无法抓取;用户对搜索范围、内容、栏目和体现的结果无法精确、有效的控制,各种垃圾信息过多。

3.全文检索技术

少量大型网站使用。它对数据库数据进行HTML解析、分词、索引,实现站内搜索;容量在千万级以上,毫秒级速度,支持分词功能,可进行关键字检索,可基于内容分析的排序方法。所有动态网页和没有链接的网页均可有效收录,抗压能力强,系统安全系数高,用户可对搜索的内容范围和体现的结果进行精确控制,可有效控制,栏目控制精准;提供提动态摘要,摘要清晰精确,便于用户快速寻找到所需信息。

随着互联网市场竞争加剧,作为网站核心服务之一的搜索引擎越来越受到各大网站重视。数据库搜索已无法满足网站及其用户的需求,众多网站开始寻求提高自身网站站内搜索功能的解决方案,基于Spider抓取的站内搜索虽然在一定程度上缓解了问题,但想真正解决根本问题,则需要应用懒汉搜索引擎这样的技术。

(二)动态网页和静态网页

很少有人知道,站内搜索和通用搜索之间有很大的不同:通用搜索一般都只是静态网页,而站内搜索却多为动态网页。静态网页、动态网页主要根据网页制作的语言来区分。

在网站设计中,纯粹HTML(标准通用标记语言下的一个应用)格式的网页通常被称为“静态网页”,静态网页是标准的HTML文件,它的网址形式通常以“.htm”“.htm l”“.shtml”“.xml”等为后缀。可以包含文本、图像、声音、Flash动画、客户端脚本和ActiveX控件及JAVA小程序等。静态网页是网站建设的基础,早期的网站一般都是由静态网页制作的。静态网页是相对于动态网页而言,是指没有后台数据库、不含程序和不可交互的网页。静态网页相对更新起来比较麻烦,一般适用于更新较少的展示型网站。容易误解的是静态页面都是“.htm”这类页面,实际上静态也不是完全静态,它也可以出现各种动态的效果,如GIF格式的动画、Flash、滚动字幕等。需要说明的是,这些“动态效果”只是视觉上的,与下面将要介绍的动态网页是不同的概念。

1.静态网页的特点

(1)静态网页的每个网页都有一个固定的URL,且网页的URL以“.htm”“.htm l”“.shtml”等常见形式为后缀,而不含有“?”。

(2)网页内容一经发布到网站服务器上,无论是否有用户访问,每个静态网页的内容都是保存在网站服务器上的,也就是说,静态网页是实实在在保存在服务器上的文件,每个网页都是一个独立的文件。

(3)静态网页的内容相对稳定,因此容易被搜索引擎检索。

(4)静态网页没有数据库的支持,在网站制作和维护方面工作量较大,因此当网站信息量很大时,完全依靠静态网页制作方式比较困难。 (www.xing528.com)

(5)静态网页交互性较差,在功能方面有较大的限制。

所谓的动态网页,是指跟静态网页相对的一种网页编程技术。静态网页,随着“.html”代码的生成,页面的内容和显示效果就基本上不会发生变化了——除非你修改页面代码。而动态网页则不然,页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。

值得强调的是,不要将动态网页和页面内容是否有动感混为一谈。这里说的动态网页,与网页上的各种动画、滚动字幕等视觉上的动态效果没有直接关系,动态网页可以是纯文字内容的,也可以是包含各种动画内容的,这些只是网页具体内容的表现形式,无论网页是否具有动态效果,只要是采用了动态网站技术生成的网页都可以称为动态网页。

总之,动态网页是基本的“.htm l”语法规范与Java、VB、VC等高级程序设计语言、数据库编程等多种技术的融合,以期实现对网站内容和风格的高效、动态和交互式的管理。因此,从这个意义上来讲,凡是结合了HTML以外的高级程序设计语言和数据库技术进行的网页编程技术生成的网页都是动态网页。

2.动态网页的特点

(1)动态网页以数据库技术为基础,可以大大降低网站维护的工作量。

(2)采用动态网页技术的网站可以实现更多的功能,如用户注册、用户登录、在线调查、用户管理、订单管理等。

(3)动态网页实际上并不是独立存在于服务器上的网页文件,只有当用户请求时,服务器才返回一个完整的网页。

(4)动态网页中的“?”对搜索引擎检索存在一定的问题,搜索引擎一般不可能从一个网站的数据库中访问全部网页,或者出于技术方面的考虑,搜索蜘蛛不去抓取网址中“?”后面的内容,因此采用动态网页的网站在进行搜索引擎推广时,需要做一定的技术处理才能适应搜索引擎的要求。

3.静态网页与动态网页的区别

程序是否在服务器端运行,是区分动、静态网页的重要标志。在服务器端运行的程序、网页、组件属于动态网页,它们会随不同客户、不同时间而返回不同的网页,例如ASP、PHP、JSP、ASP.net、CGI等。运行于客户端的程序、网页、插件、组件属于静态网页,例如HTML页、Flash、JavaScript、VBScript等,它们是永远不变的。

不难看出,相比较而言,动态网页更为实用、灵活些,这就给站内搜索带来了一定的优势,搜索内容更为方便快捷。

综上所述,站内搜索并不是没有什么优势,如果它真的没什么很大的利用价值和前景的话,那作为谷歌这样的大型搜索引擎也不会将其加入,当然这只是为了证明站内搜索的前景还是有的,也许它的发展会十分缓慢,但是相信不会就此没落的。

同样,站内搜索也是需要引起重视的,调查显示:大部分欧洲消费者在第一次访问一个网站的时候,往往是首先进行站内搜索,如果搜索结果没有他们想要的,则有13%的消费者会马上离开,去别的网站寻找。74%的活跃在网上的购物者觉得站内搜索结果与被搜索关键词的相关度对他们来说是最重要的。由于用户习惯了使用谷歌这样的高效搜索引擎,因此在使用他们不熟悉的网站时,他们对站内搜索引擎的依赖性往往高于对浏览器的依赖性。对于此研究的结论是:网站的站内搜索功能需要引起重视,欧洲网站是时候该升级站内搜索了。欧洲的站内搜索需要升级,那我们的呢?

虽然现在国内的站内搜索技术含量相比通用搜索还有不足之处,但是一些网络巨头已经开始走这条道路。目前整个互联网行业中,由于受制于技术的门槛,真正的搜索引擎技术还没有被广泛普及。像懒汉搜索引擎这样高效站内搜索技术的崛起,将有助于提升国内网站的价值,发挥其应有的作用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈