首页 理论教育 搜索引擎的发展与挑战

搜索引擎的发展与挑战

时间:2023-07-02 理论教育 版权反馈
【摘要】:对初级的查询检索者来讲,也许他们的努力是失败的,这是由于缺少一个专为Web设计的定义严密的基本数据模型,这些困难的解决,引发着人们对搜索引擎和搜索引擎技术的高度关注。Web上的搜索引擎,从图情专业的角度观察,它们和印本收藏的图书的目录索引极为相似,检索功能高度一致,只是发生了一些硬件的变化。万维网促进了搜索引擎的形成和发展,搜索引擎是网上的导航工具,是一种搜索WWW信息的软件。

搜索引擎的发展与挑战

印本信息文献检索,正变得传统,随着信息载体的变化,文献的收藏检索体系被冲击改变。同时,随着现代信息技术的广泛应用,信息文献的检索则成为在计算机语言的主导下,对信息文献的关键词或主题词进行表达、存储、组织和提取。计算机网络环境下,检索结果在Web搜索过程中,变得拖延或遗漏,不是精准的检索结果。在计算机语言环境下,信息检索需求在表述的过程中,不能直接完整的描述,即检索查询用户先将关键词或主题词转换到搜索引擎IR系统上,使检索主题词成为计算机系统能够处理的查询。这里的转换有两个内容,一是将检索语言规范化,关键词、主题词要规范;二是规范的词或词组是简单、普通的计算机可读的标引词。由此能够将查询检索用户的查询需求进行概括性描述,得到的检索查询结果是有用和相关的需求信息,进而获得原始信息文献。信息文献的检索重点是信息检索,在检索词语的选择上,往往使用的是自然语言,自然语言在检索中对文本不可能很好地结构化,特别是中文,会产生语言语义的歧义。为了满足查询检索用户对计算机语言的检索需求,信息检索必须用某种方法清晰地表达在某一文本集合中的信息文献内容。并且根据检索查询的相似度,对待查询的标引词进行排序,也就是通过计算机语言对待查询检索的信息文献中的文献文本提取语法和语义信息,并将这些关键词用于匹配检索查询用户的信息文献需求。

当今的信息检索已经达到了标引文本和在某一集合中检索出有用文献的初级目标,现在信息检索不仅包括建模、系统构建、用户界面、数据可视化等计算机网络的研究工作,图情研究者所关心的文献分类和归类排架,信息过滤和查询检索语言也是搜索引擎检索研究的重点。

Web正在成为人类知识和文明的全球存储库,在这个巨大的存储库内允许思想信息的共享,任何一个用户都可以创建自己的Web文献,这个Web文献就是通用共享的、对所有人开放的出版媒介。所有的Web用户都可以用统一的、简单的、没有代价的方法发表推送他的个人产品和备忘录。但是在Web找到有用信息却是显得相对困难,因为Web所链接的空间,是超空间的巨大到几乎不可知,不知道Web链接的空间有多大。对初级的查询检索者来讲,也许他们的努力是失败的,这是由于缺少一个专为Web设计的定义严密的基本数据模型,这些困难的解决,引发着人们对搜索引擎和搜索引擎技术的高度关注。

Web上的搜索引擎,从图情专业的角度观察,它们和印本收藏的图书的目录索引极为相似,检索功能高度一致,只是发生了一些硬件的变化。这些实质性的变化表现在:第一,各类信息文献资源的使用变得十分经济,信息文献载体的变化和终端使用的普及,以及传输技术上的网络技术进步,形成更多查询用户进行检索使用;第二,数字通信技术的进步,使得网络利用有了更多途径,文献存储点之间没有距离,而且传输处理非常便捷高效;第三,任何人都可以自由地发布认为有用的信息,每个人都拥有自由方便经济地使用大型出版媒介的途径;第四,人机交互的常态化使信息查询检索已完全摆脱了印本实体的限制,每个人的信息文献既是实体的,也是虚拟的。(www.xing528.com)

万维网(WWW)促进了搜索引擎的形成和发展,搜索引擎是网上的导航工具,是一种搜索WWW信息的软件。1994年10月,蒂姆·伯纳斯-李爵士(Tim Bemers-Lee)在世界理工大学之最的麻省理工学院计算机科学实验室,发明了万维网(WorldWideWeb)。虽然万维网构成组合简单,但通过蒂姆·伯纳斯-李爵士有效的整合,一个划时代的发明产生了。因提供无偿免费使用,使得万维网的发展超乎想象的飞速。2016年,英国计算机协会(ACM)将年度计算机行业的诺贝尔奖——图灵奖,颁发给了当今最伟大的科学家蒂姆·伯纳斯-李。

万维网是一个资源空间,通过互联网访问。每一个有用的事物称为一种“资源”,由一个局域“统一资源标识符”(URL)标识,资源通过超文本传输协议(Hypertext Transfer Protocol)传输给用户,而后者通过点击链接来获取资源。万维网常被认同为因特网(Internet)的同义词,其实万维网是通过因特网运行的一项任务。WWW为全世界的人们提供了查找和共享信息的手段,世界上各种组织机构、科研机关、大学公司均热衷于研发使用此项信息集合,基于Internet的信息查询使人们便捷地享用些类信息集合。WWW已实现了令计算机网络上的用户提供相互兼容的手段,用简单方式去查询各类媒体,是真正意义上的全球超媒体网络,改变着人们观察和创造信息的手段。WWW起源于Internet之中,后成为因特网的一部分,通过万维网的加入,可以使每一个人能够在瞬间抵达世界的各个角落,只要以有线或无线的形式连接PC,此刻全球的信息就在你的指尖上。WWW并不是实际存在于世界的某个地方,使用者每天都在赋予它新的含义。Internet社会的任何人,都可以将自己想要公布的信息,以主页(Homepage)的形式嵌入到WWW的网页上,包括所有的媒体形式,内容无所不有。随着手机无线上网的迅速发展,人们正在将WWW和WAP并称,WAP已成为无线移动终端信息服务的事实标准,其发展和应用无可限量。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈