首页 理论教育 南亚国家网络信息检索导论中的互联网基础

南亚国家网络信息检索导论中的互联网基础

时间:2023-08-08 理论教育 版权反馈
【摘要】:IP地址现由互联网名字与号码指派公司ICANN分配。纯文本的这种信息组织方式,很难适应人们在互联网中交换信息的要求,于是人们研究出了超文本标记语言HTML。

南亚国家网络信息检索导论中的互联网基础

(一)TCP/IP协议

为了保证计算机网络中每台计算机都能正常通信,就必须有一套网络中各个节点共同遵守的规程和约定,这些规程和约定就是网络协议。

TCP/IP协议是在Internet中使用的通信协议,是以传输控制协议TCP(Transmission Control Protocol)和网际协议IP(Internet Protocol)为核心的一组协议。其作用是连接在Internet中的每台计算机,不论是否属于同一类型,也不论是否使用相同的操作系统,都能方便地进行数据传输和实现资源共享。

(二)IP地址域名系统

为了在网络环境下实现计算机之间的通信,网络中的任何一台计算机必须有一个不允许重复的地址,这个唯一的地址将保证数据传输准确无误。Internet用两种方法来标识网络上的计算机,即Internet地址(IP地址)和域名系统。

1.IP地址

IP地址是指互联网协议地址(Internet Protocol Address),又译为网际协议地址。IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理地址的差异。

IP地址是一个32位二进制数字,通常表示成4组十进制数字,每个数字可取值0—255,其间用“.”号间隔。如百度首页的IP地址是202.108.22.5。

IP地址现由互联网名字与号码指派公司ICANN(Internet Corporation for Assigned Names and Numbers)分配。

IP地址分为A、B、C、D、E五类,它们适用的类型分别为:大型网络、中型网络、小型网络、多目地址、备用。其中A、B、C较为常用,D、E类为特殊地址。

表1-1 A、B、C三类IP地址

2.域名系统

Internet的域名结构由TCP/IP协议中的域名系统(DNS)进行定义。Internet使用一种称为域名的层次命名方式。整个Internet划分成多个顶级域,每个顶级域都有规定了的国际通用域名。顶级域名的划分有两种方式:一是根据所从事的行业领域;二是以国家或地区代号作为顶级域名。

表1-2 通用顶级域名

表1-3 南亚国家顶级域名

域名的一般结构如下:“计算机主机名.机构名.网络名.最高层域名”,每个层次为域,各个层次之间用“.”号分隔,从左向右域名层级逐级上升。如,新浪网域名为:www.sina.com.cn,其中www表示这台主机的名称,sina表示新浪网,com表示商业,cn表示中国。在域名中不区分大小写字母,域名在整个Internet中是唯一的,当高级域名相同时,低级子域名不允许重复。

Internet实际使用的是IP地址,一个IP地址可以对应多个域名或无域名,但一个域名只能对应一个IP地址。例如:中央电视台的Web服务器IP地址是202.108.249.206,但它有2个域名,分别是www.cctv.com和www.cctv.com.cn。

3.DNS

DNS(Domain Name System)域名系统,是一种组织成域层次结构的计算机和网络服务命名系统。它用于TCP/IP网络,最主要用于Internet中通过用户的友好名称来定位计算机和服务。当用户在应用程序中输入DNS名称时,DNS服务可以将此名称解析为相关的其他信息。

比如,用户在访问北京大学网站时,在浏览器地址栏中敲入一个很容易记忆的友好名称(域名):www.pku.edu.cn即可。但是计算机在网络上通信时,只使用数字的IP地址:162.105.129.12。显然,IP地址要比域名难记得多,人们更喜欢使用容易记忆的域名来访问网站。DNS可以使IP地址与域名之间建立起映射关系。

(三)统一资源定位器

为了确定具体信息资源在网络中的位置,Internet使用统一资源定位器(Universal Resource Locator,URL)来描述具体资源和位置。URL的组成结构为:应用协议、主机地址以及文件名。其中,主机地址可以是域名,也可以是IP地址。URL的一般格式如下:

协议+“://”+主机域名(或IP地址)+路径及文件名

如访问百度首页可以输入“http://www.baidu.com”,也可以输入“http://202.108.22.5”。

1.WWW

WWW即World Wide Web,又称为万维网、3W等。WWW起源于1989年3月,是由欧洲量子物理实验室所发展出来的主从结构分布式超媒体系统,其特点是可以方便迅速地浏览和传递分布于网络各处的文字、图像、声音和多媒体信息。访问WWW信息资源服务器时激活的第一个页面称为主页,每个主页都是超文本的。

2.超文本

在互联网中每一文件在描述一定主题的同时还涉及许多其他概念,这些“其他概念”又被其他文件作为它们的主题内容予以描述。超文本(Hypertext)就是在这个文件所包含的这些概念与描述这些概念的其他文件之间建立一定的链接关系,并通过一定机制标记这些链接关系,帮助用户在浏览文件时使用简单方法直接调用描述这个概念的另一个文件。(www.xing528.com)

在传统的纯文本中,我们只能看到文字信息本身,不能进行字号的变换、字体的着色,也不能添加图形、声音、动画,更不能链接到其他相关的文本。纯文本的这种信息组织方式,很难适应人们在互联网中交换信息的要求,于是人们研究出了超文本标记语言HTML(Hyper Text Markup Language)。超文本(Hypertext)和超文本标记语言(HTML)是组织WWW信息资源的重要方式和手段。HTTP(Hyper Text Transfer Protocol),即超文本传输协议,是WWW客户机与服务器之间的应用层传输协议。

(四)网站

网站(Website)是指在互联网上,根据一定的规则,使用HTML等工具制定并展示特定内容的相关网页的集合,这些网页通过超链接联系起来。简单地说,网站就是互联网上一块固定的面向互联网用户发布信息的平台,包括网站地址和网站空间两个部分。

根据网页的性质,可以分为静态网站和动态网站。静态网站是没有采用任何脚本程序开发的网站,其网页完全使用HTML语言编写,无法直接在网络上更新内容。动态网站则有一个网站管理后台,以管理员的身份登录后,可以对整个网站的内容进行修改,并在互联网上即时更新。

1.网页

网页(Webpage)是计算机连接网络时,浏览器窗口中显示的一个页面,是网站的基本组成单位。网页是一个实实在在的文件,存放在服务器中。当用户输入访问命令,网页文件通过互联网进行传输,并显示到用户屏幕上。

2.主页

网站的首页被称为主页(Homepage),一个好的主页是网站成功与否的关键。一般来说,主页包含站点名称、网站标志和主要服务项目等信息。不同类型的网站,其主页风格也不相同。例如导航类网站的首页,按照类别将各种网站的信息整齐排列;门户网站则以丰富的信息量和栏目导航为主;搜索引擎网站的主页则通常简洁明了。

(五)浏览器

浏览器是浏览Internet信息的客户机软件,又称万维网导航工具,是用于检索、查询、采集、获取和管理网络信息资源的一种交互式应用软件。浏览器不只是浏览Web页面,它还可以用来收发电子邮件、阅读新闻、下载文件以及播放音乐、动画、视频等。目前比较流行的浏览器有微软公司的Internet Explorer(IE)、谷歌公司的Chrome、Mozilla公司的Firefox、苹果公司的Safari等。美国网站通信流量监测机构StatCounter的数据显示,2012年7月,谷歌Chrome全球市场份额达到了33.8%;微软IE紧随其后,为32.04%;Firefox为23.7%;苹果Safari排名第四,为7.12%。

下面以IE浏览器为例,简单介绍几种浏览器使用技巧,以帮助用户更好地利用网络信息资源。

1.保存网页

在Internet Explorer中,可以通过“文件”下拉菜单的“另存为”一项将当前页面的内容保存到硬盘上,既能以.HTML文档(.HTM/.HTML)或文本文件(.TXT)的格式存盘,又能实现完整网页的保存。在“文件名”框中键入网页的文件名,在“保存类型”下拉列表中选择“Web网页,全部(*.htm;*.html)”选项,可将当前Web页面中的图像、框架和样式表全部保存,并将所有当前页面显示的图像文件一同下载并保存到一个“文件名.file”目录下。Internet Explorer还将自动修改Web页中的链接,方便用户进行离线浏览。最后,单击“保存”按钮即可。

2.收藏夹

将网页添加到收藏夹列表。用户需要再次打开该网页时,单击工具栏上的“收藏夹”按钮,然后单击列表中的快捷方式。

将网页添加到收藏夹栏。将经常访问的网站放到收藏夹栏中,单击一下就能访问这些网站。

3.主页

如果用户有一个需要首先访问的入口网页,则可将其设置为主页。如果用户有多个需要经常访问的入口网页,可将这些网页设置为一组主页选项卡,使其在每次启动Internet Explorer时显示。

4.历史记录

如果需要访问最近浏览过的某个网页,但是没有保存其链接,可以单击工具栏中的“收藏夹”按钮,然后单击“历史记录”。

(六)搜索引

随着信息时代的到来,Internet上的信息资源呈爆炸式的增长,并且分散存储在全世界各个地方的服务器中。用户无法获知所有服务器的地址,那么如何迅速方便地找到自己所需要的信息呢?搜索引擎正是为解决这个问题而出现的。

搜索引擎本身也是Internet上的一个Web站点,它的主要功能是在Internet上主动搜索Web服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中。当用户输入与所需信息相关的关键词时,搜索引擎会给用户提供包含该关键词的所有网页,并提供访问该网页的链接,用户通过这些链接可方便快速找到自己所要的信息。

目前网络上的搜索引擎一般可分为两类:

1.通用搜索引擎

通用搜索引擎在国外代表有谷歌(Google),国内则有著名的百度,用户可用其查找广泛综合性的信息。这些搜索引擎从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

谷歌主要收录大级别网站的页面,按照一定程序对输入关键词进行排名,搜索响应时间较快,支持中英文检索,可进行关键词检索、词组检索和高级检索,不区分英文字母大小写,所有字母均当作小写处理。谷歌界面简洁、检索精确度高、质量高,是目前国际使用最广泛的搜索引擎之一。

百度是当前国内最大、使用率最高的中文通用搜索引擎,其功能完备,搜索精度高,在支持中文搜索方面甚至超过了谷歌。

2.垂直搜索引擎

垂直搜索引擎是专为查询某一学科或主题的信息而产生的查询工具,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎的特点是“专、精、深”。垂直搜索引擎往往是针对某一个行业的,多为专业化搜索引擎,相比较通用搜索引擎的海量信息无序化,其为用户提供的不是成百上千万个相关网页,而是范围极为缩小、极具针对性的具体信息,如物流搜索、CNKI文献搜索等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈