5.3.2 检索技术
5.3.2.1 计算机检索的基本技术
计算机检索的基本技术包括布尔逻辑检索、位置检索、截词检索、括号检索、字段限制检索、短语检索、自然语言检索、多语种检索、模糊检索、字母大小写检索等。
(1)布尔逻辑检索
逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符,即:与(常用AND或*表示)、或(常用OR或+表示)、非(常用NOT或-表示)三种运算符号,用它们可以表示概念之间的逻辑关系:
逻辑与:如A*B,表明一篇文献中A和B必须同时存在;
逻辑或:如A+B,表明一篇文献中A或B必须存在,也包含同时存在;
逻辑非:如A-B,表明一篇文献中包含A但不包含B。
(2)位置检索
位置算符是表示检索词之间位置关系的一种运算符。由于英文对一句话有多种表达方法,写法可能不同,如:“GPS在铁路桥中的应用”这个课题,用英文表达可能是“Using of GPS in Railway Bridge”,也可能是“Using of GPS in Bridge of Railway”,我们可以通过位置算符来限定Railway和Bridge两个词之间的前后顺序和相隔距离来提高检索的准确率。因不同数据库使用的位置算符并不完全相同,表5.2仅以Dialog国际联机检索系统为例,阐述位置算符的用法。
表5.2 Dialog国际联系检索系统使用的位置算符
续表
(3)截词检索
在英语词汇中,一个词可能有多种形态,如单复数形式的不同、英美拼写方法的不同、词性不同等。如果检索时遗漏了某些形式,就可能造成漏检;而将这类词作为检索词全部列出,不仅不太可能,而且还会增加检索时间。此时,采用截词检索即可解决这一问题。
所谓截词检索,是指在检索标志中保留相同的部分,用相应的截词符代替可变化部分。检索中计算机会将所有含有相同部分标志的记录全部检索出来。截词符常用“?”、“*”等符号表示。
●有限截断
即在检索词后截几个有限的字母,一个字母用一个截词符代替,多个字母则用多个截词符代替。例如:
输入computer??表示有0~2个字母变化,可检出computer、computers等。
输入stud???表示截断处有0~3个字母变化,可检出study、studies、studied、studying等。
●无限截断
在检索词后加一个截词符,表示该词后可加任意个字符。使用无限截词,所截词根不能太短,否则会输出许多无关文献,造成误检。例如:
输入computer?可检出computers、computering、computered、computerization。
●中间截断
在检索词中间加一个或几个截词符,主要用于检索一些英美拼写不同,或单复数形式不同的词。例如:
输入wom?n可检出woman、women。
(4)括号检索
用于改变运算的先后次序,括号内的内容做优先运算。
例如:(GPS OR GIS)AND China与GPS OR GIS AND China所表达的含义完全不同。前者表示中国的GIS或者中国的GPS,强调必须满足中国这个条件;而后者表示GPS或者中国的GIS,这里GPS方面的文献并没有要求必须是中国的。
(5)字段限制检索
组成数据库的最小单位是记录,一条完整记录中的每一个著录事项就是一个字段。书目型数据库的记录一般包括以下字段:
●存取号(Access Number,AN),这是计算机检索系统为数据库中的每条记录规定的能被计算机识别的特定号码,在同一数据库中,每条文献记录只有一个存取号;
●篇(题)名(Title,TI);
●文摘(Abstract Field,AB);
●叙词或主题词(Descriptor,DE;Subject,SU),这一字段是标引人员给文献标引的反映其主题概念的词,这些词来自规范化的词表;
●自由词或非受控词(Identified,ID;Keyword,KW;Uncontrolled Term),这一字段也是标引人员给文献标引反映其主题概念的词,但这些词不是规范化词表中的词;
●著者(Author,AU);
●著者机构(Corporate Source,CS或Affiliation Source,AF);
●刊名(Journal Name,JN或Source Title,ST);
●出版年(Publication Year,PY);
●文献类型(Document Type,DT或Type,TY);
●语种(Language,LA);
●分类号(Classification,CC)。
实际检索中,著者姓名的检索格式在各种数据库中有着不同的表示方法。以著名的三大检索系统为例:
在SCI数据库中,姓氏在前,使用全称,名字首字母连写在后,中间以空格分隔。如:Tait NG、LI DR(李德仁)。
在ISTP数据库中,姓氏在前使用全称,名字在后使用缩写。如:E,DC(鄂栋臣);Gong,JY(龚健雅)。姓与名之间用逗号与空格均可,对检索结果没有影响。
在EI数据库中,作者表示方法相对比较多。尤其是中国人的姓名比较复杂,一般有以下几种情况:①姓、名都用全称(姓前名后),是当前采用的标准形式;②姓氏使用全称,名字使用缩写(或名字之间用连字符连接),这是老数据采用的形式,或作者原文就采用了缩写形式;③名字在前,姓氏在后,姓名均使用全称,这是姓名误判的结果。如:ke hengyu=ke,hengyu;ke heng-yu;ke,h.y.=ke,h-y;hengyu ke。
(6)短语检索
短语用“”表示,即可检索出与“”内形式完全相同的短语,从而提高检索的精确度和准确度。因此,短语检索又称精确检索。
(7)自然语言检索
直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。这种基于自然语言的检索方式又被称为“智能检索”,适合不太熟悉网络信息技术的人员使用。英文的AltaVista、Excite、Infoseek、HotBot、AskJeeves以及中文搜索引擎一般都支持自然语言检索。
(8)多语种检索
提供多种语言的检索环境供用户选择,系统按用户选定的语种进行检索并反馈结果。支持多语种检索的如中文的天网、英文的AltaVista、Google等。
(9)模糊检索
模糊检索又称概念检索。主要应用于网络搜索引擎。当我们输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时也显示了与关键词意义相近的内容。比如:我们查找“查询”一词时,模糊检索会反馈包含了“查询”、“查找、”“查一查”、“寻找”、“搜索”等内容的网址。反馈网址的排列,一般是完全符合关键词的在最前边,其次才是相近的。现在大多数搜索引擎都有这种功能,只是模糊的程度不同。
(10)字母大小写检索
如果用户的检索式用小写字母表示,搜索工具既匹配大写又匹配小写,如:输入china,可检索出china(瓷器),China(中国)等;如果用大写字母表示,搜索工具认为用户指定了只要大写,就只会查找那些与用户键入的输入形式完全相同的结果,如:输入China,则只检索出China。Alta Vista等搜索引擎支持区分大小写的检索。
上述检索技术中,自然语言检索、模糊检索、多语种检索和区分大小写检索是网络检索所特有的。在实际检索中,往往将多种检索技术混合使用。
例如:
TI=(Web OR WWW)AND market*检索网络营销方面的文献;
TS=(nanotub*SAME carbon)NOT AU=Smalley RE要求检索除去作者Smalley RE以外的有关碳纳米管研究方面的文献。
5.3.2.2 各种算符在数据库中的实际应用
在数据库的实际检索中,不同数据库有其特定的检索算符和表述方式,逻辑算符基本上都统一使用(AND或*)、(OR或+)、(NOT或-)三种运算符号,而位置算符、截词算符以及个别的字段算符目前还没有一个统一的标准,正在日趋规范化。表5.3重点介绍位置算符、截词算符的不同用法。
表5.3 部分数据库中位置算符、截词算符用法的比较
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。