首页 理论教育 数据库技术在中国索引编制系统中的应用

数据库技术在中国索引编制系统中的应用

时间:2023-08-15 理论教育 版权反馈
【摘要】:使用索引倒排文件可以实现索引编制系统的数据库查询。索引数据库的建设是基于数据库技术开发的一种应用,它随着索引加工技术和数据库信息处理技术的发展而不断发展。数据库技术发展与索引编制系统建设紧密相关,基于数据库技术形成的智能索引服务,可以为传统索引提供一个更为广阔的数字资源和技术应用环境。

数据库技术在中国索引编制系统中的应用

索引编制系统中,索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。搜索引擎的关键步骤就是建立索引表。索引一般表示为一个关键词,然后是它的频度和位置,相当于为互联网上网页做了一个索引,就如一本书的目录,用户想看哪一个主题相关的章节,不必从书的第一页到最后一页的查找,而是直接根据目录即可找到相关的页面。索引编制往往又有不同于目录的特色,例如,可以编制大事记而不受章节目的约束,可以编制人物记而不受书页码限制而跳转,等等。

使用索引倒排文件可以实现索引编制系统的数据库查询。首先,按照需求以人工或智能的方式把文档里的可能成为关键词的词组划分出来,称为文本切词;然后,对于每个关键词建立它的倒排表,然后把所有倒排表按关键词排序存入文件,形成索引倒排文件。文件中除了记录那个关键词对应哪些文档外,还应该有关键词在文档中的出现位置和出现次数等;最后,经常需要对索引倒排文件里的关键词再次建立索引结构。至此,可以基于索引倒排文件将查询变成几个集合之间的交、并等运算而得到最后结果。在数据库中同一字段内截取记录,将截取的记录放到倒排文档中去比较,如果存在此截取记录则只将该记录的记录号输入,如果找不到表明此记录是第一次进入数据库,则将数据与记录号一起写入到倒排文档中。

设原书目数据库文件booklist和主题、作者索引倒排挡文件thelis、aulis结构为:

[booklist]

续表

[thelis]

[aulis]

笔者曾经给出了两个索引倒排文件的自动生成实现编程。这里,探讨一下如何通过上面索引倒排文件快速实现数据库查询。SQL Server 2008[6]将结构化、半结构化和非结构化文档的数据直接存储到数据库中,可以对数据进行查询和分析的操作,还允许使用M icrosoft.NET和Visual Studio开发的自定义应用程序中使用数据,信息工作人员可以通过日常使用的工具直接访问数据。

例如,查询“索引编制”可以在主题倒排表thelis中取出属性值为“索引编制”的首条记录,其包含该编号对应的booklist记录就是所求的数据。以下是用SQL代码实现上述的索引数据库检索示例:

SELECT*FROM thelis,booklist WHERE ZTid=”索引编制”and M ID(jls,1,1)=JLH

继续进行复杂查询,例如,组合查询“索引编制”和“计算机数据库”。可以在主题倒排表中取出属性值为“索引编制”和“计算机数据库”的那些记录,所对应的5个编号集合做“交”运算,最后结果就是我们要找的数据。又如,条件查询主题为“计算机数据库的所有‘煊’姓的数据”,首先找出“计算机数据库”的所有编号集合,然后与作者倒排表中的‘煊包余’那一行的集合做“与”运算,最后联接thelis、aulis和booklist数据库表文件,即可得到正确结果数据。

索引数据库的建设是基于数据库技术开发的一种应用,它随着索引加工技术和数据库信息处理技术的发展而不断发展。运用数据库管理系统创建索引可以大大提高索引编制系统的数据库性能,但增加索引带来新的问题是在建设索引编制系统中所要权衡的。数据库技术发展与索引编制系统建设紧密相关,基于数据库技术形成的智能索引服务,可以为传统索引提供一个更为广阔的数字资源和技术应用环境。

王弘毅 男,1998年生,国际关系学院信息科技学院本科生。兴趣方向:智能信息处理,数据分析,信息安全。(www.xing528.com)

Research on Database Technology Development and Index Com pilation System Construction

Wang Hongyi

Abstract: The construction of index database is an application based on database technology.W ith the development of index processing and database information processing technologies,the application of index database has experienced hierarchical network database,including relational database,network database and large data environment database.Using databasemanagement system to create index can greatly improve the performance of index compilation system.But the new problems it brings should be weighed in the construction of index compilation system when adding index.The developmentof database technology is closely related to the construction of index compiling system.Intelligent index service based on database technology can provide a broader digital resource and technology application environment for traditional index.

Keywords:Database;Index Compilation;Information Technology;Information System

【注释】

[1]论数据库技术的发展史.[EB].http://www.softhouse.com.cn/news/show/229.html 2015.

[2]ISO/IEC DIS 29500标准.[EB].http://www.iso.org/iso/pressrelease.htm?refid=Ref1123.2015.

[3]XML时代离我们有多远?.[EB].http://jpkc.sysu.edu.cn/sjkxt/12/yjfz/XML.doc.2015.

[4]张彬.基于XMLDB的文献档案数字化管理平台[D].上海上海交通大学,2010.

[5]佐佐木达也.NoSQL数据库入门[M].北京:人民邮电出版社,2012.

[6]十月SQL Server2008亮相[EB].https://baike.baidu.com/item/sql%20server%202008/369678?fr=aladdin#ref_[1]_1424964.2017.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈