首页 理论教育 档案全文数据库建设成果

档案全文数据库建设成果

时间:2023-08-08 理论教育 版权反馈
【摘要】:(一)档案全文数据库构建的过程全文数据库的构建一般包括以下几个过程。

档案全文数据库建设成果

档案全文数据库,是存储、组织管理数字化档案信息的数据库系统,既包括档号、题名、责任者、正文、形成时间、密级、保管期限、载体、数量、单位、编号等著录信息,也包括档案的内容信息。档案全文数据库所管理的对象,不仅包括经数字化处理的传统馆(室)藏档案,而且包括以数字化形式直接生成的电子文件(档案),如各类文本、表格、图形、图像、音频、视频、数据库、网页、程序等。应用环境不同,系统软件不一,生成的文件格式也会不同。因此,必须确定电子文件的元数据标准和存储格式,以规范档案全文数据的组织与管理。

(一)档案全文数据库构建的过程

全文数据库的构建一般包括以下几个过程。

1.数据的采集

数据的采集即对加载到全文数据库中的数据进行录入、采集、整理等处理。全文数据的获取方式有三种:一是图像扫描(或数码拍摄)录入。该方法形成的图像信息能保持文件的原貌,但占用存储空间大,不能直接进行全文检索和编辑。二是键盘录入。该方法形成的是文本信息,占用存储空间小,存取速度快,支持全文检索,但是输入工作量大,文本的格式和签署信息容易丢失。三是图像识别录入,即对扫描形成的图像进行OCR识别,形成文本信息。该方法虽然具有上述两种方法的优点,但是OCR识别带有一定的差错率,特别当档案原件字迹材料不佳、中英文混排或带有插图、表格时,差错率较大,而人工纠错成本较高。因此,数据采集要权衡利弊,有选择地使用。

2.数据预处理

将采集后形成的档案数字化成果转换成规范的格式,进行规范化命名,再进行统一标准的著录与标引。采用自动标引技术的系统,还可以从文本文件中直接提取关键词或主题词,辅助计算机检索。

3.数据检索

档案全文数据库建成后,可采用全文检索系统提供的功能对数据库进行检索。

4.数据维护(www.xing528.com)

全文数据库建成后,须经常对数据库的内容进行索引、更新、追加和清理,以保证数据库的实用性和时效性

(二)档案全文数据库的功能

理想的档案全文数据库应具有以下基本功能。

第一,能够获取、存储和使用不同类型、不同格式的档案信息。

第二,能够按照确定的数据结构有效组织大量分布式的不同类型、不同格式的电子文件或扫描件,并为之建立有效的检索系统。

第三,能够快速、正确地实现跨库访问和检索。

第四,能够对全文信息的访问和使用进行许可、控制和监督等授权管理。

第五,能够在网上发布全文数据库数据。

第六,能够集成支持全文数据库管理的各种技术,如超大规模数据库技术、网络技术、多媒体信息处理技术、分布式处理技术、安全保密技术、可靠性技术、数据仓库与联机分析处理技术、基于内容的分类检索技术、信息抽取技术、自然语言理解技术等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈