档案信息的资源建设
信息资源的开发利用是信息化建设的核心,是信息化工作取得实效的关键。但是我国信息资源的开发利用还存在着开发不足、利用率低、效益不高、滞后于信息化建设的应用、滞后于社会经济发展的需要、政务信息公开进展不快、跨部门信息共享困难、公益性信息服务供给不足等亟待解决的问题。
在知识经济时代和信息化社会中,信息资源已成为继能源之后的最为重要的社会资源,可以说,在世界信息化、网络化浪潮的冲击下,每个民族、每个行业、每个组织都面临着生存的巨大压力。要么革新自强,要么被时代抛弃。随着信息时代的到来,作为“信息之源”的档案信息,只有适应新的社会环境的要求,实现档案的信息化管理,充分融入信息化网络世界中,档案信息才会在信息化社会中得到重视,其价值才会不断提升。
信息资源建设是档案管理的核心问题,信息资源建设是档案信息化建设的基础,离开了信息资源的建设,档案建设就成了一句空话,档案信息化建设也就成了纸上谈兵。档案信息资源的基础是信息技术的应用。
1.档案信息资源包括的主要内容
(1)现存的馆藏档案:是目前最重要的信息资源来源,馆藏档案的数字化是现阶段档案信息化建设的主要内容,也是档案信息化建设最基本的基础资源。
(2)归档的电子文件:对机构电子文件的接收和管理是档案信息资源扩大的主要来源,同时也是信息化建设的重要内容之一。
(3)网络信息资源的获取:档案信息资源建设是我国国家信息资源建设的一个部分,它不可能单独完成,档案信息资源建设要想有新的发展,就必须不断更新管理理念,不断的扩展自己的工作思路和工作范围,要做到不但能提供档案信息资源,而且还能提供其他信息资源。
(4)技术资源和人力资源:档案信息资源不仅包括信息内容本身,还包括技术人员、信息技术、信息系统以及信息管理人员的管理和培训等。
2.档案信息资源建设的原则要求
(1)标准化原则。制定统一的标准、规范的管理制度,是档案信息资源建设的重要原则,是档案信息资源能够上网利用的前提条件。标准化原则的要求是:需要数字化处理的档案信息资源必须按照规定的技术模式、文本格式和工作标准进行,避免因存储格式和软件平台的不同而进行转换所造成的资源浪费,提高信息存储传输的效率。
(2)系统性原则。档案信息资源的建设是一个涉及面广、历时较长的庞大的系统工程,它是国家信息化建设的重要组成部分,是信息化建设战略的一个子系统,以系统原则应对社会利用档案的需求,与社会经济基础及信息技术的发展步调一致,设定阶段的目标和远景目标,处理好局部与整体的关系,与整个信息化建设工作一同协调发展。
(3)安全性原则。安全是信息化建设的首要条件,是信息化建设顺利进行的前提条件。安全性原则主要包括三方面的内容:一是在档案信息化建设的过程中,确保档案原件的物理安全;二是在信息化建设的过程中确保信息原件的原始性;三是在使用的过程中,要做好档案信息的安全保密工作。
(4)高效率原则。档案信息化建设涉及的面比较广,需要花费大量的人力、物力,更需要投入大量的经费,因此必须考虑工作的效率和效益。首先要制定档案信息化的最佳实施方案,包括工作的流程、技术模式、数字化加工系统设施等。其次确保上网信息的规范和信息的安全维护。
3.档案信息资源建设的系统结构
档案信息资源建设的系统结构主要包括数字化处理工作、数字化处理子系统、数字存储子系统、数字信息的发布子系统四部分。
(1)数字化处理工作。档案信息从数字化处理角度可分为符号信息、静态视频信息、动态视频信息和音频信息。每一种信息的处理方式是不同的,因此要针对档案具体情况,制定合适的处理方案,最大限度地将档案实体上所负载的信息保留下来。档案信息数字化前的准备工作,对档案信息的质量起着至关重要的作用。
(2)数字化处理子系统。数字化处理子系统是整个系统的核心部分,它利用各种设备系统对不同类型的档案信息分别进行处理,然后输入数据库,进行必要的组织和管理。其包括:对现有馆藏档案的数字化处理系统,对非数字化档案如纸质档案、照片、微缩胶片、音频材料等,采取不同的方法进行数字化处理,使之成为统一的数字化档案信息。电子文件的处理系统,包括对电子文件的接收和实行统一规范的管理,以及提供网上查询和检索等利用服务。数字存储子系统。数字存储子系统任务可以安全地保存数字化档案信息资源,并对其留有必要的备份。数字信息可以按不同类型存储在各类数据库和文件系统中。数字信息发布子系统。数字信息发布子系统的任务是通过多种方式将数据库传输给数字化档案信息的最终宿主。这需要输出子系统具备适应各种要求的数据传输方式及安全可靠的宽带网络。
4.档案信息资源数据库的建设
数据库建设是档案信息资源建设的重要内容,档案信息化建设必须把数字化的档案信息资源的积累作为核心工作来规划和开展,于是提出了档案信息化的工作内容,有了数字化信息又必须很好地管理起来,于是又提出了档案信息资源数据库建设任务。数据库既是信息资源管理和开发的重要手段,又是信息资源开发的主要表现形式,从信息的采集到信息的加工、存储,再到信息的输出的整个信息系统运行过程中,数据库处于核心地位,是整个系统结构的核心部分。
档案信息资源数据库是档案信息化建设工作的核心部分,档案信息的数字化、网络化工作都要围绕着数据库建设来进行,其工作结果也都要存储在数据库中。数据库是数据的集合,数据的质量对于数据库的质量起着实质性的作用,其建设要以国际、国家标准为依据,数据质量必须得到保证。
(1)数据的规范性:要保证存储的是规范、标准、准确的数据。数据准确是对档案数据库的最基本要求:档案数据库的数据著录项目要符合规范要求,目录数据的建设要求要依照事先确定好的著录标准进行数据库建设。
(2)数据的稳定性:档案数据库建设中的数据库结构、数据著录标准确立后,不宜轻易变更,以维护数据的稳定和数据规范的连续性。
(3)数据的有效性:要采用通用的文件格式标准记录档案数据,特别是对文本、图形、图像、数据表、声音、视频等全文信息,要采用标准或通用格式进行记录,减少未来有可能进行的数据存储格式转换和数据迁移的成本,杜绝馆藏数据无法读出的现象发生。
(4)数据的创新性:档案数据库要不断增加新的信息,以提高信息数据的实用性和价值。档案信息管理的数据必须做到数据统一性,即数据标准一致,数据库管理软件兼容;另外还要具有扩容性,随着信息化建设的不断深入、工作内容的不断变化,应扩大数据库内容所包括的范围,只有对数据库进行相应的调整才能适应不断变化的实际需要。最后是集成性,即数据库存储数据主要分为档案信息和档案工作信息两部分,这些信息是互有联系的,根据工作需要能够生成新的数据。
目录数据库的建立。是档案信息数字化的基础工作,也就是把案卷目录、卷内文件目录输入数据库,实现案卷级目录的计算机化管理,以提高检索速度与查准率。目录信息数据化是档案信息数据化的前提,其建设的目的是发挥计算机强大的检索功能。因此编目工作的标准化,采取标准的著录项目、统一著录格式、统一数据录入的标准,建立标准的检索语言对于信息的利用效率起着至关重要的作用。
目录数据库的建立需要投入大量的人力、财力,和物力,因此它是一项非常艰巨的工作,它需要依赖人工对档案信息进行著录、标引和处理,确保目录数据的准确性。要建立高质量的档案目录数据库,不仅需要确定档案著录项的数据格式,而且需要选择数据库管理系统。
在完成档案目录数据库设计之后,更大量的工作是著录标引和信息录入工作,档案著录工作必须讲究规范、标准、准确。
全文数据库的建立。档案全文数字化是把档案文件的全部信息输入计算机,实现计算机管理和查阅。档案全文数字化生成后,就要对数字化档案信息进行存储、管理。
档案全文数据库,是存储、组织管理数字化档案信息的应用系统,包括档号、责任者、题名、正文、形成时间、密级、保密期限、数量、载体、单位、编号等数据项。档案全文数据库所管理的对象,不仅包括数字化处理的传统馆藏档案,而且包括本身就以数字化形式生成的电子文件如各类文本、表格、图形、图像、数据库、网页、计算机程序、音频和视频等格式文件。应用环境不同,系统软件不一,生成的文件格式也会不同,因此必须确定电子文件的元数据标准和存储格式以规范全文数据库的组织与管理。
档案全文数据库建设的原则以用户为中心,以馆藏一次文献为特色,建立标准统一、检索功能良好、高质量的全文数据库。
全文数据库的构建一般包括以下几个过程:
(1)数据的收集与整理。是指对加载到全文数据库中的数据进行收集、整理等预先的处理过程。加载到全文数据库中的数据的获取方式:一种是图像扫描录入,这种录入方式的特点是,能够保持文件的原貌和不被修改,但占用存储空间大,不能进行文字检索,只能通过目录检索到全文,经过转换可以直接下载、打印所需要的内容;一种是文本键盘的录入,占用存储空间小,存取速度快,可以直接进行全文检索,但工作量大,而且对其真实性容易产生怀疑。
(2)文本的预处理。数字化的档案格式是多种多样的,需对其标准化处理,使档案信息的格式规范化,并对数字化的档案进行统一标准的著录与标引。
数据的加载是指数据采集好并经过处理后,加载到数据库管理系统实行统一集成管理。
(3)数据检索。档案全文数据库建成后,可根据全文检索系统提供的功能对数据库进行检索。
(4)数据的维护。全文数据库建成后,需经常对数据库的内容进行索引、更新、追加和清理,以保证数据库的使用性、有效性和实用性。
全文数据库的建立是一项复杂的前沿技术,立项的档案全文数据库应具有以下基本功能:具有快速跨库查阅和访问的功能;具有对不同类型、不同格式的多媒体档案信息的获取、存储的能力;具有对数字档案信息的访问和使用进行许可、控制和监督的授权管理功能;网上发布功能。全文存储的目的是为了网上利用,网上发布是全文数据库具备的重要功能。建构功能完备的档案全文数据库不同于建构档案目录数据库,系统的设计十分复杂。此外,全文库数据为海量存储系统,其存储信息可能具有异地分布、异种数据库等特点。这些要求和特征,使得全文数据库的设计必须综合利用许多前沿技术,如超大规模数据库技术、网络技术、多媒体信息处理技术、分布式处理技术、安全保密技术、可靠性技术、数据仓库与分析处理技术、基于内容的分类检索技术、信息抽取技术、自然语言理解技术。