档案数字化加工与方案

档案室、档案馆 馆藏档案扫描、数字化加工 整体解决案 目 录 第一节质数字化加工作业前期准备1 一、数字化工作人员准备1 二、数字化工作软件、硬件准备4 三、确定数字化容、数量及用户需求5 第二节数字化加工流程及主要技术案6 一、入库提卷、拆卷6 二、标引著录7 三、档案扫描8 四、图像处理11 五、全文OCR、生成双层pdf、板式还原及格式12 六、总质检14 七、批量挂接15 八、还卷及数据备份提交15 第三节质量控制案和保证措施17 一、加工质量保障措施17 二、多环节,多层次的质量检查体系17 三、阶段性验收与终验相结合的格验收程序是质量控制的终级保障19 第四节安全保密控制21 保密协议22 第五节 售后服务24 项目背景 随着全国文化信息资源共享工程与中国数字图书馆工程的起动,信息化已成为国际潮流,信息资源建设成为当务之急。信息资源建设的重点是电子文献、各类数据库、网络资源、电子档案、电子图书等新型数字化信息资源的建设。在数字化信息资源建设中,很大的一个需将现有的纸介质印刷品数字化,使之成为能够用计算机阅读、理解、查询、检索的电子文件,最终将其应用于数据库存储,或通过CD-ROM、Internet网进行出版,或上传数字档案馆供用户使用。

以传统纸为载体的保存式,占据了大量的空间,需要特殊的环境,而且不便查询,随着时间的推移,还面临着腐蚀、老化等问题。而将纸介质文件信息进行电子化处理,保存到光盘上,具有存储、管理、共享等功能,还可以减少文件库房占地,节省保管设备和人员面开支,又便统计和进行远程查询。

因此,将档案、期刊、文件等资料通过扫描仪,扫描成图像文件,再通过处理转换成电子文档,建立目录和索引,制作成电子文件,已是当务之急。

第一节 数字化加工作业前期准备 一.数字化工作人员准备 1 .甲人员 职务现场交接管理人员 人数要求一名 专业要求为学校档案馆负责档案管理工作的技术或管理人员。

职责围 ①.负责与乙的档案提卷和还卷等交接工作,协同甲人员作好交接清单记录并签字。

②.负责监督乙规化加工。

③.随时把握乙加工进度并进行协调。

④.及时关注并抽查乙加工质量 ⑤.代表甲与乙进行及时的沟通及问题协调,确保项目顺利完工。

2 乙人员 2.1.管理人员 主要为熟悉现场加工管理,熟悉数字化整体作业流程,具有较强组织能力和现场管理及沟通能力的乙负责人。

2.2.工程技术人员 主要为熟悉计算机软、硬件技术,了解档案数据库标准和系统开发。了解档案管理等相关专业知识的乙技术部技术支持工程师。

2.3 数据采集作业员 主要为了解档案数据库数据标准和计算机软件应用等相关知识的乙数字化制作部工作人员。

职务 职责 人员 备注 管 理 人 员 项目负责人 1. 负责人员,资源的调配工作。

2. 负责施工组织设计、管理。

3. 负责施工条件的保障及与甲乙双关于项目进展状态的汇报和协调工作。

1人 项目负责人不一定要常驻现场,但要通过一切通讯手段和定期到现场的督导,切实做到对该项目加工进度和加工质量的掌控 现场主管 1.负责与乙的档案提卷和还卷等交接工作 2.负责现场的人员管理和加工管理 3.负责数据的终验和挂接 4.配合项目负责人做好与乙的沟通协调工作。

1人 数 据 采 集 人 员 著录人员 负责将档案卷目录及其它索引信息进行手工录入为电子数据信息并校对 1人 扫描人员 负责按制定的技术规将档案资料扫描 1人 图像处理人员 1.去污将扫描获取的图像进行图像去污;去黑边及去杂点等;

2.纠偏将偏斜的图像进行纠正处理; 3.文字处理将不清楚的文字进行加深或变浅;

4.拼接将页面较大的图像进行拼接处理;

1人 在进行图像处理的时候,肯定是逐页处理,所以要留意每一页扫描的质量,发现扫描质量问题立即发还上一工序重扫并作好记录。

图像矢量化人员 1.负责将处理好的图像进行全文识别、 2.校对、板式还原和格式转换 3.对已经产生的成品数据进行初验后移交给现场主管终验并挂接。

1-3人 矢量化人员最终定员需结合矢量化的图形数量和采集难度。

人员安排见表3-1 二. 数字化工作软、硬件准备 1.配备硬件数量及档次要视数据采集工作情况及数据量大小。

2.甲提供PC机4-6台给乙作为采集作业使用,其他硬件设备由乙自行解决。

3.场地甲提供。

4.办公用具甲提供打印机(以实际用量为标准)﹑办公桌椅﹑档案资料的装订及打印机所用的全部耗材。

5.其他条件提供电力和饮水。

软硬件准备详见表3-2 表3-2 软、硬件配备列表 软、硬件名称 数量 详细配置 响应时间 提供 综合档案管理系统 一套 1. 需支持全文检索使用功能。

2. 支持TIFF和PDF格式数据的批量挂接功能。

项目开始需到位 甲 数字化流程管理和加工软件、OCR软件 全套 能满足本加工项目所有的技术要求 项目开始需到位 乙 服务器 一台 项目开始需到位 甲 扫描仪(A3幅面) 一台 富士通 A3幅面 FI-4750CADF 项目开始需到位 乙 扫描仪(A4幅面) 一台 A4幅面 虹光-FB6030 平板 项目开始需到位 乙 计算机 4-6套 PC机 项目开始需到位 甲 三. 确定数字化容、数量及用户需求 在数据采集之前,首先要客观真实统计数字化容和数量,确定用户使用需求,然后制定对应案和技术控制以便准确地进行施工安排。

表3-3 三峡大学档案馆档案数字化用户需求调研表 档案类型 档案数量 数字化准备情况 纸及保存情况 用户需求 备注 招生名册 约 件 约 面 学籍档案 约 件 约 面 学生成绩 约 件 约 面 党群档案 约 件 约 面 基建档案 约 件 约 面 科研档案 约 件 约 面 其它 约 件 约 面 窗体底端 填表人 职务 第二节 数字化加工流程及主要技术案 档案数字化加工主要流程包括提卷-拆卷-档案著录-扫描-图像处理-OCR-校对-版式还原-转双层PDF-终验-挂接。

图一 档案数字化加工流程图 一、 入库提卷、拆卷 1. 从档案室移交档案,格执行原始档案的交接手续,使用双项目负责人确认的档案交接清单(完成清点登记)。

2. 档案整理编写页码、核对纸质档案页码、对可拆钉的文件做拆钉处理以适应扫描的要求、对需要修复的档案进行归并整理(如果发现破损重,无法直接进行扫描的档案,应先进行技术修复、折皱不平影响扫描质量的原件应先进行相应处理后再进行扫描,发现破损重的档案须立即报知项目相关负责人)制作卷目录,扫描文件抽取 3按照扫描处理量明确交接期和档案交接量(双项目负责人签字,以保在施工过程中档案不损失、不丢失。) 4装订案卷应保证装订牢固,案卷整齐,卷材料不松动,脱落,保持与原案卷一致。

图二 二、 标引著录 按要求将文件所需信息录入到软件数据库里,标引著录按照档案局有关标准结合用户档案著录的具体要求进行。

1. 录入式 采用手工录入的式 2. 校对式 校对以软件校对和打印输出、对比校对相结合,错误率在万分之二以下。

案卷目录和卷目录按照档案的原始数据录入。卷案目录和卷目录的样式经用户同意可做相应调整。对档案目录数据修改和补充的数据,须填写更改资料、更改资料放入原案卷,卷目录及其他不全的需补充完整。

三、 档案扫描 1. 扫描式根据档案幅面的大小选择相应规格的扫描仪或专业扫描仪进行扫描。大幅面档案可采用加长式扫描或者图像拼接处理式处理,同一页面有两个以上文件,需分别扫描。

2.扫描色彩模式以黑白二值扫描为主,附有灰度(彩色)照片及原件分明度很低的档案,可视情况采取灰度和24位真彩色扫描。然后以黑白二值保存。

例蓝底招生名册,此种档案长见为A3幅面、纸很薄,底色与文字的分明度很低。实物档案查看时都显吃力,此种档案如果用黑白二值扫描,则会出现大幅暗面,文字显现不清;
如果使用彩色扫描,文字部分明度很低。只有使用灰度扫描,效果相对好一些,如图三。扫描后的图像再辅以黑白二值保存,则最大限度的提高了图像质量,如图四。

图三 灰度扫描效果 图四 保存为黑白值后的效果 3.分辨率无全文检索需求的文档分辨率调整为200DPI最为合适。需要全文检索而做ocr识别的文档,黑白二值扫描分辨率最佳为400dpi,此分辨率下识别成功率最高。24位真彩色扫描分辨率标准为200dpi。

4.图像文件的大小黑白二值扫描A3页面20K40K;
灰度或彩色扫描A3页面100150K。

5.如遇字间距和行间距过密、原件本身是复印件等字迹不清楚的情况,可适当增加扫描的分辨率,但要保证图像清晰的同时,又不影响远程查询和浏览的速度。

6.清晰度扫描图像字迹清晰、颜色恰当,不宜过浅或过深,并且不得出现字迹笔画残缺或字迹笔画叠合而影响阅读的情况,即使原档案存在锈斑变质、颜色过浅或深浅不一致,也保证扫描图像可读,扫描留下的墨迹宽度不得超过0.5厘米,并且指印和黑线不能覆盖或影响正文容。

7.根据档案实体情况,在档案电子文件中相对应目录设置“复制件”、“原件不清”标志。目录以原有档案目录为准,在实际处理过程中著有未归类的新目录。可根据情况修改目录,增加或调整标准目录,对档案原目录数据修改或补充的数据,需填写更改资料,更改资料放入原案卷,能实现一条目录对应多个图像和一个图像对应多条目录的编目。

8.图像容 8.1实时在屏幕上监控扫描全过程,遇有漏扫、重,图像黑边、偏斜、折角、不清晰等情况,则进行重扫或补扫。

8.2检查扫描件是否合乎要求,扫描图像必须与原图页面一一对应,不得出现颠倒、缺页、重页或错页情况,不能有遗漏、重复,扫错的现象 8.3扫描的页面容居中显示,不可出现明显偏左或偏右的现象,正文容、页眉、页脚、反面印章、附件、手写注释等信息完整;
图像容与书本面完全对应,不得出现书页容残缺或将旁边页面信息扫入本页的现象。(对图像黑边、偏斜、折角、不清晰等情况进行处理,以达到用户需求)