首页 > 范文大全 > 正文

大数据时代对档案现代化影响和要求

开篇:润墨网以专业的文秘视角,为您筛选了一篇大数据时代对档案现代化影响和要求范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

自20世纪50年代以来,随着计算机、网络和通信技术的迅速发展,人类社会开始由工业社会进入信息社会。特别是20世纪90年代互联网的出现,信息量呈几何级数增长。国际数据公司(IDC)在2011年了新的数字宇宙研究报告(Digital Universe Study)——《从混沌中提取价值》(Extracting Value from Chaos),该报告显示全球信息总量每过两年就会增长1倍。仅2011年,全球被创建和复制的数据总量就有1.82ZB,相较2010年同期上涨超过1ZB,预计到2020年这一数值将增长到35ZB。面对信息爆炸,人们采取了种种应对策略。近些年来,大数据的方法和思想得到了越来越多的重视和应用。在IT界,大数据一词虽然没有统一定义,但是对于它的特征达到了一定的共识。一般认为大数据具有四个方面的特征:一是数据全,即数据包含所有的样本,数据可能体量巨大,也有可能不大;二是数据类型繁多,包括网络日志、文本、图片、音视频、地理位置信息等;三是价值密度低,单位数据信息含量有限;四是处理速度快。人类社会即将或已经步入了大数据时代,它将深刻地影响社会的方方面面。

档案界在档案信息化过程中必须保持对信息技术发展的高度敏感,及时追踪新技术趋势,深入研究各种信息技术引入档案工作的可能性、必要性及其可能带来的积极意义和消极意义。大数据技术和思想对档案信息化工作的影响和要求主要体现在以下几点。

1 促成档案概念的泛化

档案的概念与本质问题是档案学的基本问题,在档案学界已经讨论了多年。冯惠玲、张辑哲主编的《档案学概论》(第2版)中对档案的定义是“档案是社会组织和个人在社会实践活动中直接形成的具有清晰、确定的原始记录作用的固化信息”,认为“原始记录性”是档案的本质属性。虽然在信息时代,早已出现“电子档案”的概念,但是,在电子文件收集、整理、归档和保管过程中依然沿用纸质档案的分类和鉴定方法。在信息稀缺和保存信息代价巨大的纸质时代,甄选和保存对社会和个人具有明显价值的档案是合理的和必要的。许多信息虽然具有“原始记录性”,但因其单位信息价值有限而不能作为“档案”保存的,比如网络访问日志、鼠标在网页上的轨迹、顾客在购物商场里的行进记录等。

但是,在大数据时代,大规模数字存储系统的应用使数据存储的成本越来越低,许多以前不能存储的信息都可以保存下来。当这些价值密度低的数据汇合成PB级别时,人们便可以从中挖掘出价值。商场可以根据大量顾客在商场的行进路线、滞留时间、关注方向等数据来设计商品的布局;日本先进工业技术研究所的专家可以根据人体对汽车座椅施加压力的数据建立模型进行乘坐者身份识别,从而实现汽车防盗功能;当收集了大量的机械运行时产生的震动、温度、转速等数据后,就可以建立预测模型,在机械故障发生之前消除存在的隐患。这些价值密度低的原始记录在大数据时代整体上便产生了巨大的价值,具有了档案的完全属性。这促使学者重新审视“电子档案”的范围。

学者们一般把“档案”定义为事件结束后经过整理归档的文件,且将档案分割为小的相对独立的信息单元。在信息化时代,记录即是档案,数字化的记录一旦生成便变成了不可删改的档案。广泛应用于社会实践的税务管理系统、户籍管理系统、车辆交通管理系统等实时地将“记录”转化为“档案”,而每一条记录都将变成具有长期保存价值的档案,这些单位价值密度低的记录信息将作为不可分割的整体来发挥档案的价值。在大数据时代,档案概念存在着严重的泛化问题,不能不引起关注。

2 有利于破除档案信息化难题

档案工作不管对于国家还是社会组织、企业来说都是一项基础服务性质的工作。档案工作长时间以来都存在着效益滞后的问题,使档案信息化工作陷进投入资金不足、领导重视不够的困境。财政对档案信息化建设的投入,是以获得良好的效益为前提的。传统纸质信息时代对大量的档案信息资源进行分析整合开发需要耗费巨大的人力物力。大数据时代的到来使这一问题迎刃而解。只要拥有良好的数字资源基础,计算机快速处理海量的不同类型信息的能力就能够快速地廉价地挖掘档案信息资源潜在价值,为经营和管理决策服务,从而产生看得见的效益。

长期以来,档案信息化没有明晰的总体规划方案。人们普遍认为,“档案数字化的目的不外乎两个:为保护档案尤其是濒危档案而制作数字化副本;为实现网络环境下的档案信息共享利用而数字化”,这种认识将档案信息化局限于传统档案工作手段的计算机化而对档案信息资源整体价值重视不够,从而难以挖掘档案深层次的价值。帮助人们认识客观世界、辅助决策、产生效益才是档案利用的生命力所在。大数据分析并不是档案人员的专长,但是,为大数据分析提供基础数据则是档案工作在信息时代的价值所在。抓住大数据的机遇,才能避免被边缘化,从而使档案工作摆脱困境。大数据时代要求数据资源的开放,这对我国档案信息化建设也具有导向作用。2008年美国建成了data.gov网站,这是美国联邦政府的公开信息资料库。网站从2009年的47个数据集迅速发展起来,到2012年7月3周年时,数据集已达45万个,涵盖了172个机构,产生了广泛的社会和经济影响,有力地推动了美国社会和经济的发展。档案信息化必须在大数据时代构建社会公开信息资源库中占据一席之地,这也应当成为我国档案信息化的目的之一。

3 对电子文件工作产生深刻影响

《电子文件归档与管理规范》(GB/T18894-2002)已经颁布,但是,在档案工作实践中档案工作者大多依然沿用纸质时代的鉴定方法对单份的电子文件进行归档处理。更有甚者,有些档案部门对电子文件界定不清而不愿接收电子化记录从而造成档案信息缺失。维克托·迈尔-舍恩伯格在《大数据时代》一书中指出,在大数据的价值链上有三种类型的公司,即,基于数据本身的公司、基于技能的公司和基于思维的公司。基于数据本身的公司是一些拥有大量数据或者至少可以收集到大量数据的公司,但不一定有从数据中提取价值或者用数据催生创新思想的技能,他们通过将数据授权给其他公司而创造价值。很显然,档案部门应该做大数据的拥有者。档案人员应该重新审视对电子文件的态度。长期以来存在着两种电子文件的保管模式,一种是分散式保管,一种是集中式保管。在大数据时代,数据是最核心的财富,最先考虑对数据的拥有才是明智的。不管是采用集中式还是分散式的管理模式,档案部门应该占据数据链的中心,处于收集数据和挖掘数据价值的黄金位置。

在大数据时代,要求对信息进行“数据化”而不仅仅是“数字化”。数据化是指将现象变成指标分析的量化形式的过程,而不仅是转化成“0”和“1”的数字格式的过程。对电子文件管理来说,即是要求拥有完善的元数据和实现全文检索。目前,电子文件元数据的研究集中在保证电子文件现实的真实性、完整性、可读性、安全性方面,对电子文件未来的可能出现的开发利用重视不够。完善的元数据标准是为大数据分析与应用提供优质数据的基础。基于词频和语义的分析将是大数据分析的重要手段,因此,实现信息的全文录入就有了更重要的意义。当前,很多档案部门重“数字化”而轻“数据化”,对纸质档案进行图片化处理,造成文件格式混乱、元数据收集不全,这都将成为未来大数据开发利用的障碍。有些学者片面强调电子文件的技术安全性而人为地为电子文件设置重重技术保障措施,也将为利用增加障碍。对于电子文件安全性的保障应该更侧重管理制度方面的完善,而不是增加技术复杂度。

信息技术的快速发展,使人类由信息稀缺的时代进入了大数据时代。大数据时代的到来深刻地改变着我们的思维、工作和生活方式。档案信息资源是社会信息资源体系中的重要组成部分,其未来的发展必然要面对大数据的挑战,也必然会改变档案事业的方方面面。正如国家信息化专家委员会副主任丁家俊所言:“如果你不能够顺应大数据的潮流,企业也好,个人也好,都可能变成一个落伍者!”只有积极地认识和准备这次挑战,档案事业才能得到健康的发展。

(作者单位:河南省南阳市林业技术推广站 来稿日期:2013-08-14)