首页 > 范文大全 > 正文

数字保存的认知与实践

开篇:润墨网以专业的文秘视角,为您筛选了一篇数字保存的认知与实践范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘要][2011-08-25]数字保存认知是对数字保存基本问题的看法,对出版界的认知调查包括保存原因、保存威胁、保存费用和保存职责。数字保存实践是对数字保存领域中相关问题的目前解决方法,对出版界的实践调查包括保存内容(出版物、期刊论文、研究型数据)和保存策略(针对期刊论文的和针对研究型数据的)。基于认知调查,提出加强数字保存可持续性研究的思路。基于实践调查,提出加强学术论文与研究型数据之间链接保存的思想。

[关键词]数字保存 认知调查 实践调查 出版界

[分类号]G250

数字保存是一项系统工程,其建设和运营涉及到数字时代学术交流系统中各利益相关方:研究人员(既是数字资源生产者,又是数字资源消费者)、出版界(数字资源传播者)、保存机构(数字保存系统的建设与运营者)以及保存资金提供者。对各利益相关方进行数字保存认知与实践的调查,有助于了解对数字保存的期望,掌握数字保存的现状,发现数字保存理论与实践的问题。

到目前为止,全方位对数字保存认知与实践的调查甚为鲜见。欧盟PARSE.insight项目历经三年(2008-2010年),对数字保存利益相关方进了比较系统的调查。本文从出版界角度,基于PARSE.in-sight的调查,分析总结出版界对数字保存的认知与实践。

1 调查对象

针对出版界的PARSE,insight调查对象选择来自目前两个最主要的学术出版商名录:STM出版商协会(International Association of Scientific,Technologi-cal and Medical Publishers,国际科学、技术与医学出版商协会)和DOAj (Directory of Open Access Journals,开放存取期刊目录)。

在STM协会中,有67家出版商(如Elsevier、Springer等)给予了回复,其中欧盟42家、美国18家、其他7家,共出版同行评审期刊8800种,占本次调查全部期刊97%,占全球同行评审期刊35%(据统计,目前同行评审期刊约25400种)。

在DOAJ中,有126家出版商给予了回复,其中欧盟55家、美国18家、其他53家,共出版开放存取期刊250种,占本次调查全部期刊3%。据估计,目前约10%的同行评审期刊是开放存取,但本次调查没有考察DOAJ期刊是否是同行评审。

分析结果时,将出版商分两类:一是大型出版商(出版期刊大于50种,如Elsevier出版2 000余种,STM出版商的前5家出版学术期刊之和占所有期刊的25%),二是小型出版商(出版期刊不大于50种,如大多数DOAJ出版商仅出版一种或几种开放存取期刊)。

2 数字保存的认知

认知就是看法,出版界对数字保存的认知是指各类出版商对数字保存基本问题的看法,这些问题有:保存原因、保存威胁、保存费用、保存职责。

2.1 保存原因

两类出版商对最重要保存原因(促进科学发展)和最不重要保存原因(数字资源的潜在经济价值)的认知比较一致,最大分歧发生在“由公共资金资助”这一原因上,如表1所示:

可能的解释是,小型出版商主要出版公共资助的研究成果,但有些学科(药学、医学、化学和工程)的研究更多由私人资助,而这些学科的研究成果很少发表在小型出版商的开放存取期刊上。

2.2保存威胁

两类出版商对数字保存最严重威胁的认知基本一致,位居前三位的是:数字保存系统的可持续性无法保证、软硬件缺乏可持续性、数字资源来源信息改变或丢失等。最大分歧是对“数字资源文件格式过时”的威胁的认知上(见表2)。

2.3保存费用

数字保存需要大量资金。在出版界层面,需要保存的数字资源有学术期刊论文和作者随论文一起提交的相关研究型数据(有些论文基于大量实验,用户查阅该类论文时常需要参阅相关研究型数据)。

针对谁应该支付学术期刊论文的保存费用,_曲类出版商的回答区别不大,相当一部分认为应该是公共资金,包括国家政府和国家图书馆,但也有一部分出版商认为出版界应该承担保存费用。针对准应该支付研究型数据的保存费用,政府资金仍然是最多的选项,其次是研究人员所在的研究机构。如表3所示

2.4保存职责

对比期刊论文的保存职责承担者与研究型数据的保存职责承担者,两类出版商的认知存在重大差异:前者排在首位的是出版商自己,后者排在首位的则为作者(见表4)。

针对期刊论文,大型出版商常常将保存职责外包给第三方(如Portico和CLOCKSS/LOCKSS),但小型出版商采用外包方式明显较少。另外,两类出版商对于国家政府应该承担保存职责的看法明显不同,持该观点的小型出版商比大型出版商多15%。

针对研究型数据,虽然两类出版商的认知比较一致,但因为只有一个数据超过了50%(“作者”选项),所以他们可能更不确定谁应该承担这种类型数字资源的长期保存职责。

3 数字保存的实践

实践就是行动,出版界对数字保存的实践是指不同类型出版商对数字保存领域中相关问题的目前解决方法,这些问题有:保存内容(出版物、期刊论文、研究型数据)、保存策略(针对期刊论文的和针对研究型数据的)。

3.1保存出版物的类型

两类出版商对保存出版物类型的实践比较相似。在所有类型出版物中,小型出版商的选择比例都略高于大型出版商,只有对数字图书例外,可能的解释是小型出版商很少出版图书。如表5所示:

在数字时代,期刊的出版形式正在朝着多媒体方向转变。总体上有一半以上出版商选择了多媒体出版物。但对研究型数据进行保存的选择明显较低,可能原因有二:一是目前实践的确很少,二是这类数据保存的商业化运作模式还有待开发。

3.2保存学术论文的版本

两类出版商对长期保存的学术论文版本明显不同。大型出版商多保存正式出版的版本,而小型出版商倾向于出版商接收的手稿。这种现象的解释为,小型出版商出版的期刊大多是开放存取期刊,很少对作者的手稿添加信息,多采用文责自负方针;而大型出版商的期刊均为同行评审,常常需对作者手稿进行修改,认为正式出版的版本质量最高。

该项调查为多项选择,结果显示,大型出版商比小型出版商更倾向于选择更多的选项,说明大型出版商认为有保存价值的版本较多。如表6所示:

3.3研究型数据的接收情况

虽然两类出版商大多接受研究型数据,但大型出版商(72%)要高于小型出版商(57%),这可能说明了两类出版商提供该类数据服务的层次差异。另外,目前不接收研究型数据的出版商大约有20%计划5年内接收。从期刊数量角度,接收研究型数据的大型出版商出版7730种,而小型出版商出版746种,共计8476

种,约占调查期刊(共9050种)的94%。

每种研究型数据都有其特性,不同类型研究型数据所需保存策略可能不同。针对接收研究型数据的出版商又进行了接收数据类型的调查,如表7所示:

办公文档、图像和纯文本是出版活动涉及的传统数据类型,两类出版商对这三种类型数据接受程度都比较高,但整体上小型出版商比大型出版商更高。

另外,随着出版物形式的多样化,多媒体、科学数据、统计数据、结构化图形和数据库等类型的研究型数据也越来越多地被出版商接收。与小型出版商相比,大型出版商通常更倾向接收这些更加复杂的研究型数据类型,这反映了大型出版商向作者提供的服务水平较高。

3.4期刊论文的长期保存

期刊是出版商最主要的产品,除了面向用户提供访问外,绝大多数出版商(84%的大型出版商和55%的小型出版商)都对出版的学术期刊进行长期保存,这些出版商共出版8444种期刊(其中大型出版商7698种,小型出版商740种),约占调查期刊的93%。

至于采用的保存策略,多数大型出版商采用外包方式,而只有不足1/4的小型出版商采用这种策略。大型出版商选择的外包商分别有Portico(30%)、CLOCKSS/LOCKSS(13%)和e―depot(7%),而小型出版商选择这些外包商的比例分别只有5%、11%和0%。标准化和数字迁移是其他两个较常用策略。但足,在所有选择中,数字仿真最不常用,如表8所示:

3.5研究型数据的长期保存

针对接收的研究型数据,两类出版商绝大多数都不保存,不足1/5的出版商采取与期刊论文相同的保存策略(大多采用外包),只有很少的出版商通过专业的数据保存系统进行保存,如表9所示:

从期刊数量角度,绝大多数期刊没有对研究型数据进行保存,其中大型出版商7451种,小型出版商533种,总计7984种,约占调查期刊的83%。

4 对数字保存的思考

数字保存是数字时代的一项重要活动,多年米,尤论在国内还是国外,业界都进行了大量的理论研究与实践探索,取得了丰厚成果。但是,根据PARSE.in-sight对出版界的调查,数字保存还远未完善。

4.1认知上的思考

在认知上,虽然对数字保存的必要性认识高度一致(96%的两类出版商认为数字保存的原因是“促进科学发展”),但对数字保存的未来高度忧虑(78%的两类出版商认为数字保存的最严重威胁是“可持续性无法保证”)。因此,业界应该加强对数字保存的可持续性研究。宏观上,数字保存的可持续性包括管理、技术、质量保证和经济可持续性等方面。多年来,对数字保存的研究主要集中在管理和技术层面,但对质量保证和经济可持续性涉猎甚少,因此应该开展对这两个问题的探讨。

从目前实践来看,数字保存有两类:基于市场机制运营(如CNKI的中国期刊全文数据库)和基于公益性机制运营(如美国国会图书馆的“American Memory”),这两类数字保存都可以视为经济产品,其中前者可视为市场经济产品,后者可视为公共经济产品。从经济产品角度,数字保存的质量保证研究可以从质量保证标准的建立和质量认证模型的构建两个角度来进行,数字保存的经济可持续性研究可以从经济评价指标体系的建立和评价方法的构建两个方面来实施。

基于上述思路,保存费用的承担和保存职责的划分也就更加明晰。数字文化遗产的保存属于公共经济产品,由政府承担;商业型数字资源的保存属于市场经济产品,由经济实体按照市场机制运营。但是,这两类数字保存的经济评价指标和评价方法可能会有所区别(比如,前者应该包括国民经济评价,而后者可能更注重财务评价)。

4.2实践上的思考

在实践上,出版界对学术期刊论文的保存比较普及(84%的大型出版商和55%的小型出版商保存这类数字资源),但对研究型数据的保存较少(只有31%的大型出版商和同样比例的小型出版商保存这类数字资源)。实际上,在自然科学领域,用户对这两类数字资源的交叉使用非常普遍,具体体现在两个方面:一是对于基于数据密集型研究学科和实验型学科,大部分研究论文都基于大量研究型数据,用户查阅论文时常需要参阅相关研究型数据;二是研究型数据的含义体现在使用环境之中,当用户访问研究型数据时,常常需要参阅使用该项研究型数据的专业期刊论文。因此,只有将研究型数据与期刊论文链接起来,才能满足用户的需求。然而,目前对这类链接的保存实践几乎没有,这可能是导致研究型数据保存甚少的原因所在(因为没有与论文相链接的研究型数据缺乏使用价值)。所以,业界应该加强对这类链接保存的研究实践。

对学术论文与研究型数据之间的链接进行保存可能涉及的问题有:①这两类数字资源的唯一标识符系统的标准化,这是实施链接保存的基础;②可信任数字保存网络系统的建设,这是保证链接有效的条件;③研究型数据质量评价体系的建立,这是用户访问和使用研究型数据的前提。只有在这种结构下,才能构建和完善数字资源的两类主要形式(学术论文和研究型数据)长期保存的实践框架,设计并完善保存策略。

[作者简介]臧国全,男,1963年出生,教授,系副主任,60余篇,出版学术专著3部。刘思,女,1988年出生,硕士研究生,1篇。