首页 > 范文大全 > 正文

从中医古籍数据库建设看中医古籍数字化

开篇:润墨网以专业的文秘视角,为您筛选了一篇从中医古籍数据库建设看中医古籍数字化范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

作者:李兵,刘国正,符永驰,裘俭,张伟娜

【关键词】 中医古籍;数字化;古籍数据库

中医古籍是中医药学传承和发展的载体,既具有重要的学术价值,又具有相当的文物价值。最新出版的《中国中医古籍总目》共收录中医古籍13 455种,基本上反映了当前我国中医古籍的存世和分布现状。如何在保护的基础上更好地利用这些珍贵的中医药资源是中医药研究人员的历史使命。通过数字化处理,既实现了对中医古籍的永久保存,又可为方便、快捷、无损地开发和利用这些宝贵资源搭建起研究平台。中国中医科学院中医药信息研究所自2002年始,对馆藏中医典籍进行了数字化再生性保护和利用研究,目前,已建成“中医药珍善本古籍多媒体数据库”、“中医药古籍资源数据库”,实现了部分中医古籍的数字化保护与利用。

1 “中医药古籍资源数据库”建设

1.1 研究背景

中医古籍是中华民族几千年来防病治病宝贵经验的结晶,是中华民族的优秀文化遗产。中医药古籍文献中所收载的理法方药、养生保健知识是取之不尽、用之不竭的宝库,具有极高的实用价值。古籍属于不可再生的文化资源,近年来,尽管我国加大了对于古籍的保护力度,使古籍的保存环境得到改善,但随着历史的推进,古籍还是会悄无声息、不可避免地出现损毁,乃至消亡。中医古籍整体保存环境较差,各藏馆保存条件良莠不一,中医古籍保护和传承令人担忧。

鉴于此,用数字化手段对中医古籍进行处理,既可以使中医古籍的原图原貌永久保存,又可以通过数据库和网络广泛利用,避免阅读原书对古籍造成的损伤。因此,中医古籍数字化是中医古籍保护和利用的理想方式。中国中医科学院图书馆所藏中医古籍占存世中医古籍数量的一半以上,其中中医珍善本古籍就达2万余册。中国中医科学院中医药信息研究所利用该资源优势,构建了“中医药古籍资源数据库”,现已收录1 500种中医古籍的元数据信息和其中的850种中医古籍的原文图像,已经可以通过中医古籍阅览系统实现电子阅览,为中医古籍数字化保护和利用开辟了途径。

1.2 “中医药古籍资源数据库”建库流程

1.2.1 中医古籍书目的选取

根据中医古籍的年代、版本价值、文献价值、保护等级等确定收录标准,对破损严重的珍善本古籍优先进行数字化处理。

1.2.2 数据库结构设计

考虑到对古籍的再生性保护,我们

以古籍原文图像作为主要数据来源,部分古籍实现全文本化。由于图像要求的存储空间较大,我们采用支持多媒体数据的oracle 9i数据库系统,并对系统结构进行优化,基本解决了运行速度问题。

1.2.3 元数据加工

根据古籍文献的特点,按中医古籍的分类、题名、责任者、出版年代、出版者、版本项、版式、卷数、馆藏地、书籍特征、保存状况、复制状况等进行著录,著录规则参见“我国数字图书馆标准规范建设”项目研究成果——古籍元数据著录规则(cdls-s05-014),对收录古籍撰写提要,力求建立完整的古籍书目数据库。

1.2.4 数字化处理

包括古籍的扫描、质检、图像处理、文本录入等。为实现保存和利用双重目的,扫描时采用全彩模式,300 dpi,jpeg格式保存,按页码顺序重命名,对扫描后图像的顺序、偏斜度、完整性、清晰度进行检查,并进行纠偏、去污、裁边等处理。对部分古籍进行文本录入,实现图文对照。

1.2.5 古籍原文图像标引

采用自主开发的古籍编辑器对文中有效的检索点进行抽取和xml格式标引,如病证方药的名称、索引信息、各级标题等,力求实现图像的全文检索,避免标引过繁或过简,影响检索效果。对标引后数据进行审核。

1.2.6 数据

将图像数据、元数据、标引数据、文本数据合成、入库,形成中医古籍电子书,到阅览系统后进行数据库测试,实现中医古籍的数字化保护与利用。

1.3 采用技术

数据库采用oracle 9i,数据搜索采用oracle text技术。整个系统采用基于java的web应用技术,结合基于j2ee的struts 和实现数据持久化的hibernate框架的mvc设计模式,构建了高内聚、弱藕合、可维护和可扩展的中医古籍数字化系统[1]。

2 中医古籍数字化存在的障碍

2.1 中医古籍中生僻汉字的处理

汉字从产生至今经历了漫长的演变过程,由此也产生了大量的繁简字、异体字、古今字、通假字等。中医古籍数字化过程中遇到的字体障碍有两个方面,一个是对字体的认知障碍,生僻汉字的准确录入需要很深的中医文献学功底,而对于一般的操作人员很难办到;一个是技术障碍,unicode字符集虽然可以解决字库问题,但是很多软件不支持,常用的输入法和搜索引擎不支持大字符集,很多生僻字仍不能正确显示和检索。用造字的方法费时费力,而且很难共享和检索,生僻汉字的处理仍是中医古籍数字化过程中的一大障碍。

2.2 全国古籍数字化标准尚待建立

目前,虽然参与中医古籍数字化工作的单位较多,但几乎都处于各自为战的状态,所采取的途径多样,因此产生的数字化成果形式多样,不利于中医古籍数字化发展,也不利于中医古籍数字化资源共享。究其原因,除了缺乏统一的协调规划外,没有可参照的行业标准也是其中重要的原因。

2.3 中医古籍数字化软件有待改进

软件功能是否强大对中医古籍数字化过程和成果具有直接影响,选择合适的软件可以起到事半功倍的效果。目前,可供选择的数字化加工系统很多,扫描和图像处理技术已较为成熟。而ocr软件对古籍中部分繁体字和不规则用字的识别效果很差,辅以人工校对则需要大量的时间和人力,如何提高ocr在古籍字符识别上的准确率是古籍数字化面临的一大难题;数据加工软件在批处理、大字符集、内容管理等方面存在缺陷;检索系统如何根据中医古籍的特点提高检索速度和精准度也是值得进一步研究的问题。

2.4 古籍信息的精准检索

快速、准确地检索到所需要的内容是古籍数字化应有的基本功能,也是评价其优劣的重要指标。全文本的数字化古籍可以实现任意字符的检索,但是数据准确度小、检索噪音大的问题尚待进一步解决;图像版可以保证信息的准确无误,但在全文检索上存在一定缺陷,通过对有效检索点的标引可以在一定程度上弥补上述不足,但仍不可避免地要遗漏某些信息。由于中医古籍中病、证、方、药的同名异义、异名同义现象普遍存在,使内容的精确检索更加困难。如何建立后控词表,实现关联检索也是中医古籍数字化面临的一个难题。

2.5 研究支持功能尚不完善

研究支持功能是指能够提供有关古籍内容本身科学、准确的统计与计量信息,提供与古籍内容相关的参考数据、辅助工具,这些信息、数据或工具都是古籍内容的增值或补充[2]。中医古籍具有极高的研究价值,其研究支持功能应更强大。除常用的中医古籍研究辅助工具外,还应具有不同版本和相关数据的链接。对病、证、方、药的参考数据进行汇聚,对生僻字进行注解,建立学术论坛等,都是研究支持功能的重要组成部分,而目前的中医古籍数字化成果在此方面尚显薄弱。

2.6 深度开发不够

中医古籍数字化不应仅仅满足于对古籍的阅览和查询。古代中医药文献是一个知识宝库,在数字化的基础上挖掘古籍中的宝贵知识财富,实现知识发现和知识拓展,更好地为中医药事业的发展和人类健康服务是中医古籍数字化的最高目标。

3 中医古籍数字化建设的建议

3.1 图文关联是实现中医古籍数字化的较好方式

图文关联是将古籍文献分别存储为图像、文本两种形式。图文关联是将文本对应放在与之相匹配的图像之下,并建立索引关系,实现图文对照。此种方式可以弥补“图像”在检索和内容编辑上的不足,又可以校对“文本”的准确性,使读者既能看到原书原貌的古籍文献,又可以快速准确地查到所需要的内容。尤其对于研究者,对原始版本信息和文本的准确性要求更高,而通过图文对照便可很好地解决这一问题。

3.2 中医文献与计算机专业人员的通力协作

中医古籍数字化是古典文化与现代技术的结合,需要有精通中医古籍整理、目录学和版本学知识的人才与掌握计算机网络知识和多媒体技术的专业人员通力协作。中医古籍数字化虽属新的古籍整理方式,但仍归于中医文献整理范畴,离不开文献整理的知识。在整个过程中,中医知识不可或缺;同时,在数据处理、数据库设计、应用平台构建等方面都需要计算机专业人员参与。中医文献专家的需求和建议能指导计算机技术人员对整个系统的设计,进而改善中医古籍数字化系统的功能。上述两方面人员的深入合作是创建理想中医古籍数字化模式的前提。

3.3 重视统一标准的研究和制定

建立完整的中医古籍资源库需要全行业的合作。因此,有必要建立统一的标准,包括中医古籍的分类法、著录规则、软件和数据库的使用、数字化加工标准、加工和利用平台等。统一的标准是实现中医古籍数字化资源共享的基础,也是促进中医古籍数字化建设进程的有力保障[3]。

3.4 统一规划,共建共享

中医古籍数字化是对中华文化遗产的保护和弘扬,具有强烈的公益色彩。各单位需要在统一的协调和领导下,建立一个整体的规划。整体规划应包括数字化对象的内容,确定工作重点和合作分工,同时包括相关标准、规范的统一,而恰好这两方面问题在目前的工作中较为突出[4]。解决了这两方面问题,就避免了重复建设和资源浪费,才能实现共建共享。

4 结语

中医古籍数字化是一项长期的系统工程,需要中医药科研人员付出长期的艰辛和努力。虽然在建设过程中还有许多问题有待解决,但随着研究的深入,信息技术的飞速发展,中医古籍数据库建设和利用将呈现广阔的前景。

【参考文献】

[1] 符永驰,李 斌,郭敏华,等.中医古籍电子化系统的研究与实现[j].中国中医药信息杂志,2008,15(2):103-104.

[2] 李国新.中国古籍资源数字化的进展与任务[j].大学图书馆学报,2002, (1):21-26.

[3] 吉 聪.中医古籍数字化建设问题探讨[j].长春中医学院学报,2004, 20(3):64-65.

[4] 陈 力.中文古籍数字化方法之检讨[j].国家图书馆学刊,2005,(3):11-16.