首页 > 范文大全 > 正文

数据挖掘及其在医学方面的应用研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据挖掘及其在医学方面的应用研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘 要】本文阐述了数据挖掘的基本概念,对医学数据挖掘的特点进行了全面分析,介绍了在医学领域中常用的技术,为进一步的理论研究打下基础。数据挖掘技术应用于医学领域,有助于从海量的医学信息中提取有价值的知识和规则,以智能的方法来处理和分析科学实验或临床研究数据,从而为疾病的诊断和治疗提供科学合理的依据,为医院的决策管理、医疗和科研服务。

【关键词】数据挖掘;医学领域

一、引言

目前信息技术已渗透到包括医学在内的各个领域。随着医院信息系统(HIS)的应用和发展,数据库中的数据量迅速膨胀,数据库规模逐渐扩大,复杂程度日益增加。尽管积累了大量的业务数据,但真正能将这些数据的价值挖掘出来,并运用到医院的临床辅助诊断和日常管理决策中的却很少。提出建立基于HIS系统的医学信息数据仓库,在此基础上,对数据仓库中的医疗数据进行疾病监测、预测、医院管理辅助决策等方面的数据挖掘。为医务工作者、临床管理人员、科研人员提供辅助决策与综合分析的工具。在医疗方面具有重要的意义。

二、数据挖掘相关概述

(一)数据挖掘的概念及特点

数据挖掘是20世纪80年代后期出现的一个数据和信息系统应用的学科前沿,又被称为数据中的知识发现( KDD ),数据挖掘( Data Mining) ,是从海量数据中挖掘出隐含在其中的知识。数据挖掘一般有如下几个步骤 : 数据收集、整理、挖掘、挖掘结果评价、分析决策。这需要一个循环反复的过程才可能达到预期效果。详细来说,所在的应用领域不同,则其处理方法也不一样,例如在医学领域中步骤为:一、在该领域中认识到所要处理的问题具有的意义,并确定目标及标准;二、了解并清楚数据用途;三、根据研究的领域处理数据、建立数据仓库,这是一个动态的循环过程;四、数据挖掘,包括数据模型选择、训练和验证过程、建模和模型评价,对于同一过程可利用不同的算法,这仅仅是对数据的不同角度理解,每种算法均有合理的可能性,实际运用中要反复验证和比较;五、对结果进行评估,给予提取的新知识以合理解释,并需要具有一定的应用价值。

(二)数据挖掘的常用技术

数据挖掘是一门诞生时间不长却飞速发展的计算机分析技术, 在这些年来, 数据挖掘理论日趋成熟, 并在实践中大放异彩。在各个领域的应用中, 最常用的数据挖掘技术主要有决策树、神经网络、关联规则、聚类分析、统计学、模糊集和粗糙集等。

(1)决策树。决策树技术是用于数据挖掘中分类和预测的主要技术。决策树学习算法是对分类问题进行深入分析的一种方法。决策树能从一个或多个预测变量中, 针对类别因变量的选项, 预测出个例的趋势变化关系等, 也可以由结果来反推原因。就其方法论而言, 决策树分析与判别分析、聚类分析、非参数统计以及非线性估计所提供的功能是一样的。但是决策树的设置形式灵活, 使得其更具吸引力。常用决策树算法有: CLS算法, ID3算法, C4.5算法, CART算法, SLIQ 算法, SPR INT算法, PUBLIC算法等。

(2)神经网络。在数据挖掘中, 对神经网络的改进重点是为了解决两个问题: 知识表达和知识获取。知识表达是使神经网络中抽象的权值代表一定的知识。知识获取是给定一个已经训练好的神经网络,从中提取显式的知识。神经网络是一个不依赖于模型的自适应函数估计器, 其突出的优点是能够并行处理, 并具有学习能力、适应能力和很强的容错能力, 可以建构非线性的模型, 模型的准确度高, 具有良好的推广性, 对于未知的输入也可以得到正确的输出, 可以接受不同种类的变量作为输入, 可应用的领域相当广泛, 模型建构能力强, 具有模糊推论能力, 允许输出输入变量具有模糊性。

(3)关联规则。关联规则用来揭示数据与数据之间未知的相互依赖关系, 他的任务就是: 给定一个事务数据库, 在基于支持度/置信度框架中, 发现数据与项目之间大量有趣的相互联系, 生成所有的支持度和可信度分别高于用户给定的最小支持度和最小可信度的关联规则。优秀的关联规则算法主要有: Apriori算法, AprioriTid算法, FP-Tree算法。

(4)聚类分析。聚类分析是由样本分组, 寻找到多维数据点中的差异之处。它与判别分析不同在于: 聚类分析的分类方式并不需要预先设定一个指针变量, 它属于一种非参数分析方法, 所以并没有非常严谨的数理依据, 也无需假设总体为正态分布。聚类分析的一般过程是: 搜集数据, 转换成相似矩阵。聚类分析可以作为一个获得数据分布情况, 观察每个类的特征和对特定类进一步分析的独立工具。通过聚类, 能够识别密集和稀疏的区域, 发现全局的分布模式, 以及数据属性之间的相互关系等。主要的聚类分析方法有: 距离的方法, 基于层次的方法, 基于密度的方法, 基于网络的方法。

(5)统计学习。统计学习理论是一种专门研究小样本情况下机器学习规律的理论。机器学习的研究目标是以观测数据为基础, 通过对数据的研究得出目前尚不能通过原理分析得到的规律。然后利用这些规律去分析现实中的客观现象, 对未来的数据进行预测。现实应用中存在着大量人类尚无法准确认识但却可以进行观测的事物, 因此机器学习在从现在科学技术到社会、经济等各领域都有着十分重要的应用。

贝叶斯学习: 贝叶斯推理是在知道新的信息后修正数据集概论分布的基本工具, 用来处理数据挖掘中的分类问题。

回归分析: 回归分析方法是研究相关关系的一种有力的数学工具。它是建立在对客观事物大量试验和观察的基础上, 用来寻找隐藏在看上去不确定的现象中的统计规律的数理统计方法。

(6)模糊集和粗糙集: 模糊集用隶属函数来刻画对象对集合属于程度的连续的过渡性, 即元素从属于集合到不属于集合的渐变过程。模糊集是一种边界不分明的集合, 一个元素对于模糊集合来说, 它可以既属于该集合又不属于该集合, 边界是模糊的。粗糙集理论是一种刻画不完整性和不确定性的数学工具, 能有效地分析和处理不精确、不完整等各种不完备的信息, 并从中发现隐含的知识, 揭示潜在的规律。粗糙集和遗传算法相结合、和模糊集相结合, 以及和神经网络相结合来用于数据挖掘。

三、数据挖掘在医学中的应用

(一)疾病诊断:正确的诊断对于指导病人的用药及康复显然是重要的,在临床中有些疾病错综复杂,数据挖掘的有关分类分析可以应用于疾病的诊断。粗糙集理论、神经网络、模糊逻辑分析在疾病诊断方面是有效的。例如Roshawrma Scales等基于人工神经网络理论及模糊逻辑开发的对心血管疾病诊断的工具对疾病诊断的正确率达到92%。采用数据挖掘可以通过对患者资料数据库中大量历史数据的处理,挖掘出有价值的诊断规则,根据患者的年龄、性别、辅助检查结果、生理生化指标等给出诊断结论,并进一步排除人为因素干扰。

(二)疾病相关因素分析:在病案信息库中有大量的关于病人的病情和病人的个人信息,包括年龄、性别、居住地、职业、生活情况等,对数据库中的信息进行关联规则分析可以发现有意义的关系及模式,某种疾病的相关发病危险因素分析可以指导患者如何预防该疾病。

(三)疾病预测:确定某些疾病的发展模式,根据病人的病史预测病情的发展趋势,从而有针对性的预防疾病的发生。应用粗糙集理论根据以往病例归纳出诊断规则,用来预测新的疾病的发生,现有的人工预测早产的准确率只有17%~38%,应用粗糙集理论则可提高到68%~90%。

(四)在医疗质量管理中的应用:医疗质量管理的核心是数据、标准、计划以及治疗的质量,这些质量可以用不同的指数来衡量。数据挖掘可以发现新的关于数据、标准、计划以及治疗的质量指数的假说并检验这些指数是否有效。利用数据挖掘技术构建数据模型、选用适当算法就可以实现预测医院利润、未来一些时间段内哪些药品使用频率最高,哪些疾病发病率最高等和人们的现实生活密切相关的一系列问题。

(五)在医学图像中的应用:医学领域中越来越多地应用图像作为疾病诊断的工具,如SPECT、CT、MRI、PET等,数据挖掘可以应用于医学图像的分析。Sacha等成功地运用基于贝叶斯分类的数据挖掘模式对心肌SPECT图像进行分类诊断。

(六)在药物开发中的应用:一些新药的开发研究,其重要关键的是对先导化合物的发掘。一般有2种途径:随机筛选、意外发现和定向发掘。采用数据挖掘技术建立的药物开发系统可以用来寻找和药效学相关的化学物质基础,确定药效基团,进一步指导新药的研究,缩短开发周期,降低开发费用。

(七)在遗传学方面的应用:用序列模式分析DNA序列,不同基因在疾病的不同阶段可能起着不同的作用。若能找到疾病发展的不同阶段遗传因素序列,就有可能开发针对疾病不同阶段的治疗药物,取得有效的治疗效果。

四、展望

目前数据挖掘技术在医学领域的应用还处于起步阶段,但随着该方法的日益普及,其必将在医学领域得到更加广泛的应用。医学数据挖掘是计算机技术、人工智能、统计学与现代医学相融合的产物,是面向整个医学信息库提取知识的过程,是医疗服务整体决策科学化的重要组成成分;而由于医学数据挖掘对象的广泛性、算法要求高效性、提取知识以及决策建议要求更高的准确性加之现有医学信息库相对于数据挖掘的要求还存在不完备性;这些都需要计算机、数学、统计学以及广大医疗工作者的多方协作,从而在信息的多方融合、算法的高效性、获取知识准确性等关键技术上得以更大的突破。

五、结语

医学领域的数据构成一个复杂的数据库,包括电子病历、医学影像、病理参数、化验结果等。随着数据挖掘技术的广泛应用和各种挖掘算法的不断改进完善,结合生物医学信息自身的特殊性和复杂性,处理好挖掘过程中的关键技术,使数据挖掘技术在处理生物医学资料中的功能日益强大。数据挖掘技术在生物医学研究、医疗卫生管理与决策中的应用范围也会越来越广,并带来可观的经济和社会效益。

参考文献:

[1]康晓东.基于数据仓库的数据挖掘技术[M].北京:机械工业出版社,2004.

[2]张世红,徐国桓,刘会霞,龚文涛.数据挖掘在医学上的应用[J]. 医学情报工作.2004-6

[3]沈小庆,盛炳义,方曙等. 数据挖掘技术及其在医院药学中的应用[ J ] . 中国医院管理,2005,25(12).

[4]杨宏宝.基于数据仓库的中医内科决策支持系统[D].湖南中医药大学. 2008.3

[5]李雯娟. 基于医学信息数据仓库的数据挖掘研究[D]. 重庆医科大学 2009.4