首页 > 范文大全 > 正文

基于数据挖掘医保系统的研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于数据挖掘医保系统的研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【 摘 要 】 随着医保领域业务的日益复杂化,对于医疗信息系统的建设提出了更高的要求。本文通过数据挖掘中聚类分析方法在医保系统中的应用研究,从海量的医保系统中提取出有用的信息,指导医疗系统中各个子系统的优化建设,同时分析出有价值的预测数据,推动医保业务的健康发展。

【 关键词 】 数据挖掘;聚类分析;医保系统;预测

1 前言

随着计算机机技术的快速发展,信息系统的建设已渗入到IT、金融、政府、教育以及各大传统行业,医疗保险行业亦在其中。目前而言,信息技术的发展,已经从基础的信息系统的建设跨越到了“用数据决策”,即通过数据的采集处理、整合加工、分析预测来指导业务的发展。医保行业涉及到的业务系统繁杂、业务处理流程复杂、数据量大,正是数据挖掘能够发挥其作用的有利基础,因此如何能够利用现有的优势,有效利用数据挖掘技术,来发掘出数据本身的价值、关联数据价值,来对行业的发展、监控提供支持,是亟待研究与实践的领地。

2 医疗保险系统的发展现状及存在的问题

与大多数行业及企业信息系统建设情况相似,医疗保险系统的建设由于缺乏整体的顶层设计,各个业务系统的建设都是相对独立的,而且由于系统设计架构的差异,各个子系统之间的数据并未建立关联关系,形成了大量的“信息孤岛”。当然,数据仓库技术在某种程度上解决了数据的集中化管理,但是由于数据仓库只是将数据进行存储,当要取出使用时,还是会存在数据之间的关联关系不明确,数据本身的含义不明确等问题,且由于数据仓库只提供了传统的汇总与统计,并未对数据进行更深的加工或分析。根据以上现状,我国医疗保险信息系统建设面临的一个重大挑战,就是如何能够将这些独立的数据进行有关联的集中化管理,形成医疗保险的数据资源库,基于这个基础数据资源库,通过数据挖掘技术,来对业务的发展、管理模式以及政策的制定提供更有力的支撑。

3 基于数据挖掘的医保系统研究

由于医疗保险业务涉及到的用户数据是海量的,而且资金的流动也相对频繁,业务办理分布多,业务处理流程复杂且处理的主体是变化的,因此出现了由医保系统来替代传统的人式方式,用于能够提高业务处理的速度与质量,并对数据进行方便的管理。本文将基于数据挖掘技术的相关算法,来谈一谈其在医疗业务系统子系统的优化与流程优化中使用方法。

数据挖掘技术中的模糊聚类分析,主要用于对医疗保险系统的各个子系统的划分,通过几个步骤来优化各个子系统的分布。

1) 确定分类的标准,对于医保系统来说,可按照各个系统服务的对象为标准来进行划分,即医疗保险管理者、参加保险的人员和医疗定点机构,以此作为各个子系统建设依据。

2) 对三个主体对象对于其各个业务的功能要求与业务要求进行调研,确立各个子系统的功能模块。

3) 对于各个子系统的业务流程选定一个时间段(如按月)进行系统使用次数的统计,如表1所示。

通过对调研数据进行规范化处理,即模糊聚类算法,计算出各个子系统之间的关联程度,以及业务的重合度,对子系统进行合并处理得到如图1所示的优化后的子系统,以减少系统架设不必要的开销。

根据各个子系统的划分,如图2所示,为医疗保险系统的应用逻辑架构图,可分为两大部分。左侧是核心应用,主要包括医疗保险费用的在线结、现金报销、保费的审核以及个人账户的管理与维护,此部分的核心应用都需要医疗保险数据库的支撑。右侧是相关的辅助业务,即主要是用于管理与查询,包括利息计算、查询服务、统计报表、年度/季度数据管理,以及为与外部数据进行交换的接口等等,这些业务对于实时性要求不高,从一定程度上与主要的业务系统进行了分离,从而在不会影响核心业务系统。

SQL Server 2008提供了一种基于时间序列的分析方法,即决策树算法中的一种。具体的方法即选取一系列有时间先后顺序的数据集,如按年、按季度、按月等方式。在医保领域,一个参保人员每月的总体费用即一个时间序列。分析的目的是对未来进行预测。分析方法有回归预测、指数模型、ARMA模型等。其中最后一种模型使用起来最为方便,以下为此算法的分析公式:

Zt=(1-B)dYt

Zt=φ0+φ1Zt-1+...+φpZt-p+αt-θ1αt-1-...-θqαt-q

参保人员的总费用是医保监管的重要组成部分,通过对这部分数据的挖掘分析,可以对于医保人员每年/每季度/每月的总体费用有一个非常清晰的了解,总结出总体费用的上限,同时通过监管,进行医疗总体费用的有效管控,使其不超过限定的额度。如通过历史数据来进行未来医疗总费用的预测,来与真实发生的数据进行比对,通过多次验证,如差距不大,即可将预测数据作为未来医保人员的医疗费用的限定额度。

除了时间序列分析方法与聚类分析方法之外,常见的预测类分析还包括关联分析、数据分类等。关联分析即找到数据之间的关联关系,将各个数据库与业务系统产生的数据之间的关系建立起来,即可对发现事物与事物之间的关联性,最经典的案例即“啤酒与尿布”。同样在医保行业,用户的账户信息、费用使用信息、门诊信息等都会存在内部关联。

数据分类即找出数据库中某组对象的共同属性,便于进行统一管理,避免重复记录信息加大系统处理负担。

孤立点分析,在数据库中保存的数据,有一部分可能是与普通的数据规则与数据模式相背的数据,传统的处理方式即丢弃或者不予处理,但是有些孤立点的数据里可能隐藏相当有价值的信息,例如在保险欺诈的数据挖掘中,对于孤立点的分析就至关重要。

对数据挖掘技术在医保行业的使用,已有相应的成功案例,可佐证其在这一领域的可行性与重要性。美国最大的医保公司,利用数据挖掘技术中的模型成功找出未据实开具医疗凭证的医生,为其节省了不必要的医疗费用支出近4000万美元。而美国的另一家医保公司HCFA,刚通过利用数据挖掘技术的可视化系统,有效避免了在医疗保险行业中的欺诈现象。

4 结束语

数据挖掘技术在医保领域的应用,将能够从几个方面推动医保行业的持续健康发展。首先,对于医疗参保人员来说,其相应的政策变得不透明,参保人员可以通过查询系统,方便地了解到适合自身的投保标准,选择相应的投保种类。其次,对于医保管理中心的工作人员来说,能够有一个更优化的平台进行各项繁杂业务的处理,有效提高工作效率与工作质量。再次,对于决策层来说,通过数据挖掘提取出的预测信息,能够自定义其关注的主题、专题等,对于医保人员的总体费用、各项费用所占比例等进行多维分析,为控制医疗费用、监管及政策制定等提供科学的数据依据

参考文献

[1] 纪玉山,李晓林. 对我国城镇职工社会医疗保险改革的再认识. 经济视角,2006(5):38~40.

[2] 王星,谢邦星,戴稳胜. 数据挖掘在保险业中的应用. 北京统计,2004(4):50~51.

[3] 张劲松,保险公司数据挖掘技术应用探索. 商场现代化(学术版),2004(12):109~111.

[4] 刘明霞,任仕泉. 医疗保险风险因素的相对风险度分析. 现代预防医学,2004(2):159~161.

作者介绍:

甘枥元(1982-),男,广西南宁人,计算机科学技术专业研究生学历,广西中医药大学第一附属医院信息科;主要研究方向:计算机信息。