首页 > 范文大全 > 正文

基于OLAP网络数据信息存储研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于OLAP网络数据信息存储研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:联机分析处理是一项共享多维信息、针对某些特定问题进行联机数据访问和分析的计算机技术,是OLAP网络数据信息存储系统最主要的应用。它通过对信息不同的观察形式进行迅速、稳定和可交互的存取,协助管理决策者对历史数据进行深入观察。决策数据一般是面向多维的,多维数据是决策的主要内容。

关键词:OLAP;网络数据;信息存储

中图分类号:TP311.13文献标识码:A文章编号:1007-9599 (2012) 06-0000-02

一、前言

联机分析处理技术主要用于复杂数据的查询操作处理,对高层决策人员和高层管理人员起到决策支持的作用。它根据分析人员的需求,能够快速、灵活地进行大数据量的复杂查询处理,并以一种直观、易懂的形式将查询结果展示给决策人员,使得决策人员能够更好的制定正确的决策方案。

二、OLAP网络数据信息存储模式设计

OLAP网络数据信息存储是一系列关键性信息的集合,是决策支持系统与联机事物分析处理数据源的数据环境,它与传统的数据库系统在设计方面有着本质的区别。数据库的设计是面向事务的,而OLAP网络数据信息存储的设计是面向主题的,数据库的设计是尽量避免冗余,一般采用符合范式的规则来设计,OLAP网络数据信息存储的设计是有意引入冗余,采用反范式的方式来设计。OLAP网络数据信息存储之父Inmon W.H.早在1991年出版的“构建OLAP网络数据信息存储”一书中写到:OLAP网络数据信息存储是一个面向主题的、集成的、数据时变的、非易失的数据集合,用于辅助决策支持。根据OLAP网络数据信息存储概念的含义,可以看出OLAP网络数据信息存储具有以下四个基本特性:

(一)面向主题性

传统的操作型数据库数据的组织形式通常是面向事物处理的,业务系统之间相互分离,而OLAP网络数据信息存储则是根据主题来组织数据。面向主题组织数据指的是在较高层次上对分析的数据进行完整一致的描述,从而刻画出分析对象所涉及的各项数据之间的联系,这种较高层次只是相对传统数据库而言。例如,一个超市系统的OLAP网络数据信息存储主题可以是面向“购物篮”和“商品订单”,而传统数据库设计可能是通过对系统进一步的划分,如按销售子系统、财务子系统、仓库进销存系统以及人力子系统来进行数据组织。

(二)集成性

OLAP网络数据信息存储的集成性是指数据从业务处理系统获取时,某些数据源的数据可能存在单位不统一、字长不统一等问题,因此,需要对数据进行抽取、筛选、清理、综合等一系列转换操作,这些工作称作数据的预处理。预处理的目的是让OLAP网络数据信息存储最终呈现给用户的数据是一个统一的视图。

(三)数据时变性

OLAP网络数据信息存储中的数据是随着时间的推移而变化的。虽然和业务数据库相比,反映业务处理的实际情况要求低很多,但OLAP网络数据信息存储中数据也必须在一定的时间内进行更换,假如依据十多年前的销售记录去分析现有用户的购买能力,并进行决策,可想而知决策结果所带来的可靠性是多么糟糕。因此,OLAP网络数据信息存储需要不断的将与主题变化相关的数据追加到OLAP网络数据信息存储中,从而不断的生成主题新快照,以满足决策分析的需要。

(四)数据非易失性

OLAP网络数据信息存储中的数据是按一定的时间间隔来进行新旧替换,一般间隔为3到5年。但不进行更新处理。一旦数据装载到OLAP网络数据信息存储后,就会保留一段比较长的时间,除非OLAP网络数据信息存储中的数据明显是错误的,这些数据主要是用作查询和决策分析,而关系数据库需要时常进行修改和添加等操作。

多维数据库数据的存储形式是将数据存放在一个n维数组中,以多维的方式进行显示,而不是像关系数据库那样以记录的形式存储。

三、网络数据信息存储“维”设计

“维”是人们对分析对象的不同观察角度。例如公司以时间的角度来观察销售额量,那么时间就是一个维,如果公司以销售地域的角度来观察销售量,那么地域就是一个维。使用多维数据存储作为OLAP网络数据信息存储的物理存储形式的最大好处是:减少了基本框架的物理存储空间,在多维数据操作算法的执行过程中,大大提高了算法的分析操作效率。

(一)虚拟存储形式

虚拟存储形式是指利用源数据库中数据的多维视图来构建一个虚拟的OLAP网络数据信息存储。它不需要利用专门的OLAP网络数据信息存储来存储数据,真实数据还在源数据库中,只是把数据的指针存储于中心位置,它根据用户的多维数据操作请求来形成的多维视图,临时的在数据库中找出需要的数据来进行多维数据分析。它的特点是用户既能实时地看到历史数据,也能实时地看到当前数据。

(二)存储形式的比较

多维数据库存储有着概念表达清楚、存储空间的占用较小、多维事务查询综合速度高等诸多优点。但它也存在两个重要的缺点:一是多维数据库管理系统缺乏一个统一的标准;二是多维数据库在大规模数据库的管理能力还不够强大。

虚拟存储形式的优点是构建OLAP网络数据信息存储简单、占有空间少、灵活,但它是数据库中实体表的视图映射,因此过分依赖于原始数据的数据模型,如果源数据中存在噪音、冗余、或者缺失数据时,该种形式的OLAP网络数据信息存储就不适合使用。基于关系数据库的存储形式在处理大数据量数据的能力上完全可以满足olap网络数据信息存储的要求,但是去点在于数据库中存放了大量的细节数据和较少的综合数据,以牺牲效率为代价。

由于虚拟OLAP网络数据信息存储和多位OLAP网络数据信息存储技术的相对不成熟,目前主流的OLAP网络数据信息存储模式还是基于关系系统的存储形式。

四、OLAP数据信息存储体系设计

OLAP系统其数据存储方式的差异可分为三类,分别为关系OLAP(简称ROLAP),多维OLAP(简称MOLAP),混合型OLAP(简称HOLAP)。它们的区别如下:

关系OPAP将分析时用到的数据直接存储到关系数据库中,将数据库中的表分为两类,一类是事实表,另一类是维表,事实表存储数据和维关键字,维表存储数据或者是维的层次信息。维表和事实表之间通过主外键进行关联,由于模型的形状非常像雪花或者星星,这种模式又称为星型模式和雪花型模式。ROLAP的优点是查询效率高,可以通过软件工具实现,缺点是占磁盘的空间大。

MOLAP是将OLAP分析时用到的数据存储在多维数组中,形成一个立方体结构。维的属性被映射成多维数组的下标,维的数据则作为多维数组的值存储在数组中。优点是占用磁盘空间小,缺点是较ROLAP速度慢。

HOLAP是RLOAP和MOLAP的折中,底层采用ROLAP,高层则采用MOLAP,从而可以更好的满足用户各种复杂的分析请求。

随着当前各种领域MIS系统数据量的迅猛增长,越来越多的人开始关注OLAP网络数据信息存储技术,大家都迫切的希望将这些粗糙的、无规则的数据转换成对自己有价值的、可提供决策信息的数据。特别是近年来,OLAP网络数据信息存储引起了信息产业界和整个社会的极大关注,在早期的文献中许多人把OLAP网络数据信息存储与另一术语“数据中知识的发现”或者KDD的同义词相混淆,认为知识发现就等同于OLAP网络数据信息存储,这些理解非常狭隘。OLAP网络数据信息存储技术和传统的知识发现技术相比至少有以下几点不同:

(一)挖掘对象不同

OLAP网络数据信息存储主要是对数据库中的历史数据进行统计分析,挖掘某些数据之间的隐含关系。而数据发现技术侧重于知识的创新,发现的载体主要是人,对人的思想、感情、文化进行挖掘。

(二)实施过程不同

OLAP网络数据信息存储的实施过程主要有三个阶段:数据准备、OLAP网络数据信息存储和知识展现,而知识发现是通过一个从知识网络构建知识库生成知识挖掘知识的介绍知识评估这样循环反复的过程来实现的。

五、总结

OLAP网络数据信息存储作为一门多学科的综合应用,具有多种功能,目前最常用的有以下五类功能:分类预测是指根据数据库中某些数据的属性、特征,对事物建立不同的模型,从而预测未来数据的趋势。比如银行根据借贷客户的职业、年龄、收入等属性,对客户进行分类,并观察哪类人群还款的诚信度比较高,哪些类型的人群还款信用比较低,根据分类得到的结果来针对不同的人群预测他们的诚信度,从而提高银行的收益。OLAP网络数据信息存储的分类算法主要有决策树算法、遗传算法以及贝叶斯算法等。

参考文献:

[1]金芳.浅谈数据仓库技术在电信行业中的应用[J].长春大学学报,2009,12

[2]李红良.智能决策支持系统的发展现状及应用展望[J].重庆工学院学报(自然科学版),2009,10

[3]张俊,陈宏刚.基于多Agent的实时ETL系统模型研究[J].信息技术,2010,2

[4]吴远红.ETL执行过程的优化研究[J].计算机科学,2007,1

[5]蔡海敏,张自力,曾铮,殷员分.基于数据仓库与联机分析技术的高考加分政策评估[J].计算机科学,2010,6