首页 > 范文大全 > 正文

数据空间的数据项研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据空间的数据项研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:在数据空间领域中关于数据项的表示问题是一个重要的课题,为了能让数据更好的存放在数据空间中,并且在逻辑上有个统一的,形式化的表示方式。提出一个数据空间数据的形式化表示方式,使其能对于各种存在数据空间中的数据在逻辑上进行统一的表示,并展示了如何将数据库中的数据表示数据项。

关键词:数据空间;数据库;数据项;数据空间管理

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2010)01-12-03

Research on DataElement of the DataSpaces

XIA Huai-nan

(Shandong University of Science and Technology,Shandong 2666510,China)

Abstract: In DataSpaces area the dataelement representation is a important problem, to make the data store in dataspace better, a unified and formal representation. This paper propesed a representation method of dataspaces element ,to make a unified representation in logical for all kinds of data in dataspaces, and show how to make database data to dataelement.

Key words:dataspaces; database; dataelement; dataspacesmanagement

近几十年来,计算机网络的飞速发展和信息化的推进,使得人类社会所积累的数据量已经超越了过去5000年数据量的总和。数据的采集,存储,处理和传播的数量也与日剧增。企业或社会组织实现数据共享,可以使更多的人更充分的利用已有的数据资源,减少资料收集,数据采集等重复劳动和相应费用。近年来随着因特网的迅猛发展,web信息的爆炸式的增长,这些信息就像一个实时增长的数据库,而对于这个巨大的信息库,人们不知道其信息量的多少,不知道其信息存放的位置,不知道原始信息的格式,这些亿量的信息分布在世界上无数的服务器上,格式多向,内容丰富,这种数据信息存在方式上的新特点,及用户对快速,灵活,高效,的建立数据集成的要求,提出了数据空间(Dataspaces)的概念。这是一种新的数据管理模式,它强调的是一种pay-as-you-go的数据管理模式:不需要任何的建立时间就能够给用户提供服务。如图1所示,利用数据空间来集成数据在时间和花费上比传统的数据集成方案有很大的改善。

数据空间比较传统的数据集成在集成时间和花费上会随着数据类型,数据量的增多而趋于平缓,而传统的数据集成还是保持着线性增长,数据空间在这两方面有着巨大的优势,同时在数据空间所拥有的一些特性上也是传统的数据集成所没有的。

数据空间作为一个近几年出现的一个数据集成研究与发展的热点,有着很多区别于以往数据集成的一些显著的特点和优势,比如说“淡化形式,凸显数据”。数据空间强调的是数据的“spaces”,整个世界就是一个“spaces”,不管何种的object在其中是什么格式,什么内容,只要是符合这个“spaces”的基本要求就可以。数据空间的spaces是一个满是数据的空间,数据在其中如何组织都可以。关系表,xml文档,文本,任何数据包括它的载体,都可以存在于这个space中, “一个数据空间应该包含与某个组织或个体相关的一切信息,无论这些信息是以何种形式存储、存放于何处”,这样,无论什么样的格式的数据,都可以通过数据空间对其进行掌控,即可以成为“弱化模式,强调数据”。

1 数据空间的特点及数据项的形式化表示

数据空间有其自身的特性,如果要将数据放入数据空间的话必须满足其特性,一般来说数据空间有以下几个特性:

数据空间与主体的相关性:数据空间是有所属的,与主体一一对应,这个实体可以是一个人,一个小组,也可以是一个企业。数据空间是由数据组成起来的,一个数据可以是一个word文档,一段视频,一个网页等。这些数据都是对应于某个实体的。通过实体就把数据空间里的数据联系在一起,每个实体的数据之间就能组成一个虚拟的网络,互相联系起来,同时这种联系也构成了数据空间的边界。

数据空间的空间和时间特性:在空间上来说,数据空间的数据分布存放在许多位置,既有本地的数据,也有来自于互联网上的数据。从时间上来说,数据空间的数据会随着主体,应用等的不断发展而变化,新的数据会加进来,同时旧的数据会移出。数据也会随着时间的变化不断地演化,被挖掘,数据也会根据每个实体对数据应用的特点通过数据清洗,数据质量等技术,由低质量,高冗余的数据发展成为,高质量,低冗余的数据。

实体数据空间交叉重叠:数据空间中的数据是与实体相对的,但数据有可能是属于多个实体的。

数据之间的联系:数据空间中的数据联系是有方向性的,各种数据之间的联系相互交互起来构成一种图的联系方式。

数据空间的主要存在形式是个人数据空间:相对于数据库主要的应用对象是企业用户,数据空间在未来的一段时间中主要是面向个人用户的应用。对个人的工作,生活,提供更大的便利,个人数据空间也是未来数据空间研究的主要方向。

以上所总结的是数据空间中的数据的特点,针对上述的特点我们提出数据项的概念,利用数据项对要放入数据空间中的数据进行封装,使其满足数据空间对数据的一些要求。对数据项的形式化表示如下:数据项:是数据空间最基本的单元,它并不是一个大小,格式固定的数据单元,它表示的是数据空间中的一个语义完整的一个信息单元,大小,格式根据数据来源,及特点的不同而不同。例如,一个数据项也可是一个网页,或是一个Word文档,同样也可能是一个数据库中的表来组成的。

定义:(数据项) 一个数据项DEi 是一个四元组(αi, βi, γi,δi), 其中,αi表示的是名称组件,βi表示一个元数据信息组件,γi表示一个内容组件,δi 表示一个关系组件。我们定义资源试图DEi 如下:

1)名称组件:αi 是一个字符串,它表示数据项的名字。

2)元数据信息组件:βi 是一个二元组(S,T),在这里S表示的是元数据的名,T是一个对应于S的元数据值。元数据名 S=,j=1,2,3,….k 表示的是关于此数据集的有序的元数据,其中nj表示的是每个元数据的名称。元数据值T, j=1,2,3,….k 是一个有序列的原子值,其中值vj 是对应于元数据nj 。其中在这里必须含有,数据项的主体,空间及时间特性,其中分别由DSSubject, DSUrl,DSTime,来表示。

3)内容组件:γi 是一个字符串名,γi内容可能是有限的,也可能是无限的

当γi有限的时候,采用有限符号序列的形式来表示内容,,cj ∈∑c ,j=1…l

当γi无限的时候,相对应的内容是无限的,则用,l∞, cj ∈∑c,j=1…l,l∞

4)关系组件:δi是一个一元组(Q), Q是一个(可能为空)有序的数据项集合

a)有序的Q可能是有限集或是无限集。当Q是有限集合时Q={W1,...Wn},当Q是无限集合时Q={W1,...Wn}n∞;

b)假定一个资源试图Vi 有一个非空的δi的组件,如果存在一个资源试图Vk 并且

Vk∈S∪Q,我们称Vk直接关联到Vi。任何一个给定的资源试图都有可能关联到0个,1个,或任意多个其它的资源试图。

c)如果ViVj…Vk ,我们说Vk间接关联Vi,我们记做ViVk

如果一个数据项的组件有为空的,我们用元组()或是空的序列来表示。

在上面提出的资源视图结构中,αi是一个非空的数据项名。βi是关于此数据项的一些重要的元数据信息,其中包括主体,空间,时间的一些特性。γi是关于数据项的数据信息,例如,数据库数据的每个元组,文件的内容字符。δi组件会产生一个图的结构用来表示数据项之间的关系,这种图的结构有可能是一个树,也可能是一个DAGs,或是循环图。在集合Q中各个组件的顺序代表的是各数据项关联的时间顺序。

针对以上我们提出的数据项的概念及形式化的表示方式,我们提出一套算法,这些算法用来将数据集生成数据项并放入数据空间中。生成数据空间的数据项的算法如下。

Algorithm

Begin

Create a Databases Element from some datasets

For each Dataset instance do

Begin

DoBeforeDatasetIntoDataspaces();

CheckOfDataspaces(dataset d);

ChangeTheDatasetToDatasapcesElement(dataset d);

PutIntoDataspaces(dataspaceElement,dataSpaces);

DoAfterDatasetIntoDataspaces();

End

End For

End

在以上算法中,将对要放入数据空间中的数据集处理。此算法是将数据集生成数据空间数据项,分别对应于此前我们定义的数据项的四个部分。同时将这四个部分封装成一个数据项,它就代表了每次往数据空间中放入的数据集。

2数据库应用实例

数据库,作为一个计算机领域几十年来始终占据绝对主导领域的数据存储方式,在过去,现在,将来都将作为一个最主要的数据存贮方式,同样数据库中的数据也占据现在世界上的主要数据的大部分,如何将数据库中的数据放入数据空间中,已成为现在数据空间由理论到应用的一个急需解决的一个问题。本文定义了一种将数据库中的数据放入到数据空间的一种通用的方法和对应的数据模型,所放入到数据空间中的数据满足数据空间的基本特点,并能够直接被数据空间管理系统所用。

数据库中的信息是由,数据单元,元组,表,库,由小到大所组成的,这些信息单元包含的信息量的大小各不相同,我们向数据空间中导入数据的话,必须选择一种合适的数据项作为向数据空间中放入的基本数据单元。数据项作为数据库的最基本的数据单元,所包含的数据是数据库中最小的,最灵活的信息载体,但是如果将它作为基本单位的话,因为每个数据单位还要含有数据空间元数据信息,这样就会造成有意义的信息含有量太低,数据冗余过大。同样选择元组的话也会面对同样的问题。如果选择库的话,虽然有效信息含有量高了,但是又会面临数据项过大,操作,查询,使用代价过高,不利于数据空间的建立和使用。表是数据库中一个完整语义的数据单位,一个表中的信息,代表的都是一个对象,一类关系等,用表作为数据空间的基本数据项是最合适的。

下面我们从sqlserver2000自带的实例数据库中将其中的一个表作为一个结果集来表示成数据空间中的数据项。其中有如表1-表2所示的表。

表Employees与表Orders之间存在着联系,Employees表的主键EmployeeID是表Orders的外键,通过表之间的主外键关系我们就建立了一个两个数据之间的联系。

对于Employees表,用上面提出的数据项的形式化表示方法来表示为:

DEEmployees=(αEmployees,βEmployees,γEmployeesi,δEmployeesi),其中

αEmployees=”Employees”;

βEmployees=(S,T),其中 S=

γEmployeesi=(c11, c12, c13, c21,c22, c23,c31,c32, c33),其中c11表示为EmployeeID:1,c12 为Name:Davolio,c13 为Title:Respresentative。同理其他的ci也按此表示数据

δEmployeesi=(DEOrder)其中DEOrder表示的是表Order的数据项

对于我们上面用形式化表示方式表示的Employees数据系项,在向数据空间中放入时还需要用一种具体的表示方式将它表示出来,Xml作为一个伴随着Internet的发展而不断广泛被应用的数据表示技术,有着灵活表示数据,结构简单,互操作性强,模式和内容分离,所以用xml作为数据空间的数据项的表示是现有技术中比较合适的一种。本文所用来表示数据空间的数据项数据时所用的具体表示方式就是基于xml的。

同样对应于数据项的形式化表示,也分为如下几个部分,

1)数据库数据项的名称信息

Employees

2)数据库数据项的模式

数据项不单要满足数据空间的一些特点,同时还要符合来自于数据源的一些特点,比如说对于数据库的数据,数据库的用户名,密码,数据库表所特有的模式信息,库信息等等,这些信息对于数据项的管理,使用及演化有重要的作用.下面是一个数据项的模式信息:

dbo

2009.5.1

35k

2009.9.4

EmployeeID

3) 数据库数据项的数据信息

数据空间最终要的部分就是数据信息,数据先行这也是数据空间的一个主要的特征,每个数据项的最重要的部分就是数据信息,这也是数据项所能存在的根本,数据信息所反映的应是所来自数据源的最纯粹的,不包含多余信息的数据,既“数据仅仅是数据”。

1

Davolio

Representative

2

Andrew

VicePresident

4) 数据库数据项的关联信息

在数据空间中每个数据项都不是自己独立存在的,它都会与数据空间中的其它数据项存在着各种各样的关联,这些关联有来自主体建立的,也有随着数据空间的演化而产生变化的关联,还有的是随着时间的变化而产生的,这些关联将数据空间中的数据项之间,数据项与主体之间,构成逻辑上的关联关系。

Orders

Primary-ForeignKey

3 结论和进一步研究

数据空间中的数据项是数据空间中最基本的数据表示单位,本文从数据空间的特点入手,详细分析了数据空间中数据的特性,根据这些特性本文提出了数据项的定义,将它作为数据空间的最基本的数据表示单位,并提出了数据项的形式化表示,对数据项从理论上作出了抽象化的表示,并以数据库作为数据项的数据源依据本文提出的定义做出了表示。尽管本文对数据空间的数据项表示进行了一定的研究,但是很多具有挑战性的研究课题,比如说,数据项的查询,大数据量的表示,数据项对视频,音频等数据的表示等等。

参考文献:

[1] Meng XF.From Database to Dataspace, From Enterprise to People[J].Annual Report of WAMDM Lab. School of Information, RenminUniversity of China,2006.2-7.

[2] FrankLin M , Halevy A , Maier D . From databases to dataspaces : A new abstraction for information management[J].SIGMOD Record,2005,34(4):27-33.

[3] Marcos Antonio Vaz Salles, Pay-as-you-go Information Intergration in Personal and Social Dataspaces [D].Rio de Janeiro:Catholic University of Rio de Janeiro,2008.

[4] 李玉坤,孟晓峰,张相於.数据空间技术研究[J].软件学报,2008,8:18-31.

[5] Dittrich JP,Antonio M ,Salles MAV , iDM: A unified and versatile data model for personal dataspace management[A].In: Proc. of the 32nd int' l conf. On Very Large Data Bases(VLDB 2006) New York: ACM Press,2006.367-378.

[6] Blunschi L, Dittrich J-P,Girard OR, Karakashian S.K and Salles MAV. A Dataspace Odyssey:The iMeMexPersonal Dataspace Management System[A].CIDR 2007:114-119.