开篇:润墨网以专业的文秘视角,为您筛选了八篇海量数据范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
当前,空间信息技术发展迅猛,以空间数据为主的空间信息挖掘和应用成为现代人类生产生活的一个重要特征。特别是遥感影像数据,由于其具有获取方便、周期短、信息量大等特点而成为空间数据的重要组成部分。然而,由于遥感数据的数据量十分庞大,特别是对于具有不同来源、不同分辨率与不同时相的数据,其存储与管理均十分困难,且由于其本身具有的稀缺性与机密性,在一定程度上限制了遥感影像数据的充分利用,因此,迫切需要对其进行有效的组织、存储、管理和共享的研究。
研究表明,为实现影像数据的网络服务,可以利用遥感影像元数据,采用流行的数据库技术对遥感影像数据进行组织与管理,并完成基于XML的影像元数据的,实现用户通过网络对遥感影像数据的查询、检索与访问,为影像数据的共享奠定了基础,同时利用本体技术的优势,建立起遥感影像信息本体。
影像数据的存储管理
1.元数据的存储管理
元数据为空间数据的存储管理与共享提供了有效的手段,通过元数据信息,用户可以在没有真实数据的情况下,获取有关数据的信息,从而为数据的共享与利用提供了可能。目前关于矢量空间数据的元数据标准已经制定,并形成了我国的地理信息国家标准,而关于遥感影像方面的元数据标准,尚处在研究之中,未形成一个普遍接受的标准。为此,国家遥感工程中心在ISO 19115.3 遥感影像元数据标准以及我国即将推出的地理信息元数据标准的基础上,结合项目的实际情况,制订了遥感影像元数据草案。该草案包括7个元数据集、6个公共数据类型和15个代码表,从标识信息、数据质量信息、参照系信息、内容信息、覆盖范围、分发信息和遥感信息等方面对遥感影像数据进行了详细的表述。
2.影像数据的存储管理
由于遥感影像的数据量十分庞大,难以直接进行存储,不利于后续的处理、提取、浏览与检索,因此需要对其进行预处理,主要包括降采样、影像压缩与影像分割等内容。
影像分割是将遥感影像按照行列值分割为相同大小的数据块(tile),并以tile作为影像存储的基本单元。每个tile均以一条记录的方式进行存储,不同记录通过编号进行排列。对于不能够平分的,出现多余的行或列时,应将其单独存放。当用户对影像进行调用时,通过映射关系,只调用与用户有关的tile集合即可,从而优化了数据的存储、传输、浏览模式。
为减小影像的传输数据量和优化显示性能,需建立影像金字塔(图1),通过影像降采样方法,建立一系列不同分辨率的影像图层,每个图层分割存储,并建立相应的空间索引机制。常用的影像重采样方法有双线性差值、立方卷积等。
由于影像的数据量比较庞大,为减小影像的存储空间,还需要对影像进行压缩处理后存储。当用户调用数据时,首先对数据进行解压缩处理,然后再返回给用户。常用的图像压缩方法有JPEG、LZ77等。
3.影像数据库结构设计
遥感影像数据库主要可以分为影像元数据库和影像数据库两部分(图2)。影像元数据库用于对遥感影像元数据标准中的数据集进行存储与管理,影像数据库用于对影像数据进行存储和管理。元数据同影像数据通过ID字段进行一对一的关联,保证了元数据与影像数据的一一对应,从而实现通过元数据可以惟一地查找相应的影像数据,而通过影像数据,又可以惟一地查看该影像数据的相关信息,实现了遥感元数据与影像数据的一体化管理。
影像数据网络共享与服务
1.基于元数据的影像数据网络共享
构建遥感影像元数据的主要目的是为了能够实现影像数据的网络与共享。因此元数据的网络是影像数据的前提与基础。
目前元数据的网络大多采用XML技术。XML是一种元语言,是可以用于描述其他语言的语言。用户可以根据需要,利用XML Schema(或者DTD)自行定义标记和属性,从而可以在XML文件中描述并封装数据。XML是数据驱动的,这使得数据内容与显示相分离。XML可以在类似于Netscape Navigator或Microsoft Internet Explorer的浏览器中显示,并通过因特网在应用之间或业务之间交换,存储到数据库中或从数据库中取出。因此,XML是元数据最好的描述方式,能很好地满足元数据在网上传输、交换的需要。
用户通过网络的元数据信息,可以初步了解遥感影像数据的相关信息,然后通过元数据的导航,实现对影像数据的查询、浏览与检索(图3)。
2.基于本体技术的影像数据网络服务
本体(ontology)是从哲学的一个分支――形而上学中的本体论(Ontology)发展来的一个名词。本体论研究客观事物存在的本质,与认识论(Epistemology)相对。即本体论研究客观存在,认识论研究主观认知。而本体的含义是形成现象的根本实体,因而,本体是概念化的明确说明。最早把本体引入计算机领域的是人工智能领域。
地理信息本体与地理信息分类编码、地理信息标准术语表之间有着相似之处,本体论与分类学、术语学也存在一定的交叉。
然而,地理信息本体并不是地理信息标准术语表。地理信息本体提供了一组具有良好结构性的词汇,而且出现在本体中的词汇经过了严格选取,确保所选的词汇是本领域中最基本概念的抽象与界定。概念与概念之间的关系采用相应技术(如谓词、逻辑等)进行了完整的反映,而正是这些关系的反映使得基于本体的系统实现后能够完成语义层面的一些功能。地理信息标准术语表仅仅是地理信息领域中各种词汇的集合,相对本体而言还比较松散。
本体也不单纯是一个词汇的分类体系,即不是地理信息中的分类和编码表。本体和地理信息的分类非常相似,尤其是把本体的理论应用于地理信息分类编码时,这种相似性更为明显。总的说来,地理信息本体比分类编码表中所反映的词与词之间的关系要丰富。
John R. Talburt教授是国际信息与质量协会技术顾问委员会成员。该组织是信息与数据研究领域唯一专业国际组织。Talburt教授认为,中国正面临海量数据爆发,信息与数据质量优化将成企业竞争力。
在西安交大与安客诚的IQ/DQ最佳实践论坛中,Talburt教授不但与安客诚大中华区业务发展副总裁孔宇先生一起深度剖析如何管理与优化信息、提高数据质量以及减少运营风险的实践经验。论坛特邀中国邮政集团数据管理处处长赵岫枫女士介绍了中国邮政邮编地址的数据质量提升服务,并针对数据管理与优化的主题与参会者做深度分享。
Gomez中国门户 2.0版
Compuware总裁兼首席运营官(CEO)Bob Paul在会上做主题演讲.jpg
日前,专注于从事技术性能服务,全球领先的应用性能管理(APM)供应商Compuware公司(Compuware Corporation,NASDAQ:CPWR)宣布推出针对中国市场的统一应用性能管理解决方案――Compuware Gomez中国门户 2.0版。该新版本由经验丰富的中国研发团队开发,使中国用户能够用本地语言访问业界独一无二的“First Mile”(数据中心)到 “Last Mile”(终端用户)APM 解决方案,为中国用户提供全面的终端用户性能的全球化视图。
近年来,随着中国APM市场的不断增长,中国已经成为Compuware全球APM市场重要地区之一,Compuware也对中国市场寄予了很高重视。Compuware总裁兼首席运营官(CEO)Bob Paul先生、Compuware 亚洲与印度区副总裁Nick Evered先生、Compuware APM业务部首席技术官Steve Tack先生、Compuware APM 中国区研发和运营副总裁李启蓉女士、Compuware大中华区解决方案销售总监李翔以及网宿科技股份有限公司(ChinaNetCenter)行政副总裁刘洪涛先生等公司高层共同出席了此次会,向与会者们介绍了Compuware Gomez产品业界领先的技术亮点,分享了Compuware Gomez产品带给中国企业的核心价值,并与现场用户和媒体展开深入交流。
云客户端计算革新梦想 迎接IT消费化时代到来
迎接IT消费化时代到来
Gartner于2005年提出的“IT消费化”预测已变成现实。所谓“IT消费化”,即是信息技术的消费化,它的产生来源于个人科技消费商用化而产生的对科技产品及服务的新一代需求;是消费技术浪潮深入企业的产物。在商业世界中,企业要求随时获得速度、质量、安全及灵活的技术支持,而云、虚拟化和移动设备正在使这种需求成为可能。最新IDC调查也显示,IT消费化是信息技术改变人类工作与生活方式的最新体现。现如今,在后PC时代,IT消费者化概念变得愈加的火热。每个人都会感受到它的影响力,而IT界更是必须找到支持IT消费者化的方式,来留住雇员并保持企业的生产力。
关键词:键值;云计算;集群
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)07-1491-03
在当今这个信息爆炸的时代,互联网上的数据访问量正以几何级数的速度增长,提高对海量数据的访问和处理的需求变得日益迫切。“云计算”技术的出现使得快捷高效完成TB乃至PB级的数据挖掘成为可能。Google公司以Map/Reduce为基础,结合GFS、Bigtable已经成为全球互联网搜索引擎的翘楚,而Google取得成功的关键恰恰是因为其是最早也是最成功的“云计算”理念的实践者,但Google公司出于技术保护并没有开放其云计算模型的实现细节。
Hadoop作为Apache组织中一个专注于DFS和Map/Reduce的开源项目,完成了对Google的MapReduce编程模型、GFS分布式文件系统等云计算模型核心技术的开源实现,使得全球数以万计的开发者和众多实力雄厚的软件厂商开启了基于Hadoop研发“云计算”模型和应用的技术浪潮。
1 Hadoop整合Cassandra的必要性
1.1 Hadoop的特性
Hadoop是Apache开源组织的一个能够对行量数据进行分布式处理的软件框架,源于Lucene和Nutch两个开源项目,其核心技术是Map/Reduce和HDFS,分别是对Google的MapReduce和GFS的开源实现。基于Hadoop可以轻松的编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。
Hadoop的主要特性包括:
1)Hadoop的Map/Reduce能够运行在由数量庞大的商用服务器组成的大型集群上,可对TB级数据以可靠容错的方式进行复杂分析运算和并行处理。
2)Hadoop的分布式文件系统HDFS是一个具有高度容错性能的系统,它不但具有良好的错误检测功能还可以快速自动的进行数据恢复。HDFS被设计可以存取TB级的数据,适合部署在由大量廉价计算机所组成的大规模集群上。
Hadoop的主要缺点是其虽然拥有自己的分布式文件系统HDFS,但HDFS的实时读写性能较差,在并发性和可扩展性方面也较为欠缺,这就使得长于运算能力的Hadoop迫切的需要找到一个能够很好的支持并发处理并且拥有良好的实时存取能力和可扩展性的数据存储系统。
1.2 Cassandra的特性
Cassandra最初是由Facebook开发的一套开源的分布式键值数据库系统,它同时具备了Google BigTable的数据模型和Amazon Dynamo的完全分布式架构,具有良好的可扩展性,目前被很多大型的Web2.0网站所使用,是一种流行的分布式结构化数据存储方案。
Cassandra的主要特性包括:
(1)数据具备最终一致性,集群整体的可用性高。
(2)分层数据压缩,能够有效地减少数据体积,同时也能减少磁盘I/O。
(3)高可用、可扩展,无中心节点设计使得单点故障不影响集群服务,集群性能可线性扩展。
Cassandra的主要缺点是其虽然支持Map/Reduce计算,但自身并没有包含Map/Reduce功能,因此也就不具备自己对数据进行复杂分析运算的能力,需要借助于其他分布式计算工具才可以。
1.3 Hadoop与Cassandra取长补短
Cassandra是一个功能非常强大的海量数据存储系统,但它的劣势是缺乏对海量数据进行分析的能力,而Hadoop虽然提供了海量存储的能力,但是数据存储的特点是一次写入、多次读取,不支持数据的修改,因此无法实现实时读写。所以,可以将Cassandra存储的能力与Hadoop Map/Reduce计算的能力进行整合。Cassandra提供底层的存储,支持数据的实时读写,Hadoop提供批量计算的能力,将Cassandra中的数据批量加载到mapper和reducer中进行计算,得出最终的结果。
2 Hadoop整合Cassandra实施方案
Hadoop整合Cassandra就是两者互相取长补短的过程,即将Hadoop Map/Reduce的计算能力和Cassandra的存储能力进行结合。具体实施方案可以概括为,先将待处理的海量非结构化数据通过Hadoop Map/Reduce导入到Key-Value数据库Cassandra中,以实现数据的实时存取,解决Hadoop的HDFS存储能力欠缺的问题;然后,当需要对海量非结构化数据进行数据分析时再将Cassandra中存储的数据作为输入通过Hadoop Map/Reduce进行计算得出结果。这样一来既发挥了Hadoop与Cassandra各自的优势,又摒弃了二者的不足,从而相得益彰。
2.1使用Map/Reduce将Hadoop海量数据导入Cassandra中
通过Map/Reduce程序,可以将Hadoop分布式文件系统中的海量文件批量导入Cassandra中以实现实时存取。例如某通信系统需要记录每个客户的通话时长,所以客户的通话时长(以秒为单位)数据实时写入Cassandra系统中,并且数据分析人员可以在任意时刻启动Map/Reduce分析程序,从Cassandra中读取客户的通话时长数据进行统计分析。
通信系统按照客户某天某一小时划分,客户通信记录文件CallRecord.txt文件格式如下:
18023509018 - 800
数据文件CallRecord.txt的每一行中,“”符号前是客户使用的手机号,“”符号后是客户使用该手机号的通话时长。存储呼叫者通话时长的ColumnFamily可以采用Standard类型,Column排序规则为TimeUUIDType,Row的key为呼叫者的手机号码,Column的值为通话时长。
Cassandra默认的ColumnFamily在Cassandra/conf/schema.example.txt文件中定义,也可自定义ColumnFamily即在Cassandra/conf目录下新建schema.txt,内容如下:
create keyspace MyKeyspace1
with replication_factor = 1 …
2.1.1 编写Map/Reduce程序
根据需求,在map过程中需要拆分CallRecord.txt文件中的数据,提取出呼叫者的手机号码和对应通话时长。在map完成之后,关闭Thrift客户端,释放占用的资源。以下是MapReduce程序CallRecord.java的代码组成:
1)编写mapper函数
在mapper中,需要先初始化Thrift客户端,设置使用的Keyspace,以将数据写入Cassandra服务器中,实现逻辑如下:
tr.open();
cassandraClient.setKeyspace(“MyKeyspace1”);
初始化Thrift客户端后,在mapper函数中拆分输入数据,找出呼叫者手机号码和对应通话时长,构建需要插入Cassandra的Column,实现逻辑如下:
cassandraClient.insert(
ByteBuffer.wrap(mobileNum.getBytes(“utf-8”)),cp,c,ConsistencyLevel.ONE);
在mapper函数执行完毕后,还需要将Thrift客户端关闭,释放占用资源。
super.close();
本程序只需编写mapper函数即可,所以在Map/ Reduce程序的运行设置中将Reduce的个数设置为0,这样就不会执行Reduce流程了。
conf.setNumReduceTasks(0);
2.1.2 打包运行Map/Reduce程序
将CallRecord程序代码打成JAR包,名为CallRecord.jar,入口类为CallRecord,然后就可以对以上这个Map/Reduce程序进行测试了。
2.2 将Cassandra中的数据作为Map/Reduce输入
当需要对海量非结构化数据进行数据分析计算时,可以使用Map/Reduce程序将Cassandra中存储的某个Keyspace下的Column中的所有数据作为Map/Reduce的数据输入Hadoop,然后由Hadoop得出运算结果。以下是MapReduce程序CallCount.java的代码组成:
2.2.1 编写Map/Reduce程序
1)编写mapper函数
mapper函数中输入的数据为Row的Key,以及该Key对应的所有Column。在通话时长的统计中,只需要关注每一个Column的Value即可。
2.2.2打包运行Map/Reduce程序
将CallRecord程序代码打成JAR包,名为CallCount.jar,入口类为CallCount,然后就可以对以上这个Map/Reduce程序进行测试了
3 整合Hadoop与Cassandra所遇到的主要问题
3.1 数据传输速率降低造成网络阻塞
当数据达到海量级别的时候,应用请求的运算离它操作的数据越近效率就越高。因为这样能降低网络阻塞的影响,提高数据的传输速率和吞吐率。将运算移动到数据附近,比将数据移动到应用所在更好。整合Hadoop与Cassandra虽然解决了数据实时存取与分布式运算分析的问题,但在二者之间的数据相互传输势必会降低整体运行的速率。
3.2 Hadoop与Cassandra版本兼容性问题
Hadoop与Cassandra的整合也会遇到各自不同的版本之间的兼容性问题。例如:Cassandra 0.6.X默认只能与Hadoop0.20.X进行整合,与Hadoop0.19.X整合就要修改Cassandra的源代码支持才可以。
4 结束语
“云计算”时代的到来将势必改变互联网的服务运营模式,甚至是对整个IT领域的发展产生广泛深远的影响。在云计算技术浪潮席卷全球的今天,无论对于微软、谷歌之类的IT巨头还是广大的中小软件企业,这都是一个拓宽自身发展空间的绝佳机会。Hadoop作为当今分布式计算领域最为成功的开源框架,与可靠性和可扩展性俱佳的Cassandra键值数据库相结合,发挥各自在分析计算与海量存取方面的优势,将为在开源领域部署云计算应用开创一种全新的切实有效的技术模式。
参考文献:
[1] 邓倩妮,陈全.云计算及其关键技术[J].高性能计算与发展应用,2009,1(26):2-6.
[2] 苏翔宇. Key-Value数据库及其应用研究[J].电脑知识与技术,2012.
关键词:物联网 海量数据 技术
中图分类号:G64 文献标识码:A 文章编号:1674-098X(2013)01(c)-0182-01
物联网中传感设备种类繁多,需要对来自不同网络、不同子系统的海量异构数据进行统一的处理及存储,从而要求物联网的海量数据处理机制能融合多网、多源、异构的海量数据并对这些数据进行高效快速的处理,从中获取有价值的信息,进而提供智能决策。同时,海量数据处理任务需要多种资源,包括计算资源、存储资源、网络资源等,对这些资源的统一规划和调度,可以有效地加快海量数据处理的速度。
下面对物联网中涉及到的海量数据处理技术分别进行介绍。
1 多源数据融合技术
物联网中数据的存储方式、组织结构以及时效性呈现出多样性。如何从跨域、异构、动态、海量的数据资源中提取用户所需的知识,是面临的一个重要问题。将多源异构的数据资源有效地聚合在一起,提供统一的数据操作方法是解决这个问题的有效途径。有效聚合多源异构数据的重点是建立数据参考模型。而基于元数据的目录体系和交换体系是数据参考模型建立的基础性保障。在进行融合前必须对来自多个传感器数据源的数据和信息进行预处理以精简处理的数据量,针对融合的水平和特点还要考虑不同层次的数据融合方法。
(1)海量数据预处理技术。通过对传感数据进行预处理可以有效去除明显的错误和冗余的数据,精简所选数据中的有用部分。传感器观测到的数据由事件组成,监测采集的事件有确定性和异常及突发事件,采用海量数据异常事件提取技术,以异常信息识别理论为基础,通过快速识别冗余、修正错误等无效事件对数据进行预处理,以滤除数据采集过程中的干扰和噪声,进一步过滤并分组形成有效事件集,提高实时处理的速度和精度。
(2)目录交换体系研究技术。为了支持统一数据参考模型,目前已研究出了多个数字对象标识管理和服务系统,例如,提出了CDOI系统。该系统采用UUID(Universally Unique Identifier,通用唯一识别码)进行编码,提供了CDOI注册、定位、收费以及增值服务,能够满足分布式、海量数字资源标识的需要。
(3)多源数据融合中数据参考模型建立技术。物联网中的数据可以分为结构化数据,非结构化数据和半结构化数据。对于结构化数据一般采用关系数据库的方式进行管理,非结构化数据采用数字对象的方式进行管理,而半结构化数据则采用XML的方式进行管理。通过目录交换体系可以建立不同类型数据之间的联系,为多源数据融合提供标准的格式。
(4)多层次数据融合技术。根据物联网中海量数据的特点以及融合的目标,分别从数据级、特征级、决策级三方面进行融合。数据级融合是最低层次的融合,是在各传感器的原始数据未经预处理之前就进行的数据综合和分析。特征级融合是指从各个传感器提供的原始数据中提取特征,然后对这些特征进行融合。决策级融合是指将单个传感器做出的决策进一步融合,为指挥控制决策提供依据。
2 海量数据挖掘技术
MapReduce架构可以作为海量数据资源知识元挖掘算法的统一处理机制,在Hadoop分布式系统平台上,能够实现分类、聚类和关联知识挖掘等算法。
3 物联网海量数据存储查询技术
物联网广布传感设备,采集生成大量实时、海量、多源、多粒度、多纬度流数据,其规模可达到TB甚至是PB级,研究物联网海量数据的存储、归档和查询,集中有效地处理这些数据,并高效地进行管理,高实时性地统一定制数据给用户,以达到与用户信息系统间的完美结合。
(1)存储技术
物联网数据存储于大量网络节点上,为了减小数据迁移时对网络带宽资源的占用,采用就近存储原则,同时,借鉴Bloom Filter算法的思想,可以快速定位到数据所在节点,避免泛洪式查询。另外,设计磁盘容量耗尽时的数据回收机制,结合查询历史统计结果和系统当前存储容量,为不同种类数据动态设置数据生存周期。
(2)索引技术
物联网数据包括时态流数据和空间流数据,对于时态流数据,主要查询类型为间隔查询,可以采用B-Tree、Bitmap索引等。对于空间流数据,常用查询操作是寻找某个区域内所有符合某个条件的对象,可以采用多维索引技术,如R-Tree等,在有限空间里建立最优索引,使系统满足效率要求。
(3)移动数据查询管理技术
物联网是一个移动计算环境,其特点具有移动性、频繁断接性、带宽多样性、网络通信非对称性等。
通过对移动对象的位置进行表示与建模来对移动对象进行有效管理;通过对移动对象进行索引,减小搜索空间从而提高查询的性能;通过对移动对象和静态对象分别建立相应的索引结构来完成不同种类对象的查询处理;通过将某一时间区内查询结果的变化信息随时传递给查询用户,来完成位置相关的持续查询和环境感知的查询处理。
4 物联网资源管理与调度技术
[关键词]海量数据库优化
中图分类号:TP311 文献标识码:A 文章编号:1009-914X(2015)05-0338-01
当前,大数据及云存储这两个概念被炒得特别的火。各行各业都希望能够利用大数据来促进行业的发展。当然,大数据的发展离不开云存储。数据的存储和利用是大数据的前提。,数据库性能优化方法,已经成为信息领域需要研究的核心问题,受到了越来越多学者的关注。
一、概念介绍
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的特点归纳为4个“V”――Volmne(大量)、Variety(多样)、Velocity(高速)、Value(价值)。
云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。使用者可以在任何时间、任何地方,透过任何可连网的装置连接到云上方便地存取数据。
二、首先我们来分析一下影响数据读取的因素
1、数据的存储结构对数据读取速度的影响
在大数据背景下,数据的存储方式变得至关重要。总体而言,数据的存储方式可以被分为两种:随机存储方式和固定存储方式。所谓随机存储方式是指按照输入的顺序,数据被存储在磁盘的任意空位置上;所谓固定存储方式是指数据被存储在预先指定的磁盘位置上。显然,随机存储方式写入数据快,但读取数据比较慢,而固定存储方式则是写入速度相对较慢,但读取数据比较快。由此我们可知:在对数据保存速度非常严格而对读取数据要求不高的系统,可以考虑采取随机存储的方式;而在对数据读取速度有较高要求的系统,则建议采取固定存储方式。常见的固定存储方式有索引组织表和聚簇表。
2、不同类型的索引对数据读取速度的影响
索引是对数据库表中一列或多列的值进行排序的一种结构,是能够从整体内容中直接找到某个特定部分的目录。索引是优化器在制定执行计划时,为了寻找最优化的路径而使用的战略要素。只凭借列本身的特征我们无法决定索引构成的战略方案。在设计索引时,必须要从实际所使用的SQL中搜集出包含不同列的读取类型,因为它对索引的性能有着直接影响。同时还应当对各个列所具有的离散度、基数、与其他列的结合度、重要度等信息予以综合评价。无视这些重要信息来创建的索引将很难发挥其应有的作用。关系型数据库中比较常用的索引有B-Tree索引、位图索引、B-Tree聚簇索引、哈希聚簇索引、反向键索引以及基于自定义的函数索引。
3、SOL执行计划对数据读取速度的影响
执行计划对数据的读取效率有着决定性的影响。在实际应用中,导致低效读取数据的原因并不是优化器,而是因为我们没能编写出有效地SQL语句或没能构建出有效的优化因子。所以,如果我们能够具备在某种程度上控制优化器制定执行计划的能力,就能够很容易实现高效读取的目的了。
三、探讨最优化的数据读存方案的思路
1、局部范围扫描的思路
顾名思义,局部扫描就是不用读取全部数据,而只是通过读取部分数据去查询自己所需要数据的方法思路。只要我们能够使用合适的方法控制执行计划来实现部分范围扫描的目的,从而能够实现获得惊人的执行效率的各种秘诀。但是,并不是所有情况都能转换为局部范围扫描,局部范围扫描的条件。但是,对于很多情况,我们要尽量将全局范围扫描向局部扫描引导,以提高我们读取数据的效率。以下是常用的将全局范围向局部扫描的方法:A、利用访问路径实现对SORT的代替。B、只使用索引的局部范围扫描。C、灵活使用MIN、MAX局部范围扫描。D、FILTER型局部范围扫描。E、利用ROWNUM的局部范围扫描。F、利用嵌套试图的局部范围扫描。G、利用函数的局部范围扫描。H、利用查询语句二元化特性的局部范围扫描。I、WEB留言板中的局部范围扫描。
2、寻找表连接的最优化方案的思路
对于大部分的数据处理,我们都需要处理至少一个以上的数据库中的表。我们在存储数据时,我们通常需要分解数据存储在不同的表中,此时只能通过表连接等方法将其结合在一起。当然,除了表连接之外还有很多能够实现连接的方法,但表连接在所有的数据连接中所占据的比例是最大的。所以,如果我们能用最优的表连接方式的话,我们读取数据的效率能得到显著的提高。在处理海量数据时,我们不能简单地将排序合并连接视为手中的王牌来应付。常见的高效处理海量数据的表连接方法有哈希连接、半连接、星型连接及位图连接索引。
3、数据逻辑分割
通常,制造企业处理环境是非操作型事务处理环境。可采用分布数据库,每个部门有自己的一个或几个分布式数据库,各部门的数据库要保持与公司的数据仓库同步,这样做有两个理由:①企业资料的存档备份、版本控制;②为企业以后搭建决策支持系统做准备。当然,这样建立一个数据仓库会增加企业成本,根据企业具体要求,是否有决策支持系统的长远打算。关键点还是在于将公司数据库按部门分割成几个数据集市,缩小数据规模。
4、数据查询的优化方法
面向全网的安全信息和事件管理平台(SIEM)可以帮助MSSP摆脱这种困境。Unisys通过选择SIEM(安全信息和事件管理)供应商中的佼佼者―ArcSight公司的ESM (Enterprise Security Manager)合规性解决方案,成功地解决了这一问题。
2006年5月,Gartner公布的《2005年全球安全信息和事件管理市场占有率》报告显示,整个安全信息和事件管理软件及应用市场在2005年实现了32.2%的同比增长,达到了2.88亿美元。用户对于法规遵从及企业内外部威胁实时监测不断增长的需求,是推动安全信息和事件管理市场发展的两大因素。同时,Gartner以执行能力(Ability to Execute)和前瞻性(Completeness of Vision)两个评估指标,以Magic Quadrant象限图的方式,显示了它对于SIEM供应商的评价。所谓执行能力,包括供应商已面市的产品及公司业务运行的记录;而前瞻性评估则以供应商已经及未来对该市场的影响力来衡量。Gartner评出了6个值得关注的市场领导者,其中ArcSight及其旗舰性产品ESM位居前列。
所谓安全信息和事件管理(SIEM),也叫安全信息管理(SIM),是安全管理领域发展的一个新方向。SIEM是一个全面面向企业IT计算环境的集中安全信息管理平台。该平台能够收集来自企业计算环境中各种设备和应用的安全日志和事件,并进行存储、监控、分析、报警、响应和报告。其特点可概括为:变被动的单点防御为全网的综合防御。目前,SIM正广泛应用于企业内部威胁管理、合规审计、日志集中管理、安全审计、应急响应等方面。
关键词: 海量数据; 机器翻译; 单词; 语义筛选
中图分类号: TN911?34; TP391.1 文献标识码: A 文章编号: 1004?373X(2017)06?0018?03
Abstract: In order to improve the accuracy of machine translation of words, the key semantic screening and feature extraction are needed. Because of this, a method of the key semantic screening of the massive data machine words based on thesaurus natural semantic information extraction is proposed. The thesaurus concept semantic decision tree model of the massive data machine words is build. The semantic information conversion mode is used to calculated the key semantic utilization rules of machine words and the information parameters of clustering center. The thesaurus natural semantic information extraction method is adopted to conduct semantic translation evaluation and reliability testing for realization of the automatic control of key semantic selection. The simulation test results show that the method has improved the adaptive ability of the text machine translation, and the accuracy of the translation effectively.
Keywords: massive data; machine translation; word; semantic screening
0 引 言
在大稻菪畔⑹贝,需要采用机器翻译处理大量的文字数据信息,为了提高对海量文本数据的机器翻译的准确性,需要对机器单词的关键语义进行准确的特征筛选,把握机器单词的关键信息,提高对机器翻译的面向对象性和人机交互能力。机器翻译模型分为三个层次,分别为局部语义聚类[1?2]、语义情感分析[3]和表现模型。其中数据模型提供机器单词翻译的数据来源,作为原始语言的文本输入,通过与翻译对象的某个领域相关的数据集合分类,进行程序控制,实现领域本体模型构建;基于语义度量的RDF图近似查询[4],在语义模型中形成机器翻译的概念汇聚点,根据语义集合概念之间的上下层关系,进行语义转换和信息抽取实现语义筛选后的机器翻译输出。本文针对当前的关键语义筛选方法的控制性不好和准确性不好的问题,提出基于主题词表自然语义信息抽取的海量数据机器单词中关键语义筛选方法。
1 海量数据机器单词的文本语义主题词表模型
1.1 文本语义主题词的决策树
为了实现对海量数据机器单词中关键语义筛选,首先构建海量数据机器单词的文本语义主题词表模型,构建文本语义主题词概念语义度量决策树[4],根据L. Breiman,J. Friedman等人提出分类和回归树的思想[5?6],引入二叉分类回归决策树,构建机器翻译的语言评价集,对海量数据机器单词进行主分量特征优化处理。假设语言评价集β[∈][0,T]为抽取类型性特征向量集S的主特征量。其中T为海量数据机器单词评价集S中元素的个数,数据集主特征向量β可由函数[Δ]表示为一个二元语义分布的决策树模型,有:
2 关键语义筛选改进
2.1 关键语义的利用规则计算
在上述进行了文本语义主题词概念集的基础上,进行海量数据机器单词中关键语义筛选方法改进设计,提出基于主题词表自然语义信息抽取的海量数据机器单词中关键语义筛选方法,采用语义信息转换方式计算机器单词中关键语义的利用规则、聚类中心等信息参量[9],令[A=a1,a2,…,an]为主题词表覆盖表达概念的训练集的属性集,[B=b1,b2,…,bm]为文本中抽取的特征词的类别集,[ai]的语义特征抽取的属性值为[c1,c2,…,ck],得到主题词表的关键语义筛选的匹配信息表达式为:
2.2 关键语义自动筛选实现
采用主题词表自然语义信息抽取方法进行语义评估和翻译可靠性测试,实现关键语义自动筛选控制,在实现关键语义筛选的算法设计之前,给出形式概念定义。
定义 形式概念(formal concept):设E是形式背景中的语义特征集合O的一个子集,定义[fE∶={AA|OE,ORA}](表示E中连接两个主题词的形式概念集);相应的,设I是属性集合A的一个主题词表子集,定义[gI∶={OO|AI,ORA}](表示关键语义筛选查找属性集的集合)。
若(E1,I1),(E2,I2)是海量数据机器单词翻译集合K=(O,A,R)上的两个概念,根据偏序关系取出文档中的主题词,如果有概念C2≤C1,每条有向边的距离满足C2≤C3≤C1,构建语义特征概念格,选择相似度最小的连接节点对(E,I)进行语义筛选,得到关键语义筛选的连通图如图2所示。
根据上述定义和关键语义筛选的连通图设计,得到关键语义自动筛选的算法如下:
输入:所有海量数据机器单词的属性主题词集
输出:形式关键语义筛选结果
BEGIN
Context = NEW relationship among parameters;
//初始化输入参数集,生成可选的组合方案
Attr = NEW ontologies;
//初始化属性集,进行参数间的语义匹配
Text = NEW Web service []; //输入参数映射
//依次处理每个输出参数概念,进行关键语义筛选的动态匹配
FOR(int i=0; i< Situation; i++){
FileRihfer(Tfevdt[i]);
Obj = NEW RinsinList; //使用一阶谓词逻辑
//查找属性集Attde的一个翻译序列或历史子任务
IF(characteristic similarity r IS NOT EMPTY){
FOR (int j=0;j
Obj.wfhi(j,"0");
}
} }
//规则属性转换成PDDL谓词,或添加新的属性,实现关键语义自动筛选控制
END
3 实验测试分析
对海量数据机器单词关键语义筛选的仿真实验建立在开源代码为Heritrix的环境中,其中操作系统:Windows XP,机器单词库源于Google AJAX seArch AP,利用实际采集的单词信息数据构建海量数据机器单词的特征词集合完整概念格如图3所示。
从图3自顶向下观察概念格可知,采用本文方法进行语义筛选,每一个机器单词的特征词集合的父概念都包含了子概念的对象,说明采用本文方法进行语义筛选具有完备性,能有效覆盖机器单词翻译的概念集。为了定量测试本文方法进行机器单词关键语义筛选的性能,抽取主题词表的机器单词语义对共2 800对,采用本文方法和传统方法进行测试分析,参数设定自定义语义特征同义词的判定阈值为0.23, 相似度值大于0.1,得到筛选的查准率对比结果如图4所示,从图4得知,采用本文方法进行海量数据机器单词的关键语义筛选的查准率较高,性能较好。
4 结 语
本文研究了海量数据机器单词的优化翻译问题,提出基于主题词表自然语义信息抽取的海量数据机器单词中关键语义筛选方法。实验结果表明,采用本文方法进行机器单词中关键语义筛选,查准率指标表现较好,说明能有效提高机器翻译准_性。
参考文献
[1] 辛宇,杨静,汤楚蘅,等.基于局部语义聚类的语义重叠社区发现算法[J].计算机研究与发展,2015,52(7):1510?1521.
[2] 冶忠林,杨燕,贾真,等.基于语义扩展的短问题分类[J].计算机应用,2015,35(3):792?796.
[3] 吴江,唐常杰,李太勇,等.基于语义规则的Web金融文本情感分析[J].计算机应用,2014,34(2):481?485.
[4] 章登义,吴文李,欧阳黜霏.基于语义度量的RDF图近似查询[J].电子学报,2015,43(7):1320?1328.
[5] 孟祥福,严丽,马宗民,等.基于语义相似度的数据库自适应查询松弛方法[J].计算机学报,2011,34(5):812?824.
[6] 寇月,申德荣,李冬,等.一种基于语义及统计分析的Deep Web实体识别机制[J].软件学报,2008,19(2):194?208.
[7] HERRERA F, HERRERA?VIEDMA E, MARTINEZ L. A fusion approach for managing multi?granularity linguistic terms sets in decision making [J]. Fuzzy sets and systems, 2000, 114(1): 43?58.
关键词:云计算 图书馆 海量数据存储 存储技术 虚拟技术
中图分类号:G250.73 文献标识码:A 文章编号:1003-6938(2010)03-0099-003
Research on the Library Mass Data Storage Based on Cloud Computing
Du Haining (Library of Lishui College, Lishui, Zhejiang,323000)
Abstract:As a result of mixing and evolving of many technologies, the new kind of commercial computation model---cloud computing---has many advantages such as being safe and reliable, capable of mass data storage, as well as easy and convenient to use. Distributed data storage technology and related virtual technology of cloud computing are used by the libraries so as to have a reduction of the storage and maintenance costs besides acquiring the benefits of being reliable and safe in storing the date and convenient in sharingdata between different devices.
Key words:cloud computing; libraries; mass data storage; storage technology; virtual technology
CLC number:G250.73 Document code:A Article ID:1003-6938(2010)03-0099-003
网络时代中,信息爆炸使得信息量呈指数型增加,近几年世界范围内磁盘存储系统的容量仍将以每年近80 %的速度递增。作为信息资源中心的图书馆面临与日俱增的信息资源存储问题,增大图书馆的信息资源存储能力,更大程度的实现信息资源的长效保存和资源共享成为图书馆人思考的一个问题。作为一种新型的基于互联网的商业计算模型,是多种技术混合演进的结果,成熟度较高,又有大公司推动,云计算已越来越成为人们热议的焦点话题。在云计算的模式之下,图书馆的海量数据可以存储在通过互联网连接的任何一台电脑或终端设备,并通过网络来高度共享使用,[1 ]能解决困扰图书馆的数据存储和共享等问题。
1 图书馆数字资源存储现状概述
1.1 图书馆数字资源存储方式及比较
目前,国内图书馆数字资源存储方式主要包括DAS(Direct Attached Storage,DAS,直接附加存储)、NAS(Network Attached Storage,NAS,网络附加存储)、SAN(Storage Area Network,存储局域网络)三种。
(1)直接附加存储(DAS)。直接附加存储是指主机与存储设备之间的直接连接,存储设备通过SCSI或ATA作为数据接口的存储方式。[2 ]是目前国内比较成熟的数字资源存储方式,具有标准统一、兼容性好等优点,但面对指数型增长的信息量,DAS存储方式存在可靠性和安全性较低的缺陷。当存储服务器出现故障时,将会导致存储设备中的数据不能被读取。其次,DAS的扩展性差,因为DAS 没有独立的存储操作系统,不能提供跨平台的文件共享功能,各服务器不能共享原有的DAS设备。另外,由于受服务器性能的局限,以及DAS数据存储模式是分散的,各系统下的文件必须分别存储,容易形成信息的孤岛,不利于资源的共享。
(2)网络附加存储(NAS)。网络附加存储是指直接接在网上的存储设备,实际上NAS是一台专用的存储服务器,数据通过网络协议进行传输。[3 ]网络附加存储支持异构服务器间的数据共享,在资源存储的可靠性方面也有所改善,但NAS的数据备份时消耗较多的通信带宽,导致数据传输速度过低,另外NAS不支持数据库服务,因此不适合大型数据库的应用。NAS依然存在扩展性较差的缺陷,由于受到设备容量的限制,新增加的NAS设备与原有的设备不能很好的集成,这就导致NAS对数据的备份恢复实现起来相当困难。除此之外,NAS技术所需投入的成本很高,因此不能得到较为广泛的应用。
(3)存储区域网络(SAN)。存储区域网络是独立于服务器网络之外的高速存储专用网络,其将存储子系统网络化,实现真正的高速共享存储目标。[4 ]SAN是继DAS、NAS之后出现的新兴存储技术,其具有传输速度快,扩展能力强,共享能力高以及可靠性、安全性好的特点,因此SAN成为现在社会主流的存储解决方案。尽管如此,SAN依然存在难以改变的缺陷:由于SAN是在DAS和NAS的基础上发展起来的,其技术必然复杂难懂,技术实现要求也过于苛刻。庞大繁杂的技术要领必然带来软件升级困难和投资成本过高的问题。
1.2 图书馆数字资源存储存在的问题
各种存储技术没有统一技术标准是目前国内数字资源存储存在的首要问题,使存储系统从立项到实施均无据可循,建设效果千差万别,阻碍了计算机与存储设备之间的高速互联,甚至难于实现大容量数据共享的解决方案。其次是数据快速备份和恢复能力的缺乏。现阶段各图书馆的海量数据存储系统或大或小的存在系统不稳定的问题。由于各存储技术不同程度的存在着该技术不能攻克的技术缺陷,任何技术都无法保证存储系统百分百无故障。在这样的情况下,为了保证数据的安全性就必须建立切实有效的数据备份和恢复方案。最后,为了达到图书馆数字化、信息化的要求,各图书馆对海量数据存储系统建设的资金投入不理性。盲目追求现代化主流技术导致图书馆没有清楚的了解自身需求,并且对建成后系统运行维护费用等缺乏理性分析,因此造成所建存储系统后期投入更多或投入大量资金却无法满足自身需求的现象。
1.3 图书馆数字资源存储的需求
随着网络信息服务的发展和数字信息资源的指数增长,人们在追求信息存储系统容量扩增的同时,开始越来越多的关注信息存储在有效性、安全性和存储效率等方面的问题。针对目前社会较高的数字资源存储要求,图书馆作为信息资源中心为用户提供各种信息服务,必然要在数字资源存储上迎合社会发展的需要。
(1)高性能的存储系统。将传统图书馆资源数字化并通过现代化存储技术进行存储的目的在于提高图书馆信息资源的使用效率,在此基础上建立的存储系统、存储服务器必须拥有较高的性能。目前图书馆用户对信息的需求量增加迅速,导致存储系统的访问量较大,这就要求相应的数据流量也比较大。为了加快存储系统的数据相应时间,必须采用高性能、实用性强的存储系统。
(2)可靠完整的存储方案。在实际工作中,各种不可抵抗的自然灾害和人为破坏都有可能造成存储系统的崩溃,为了提高数据存储的安全性,图书馆必须保证数据存储在任何条件下都保持可靠完整性,存储系统或存储设备出现故障时也不会出现数据损坏和丢失的现象。这就需要图书馆的信息存储系统建立一个能应对这些危机的存储方案,如:本机、本地备份,异机、异地备份,甚至是远程容灾系统等,以保证存储数据的安全可靠。[5 ]
(3)高度的扩展性存储接口。由于国内图书馆资金有限,对数字资源存储系统的投资不可能一次性到位,所以存储方案必须考虑高度的扩展性。一方面存储系统必须适应多厂商、多平台和多系统的持续发展,支持异构环境下的多系统多平台服务;另一方面,考虑到图书馆业务的发展必然导致数字资源的增长,因此存储系统的建设必须充分满足数据增长对存储系统扩容的要求。
(4)适度投资的存储原则。图书馆在海量数据存储问题上应该量力而行,根据图书馆的规模及财力选择适合本馆的海量数据存储方案。若存储方案没有考虑图书馆已有数字资源存储设施,而另行开发建立新的存储方案,这样不仅造成重复建设浪费资源,而且增加了许多不必要的资金浪费。因此,如何保护原有存储系统建设,减少海量数据存储的投资成本是构建海量数据存储时要考虑的关键问题。
2 基于云计算的图书馆海量数据存储
2.1 基于云计算的图书馆海量数据存储技术需求
在图书馆海量数据存储中的云计算技术是以计算服务器为核心,动态部署虚拟的硬件服务器。用户可以实现“无处不在”的访问,同时也和Web云上的用户共享流量和计算能力。[6 ]满足实现图书馆海量数据存储和操作需求的云计算关键技术需要:
(1)采用分布式存储进行数据存储实现云计算对图书馆海量数据的存储,并采用冗余存储的方式来保证存储数据的可靠性。通过云计算这两个技术将每个图书馆所有数字资源存储在“云”中,并由“云”来管理和调度这些海量数据,利用分布式的数据存储技术和与之相关的虚拟技术使得整合后的图书馆海量数据更加统一有序,实现图书馆数字资源的完全整合。
(2)为了满足多用户对数据的操作,云计算的数据存储技术必然具有高吞吐率和高传输率的特点;同时云计算要求硬件资源与软件资源能够更好的被共享,且具有良好的伸缩性。这就要求云计算在图书馆海量数据存储系统开发时必须具备多用户技术。此技术主要表现在两方面:其一是基于云计算的海量数据存储系统能够服务于大多数用户,且具有非常容易的伸缩性;其二是该技术提供的附加业务逻辑可以使用户对SAAS平台进行扩展来满足图书馆多用户同时进行数据操作。
(3)云计算环境下对海量数字资源进行实时监控和管理,解决图书馆中的资源种类多、规模大,对资源实时监控和管理困难的问题。从云计算技术的资源调度的粒度来看,虚拟机内部应用的调度是云计算技术中最受人们关注的技术。
2.2 基于云计算的图书馆海量数据存储系统特点
(1)确保了海量数据存储系统的可靠性和数据安全性,用户不必再为数据丢失、系统瘫痪等问题感到困扰。在确保存储系统可靠性的问题上,云计算技术最大限度地降低了服务器的出错概率。云计算模式中海量数据不再是存储于某个图书馆的服务器上,而是存储在“云” 中的上百万台服务器,因此即使“云”中的某台服务器出现故障,在云端会有其他服务器作为替补来代替崩溃的服务器进行工作。显然云计算模式下不会造成数据的损坏和丢失和图书馆海量数据存储系统的瘫痪。
(2)通过云计算,图书馆可以轻松的实现不同设备间的数据共享。图书馆作为信息资源具有向用户传播信息、使用户以最大的限度获取知识和信息。传统模式下,用户在特定的图书馆中只能获得该图书馆提供的资源,即使该图书馆与其他馆之间有共享工程建设,用户获得共享资源的程序也相当繁琐,且非常有限。通过云计算模式,相关图书馆之间可以共同构筑图书馆的共享空间,来自于任何图书馆的数字资源统统存放在“云”中,用户只需将其电子设备连接至互联网,就可以访问和获取所需的任何数据。
(3)基于云计算的图书馆海量数据存储方式提高了信息资源的更新速度。只要是通过云计算技术来开发海量数据存储的图书馆都会经常修改和添加新的信息资源,这种图书馆间互相补充的信息存储使用户可以获取到世界上最新的资料和信息。
(4)云计算的出现使图书馆存储系统的扩展能力得到大大的提高。因为“云”提供无限的空间和计算能力,使得图书馆在社会变迁过程中不必再为海量数据存储系统的扩展问题烦恼。同时也防止了图书馆海量数据存储系统扩展时对原系统的摒弃和对存储系统的重复建设。
(5)各图书馆无论规模大小都存在资金不足的现象,云计算模式的出现大大降低了海量数据存储系统建设和维护成本,而云计算技术可以通过少量的费用让图书馆获得“云”中上百万台服务器提供的服务。云计算对用户端的设备要求很低,图书馆管理员无需担心相关硬件升级的问题,另外在“云”端有专业的工作人员维护硬件,无需图书馆管理员劳神。
3 云计算图书馆海量数据存储的思考
云计算将图书馆海量数据存储带入了新的时代,是图书馆海量数据存储的变革性突破。然而时代在变迁,图书馆及其用户对海量存储系统的要求也在不断地提升,因此无论多么完善的技术都会遇到瓶颈问题,云计算技术当然也不例外。为了使图书馆海量数据存储的云计算技术走的更远,图书馆应该从各个方面找到云计算已经遇到或可能遇到的瓶颈问题,对其进行改进,使其更好的为图书馆和用户服务。首先,在云计算模式下,各个加入云计算模式的图书馆之间可以通过有关的协议共享彼此的信息资源。[7 ]虽然这样丰富了信息资源的内容,但同时也带来了版权纠纷的问题。因此,为了解决版权问题尽快制定合理的解决方案乃当务之急。其次,云安全问题一直是人们心中的疑虑,云中上百万台服务器提供了数据快速备份和恢复机制,但云端的安全性是否也同样值得我们信任呢?为了进一步保证设备和数据的安全,必须严格加强云端安全机制的建立和完善。
云计算为图书馆用户提供了一个更为简单、廉价的资源共享模式。然而任何事物都是机遇与挑战并存,为了使云计算技术更加完善的应用,它就必须迎合了大部分用户的需求,不断解决云计算在应用过程中遇到的各种问题。只有这样才能使云计算的图书馆海量数据存储真正发挥其本身的价值。
参考文献:
[1]黎春兰,邓仲华.论云计算的价值[J].图书与情报,2009,(4):42-46.
[2][3]周敬治,修蔽蔽.数字资源存储系统的构建模式及比较研究[J].情报杂志,2006,(11):106-108.
[4]刘姝.对高校图书馆建设数字资源存储系统的思考[J].大学图书馆学报,2008,(6):75-78.
[5]严庄.图书馆数字资源存储技术方案研究[J].四川文理学院学报,2007,(6):108-110.
[6]周舒,张岚岚.云计算改善数字图书馆用户体验初探[J].图书馆学研究,2009,(4):28-30.