首页 > 文章中心 > 大数据技术论文

大数据技术论文

开篇:润墨网以专业的文秘视角,为您筛选了八篇大数据技术论文范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

大数据技术论文范文第1篇

统计学论文2300字(一):统计学方法的发展及其在大数据中的应用论文

【摘要】现阶段,统计学方法在我国企业管理中有广泛应用。本文尝试对统计学方法的诞生以及发展情况进行了简要的分析,同时还对统计学方法在现今大数据时代的应用情况进行了探索。

【关键词】统计学方法发展大数据应用

对于统计学方法来说,诞生的最初只是为了进行单纯的计数以及描述,随着统计学方法的不断发展,其所涉及到的内容更加多样化。在统计学家以及各个领域专家的不懈努力之下,统计学方法正在不断的进步以及完善,在实际应用的过程中也发挥出了较为理想的效果。在现阶段大数据的时代背景之下,对统计学进行深入探究是非常重要的,会对今后多个行业的快速发展起到促进作用。

一、统计学基本发展探析

对世界统计学的发展情况进行分析,会发现,其与科学界的发展趋势较为类似,随着统计学的不断完善,也开始与其他科学进行融合发展。对统计学进行总结,可以发现,其主要具备两个基本结合趋势,即与实质性学科结合的趋势以及与计算机学结合的趋势。对于统计学来说,其与经济学结合发展我国有广泛的应用,并且产生了经济统计这一专业;而统计学与教育的结合产生了教育统计。对于这些分支学科来说,其具有双重属性。一方面是统计学的分支;另一方面是实质性学科的分支。随着计算机信息技术的不断发展,其运算能力不断提升,这也使得大规模的统计调查工作在实际展开的过程中取得了理想效果,不仅保证了数据计算的准确性,同时也保证了计算的高效性。因此,在进行统计学技术研究发展的过程中,与计算机技术的深入结合应用是重要发展途径。通过对计算机软件的有效应用可以使统计计算过程中一些疑难的部分得到有效解决,同时也使得统计计算的展开更加方便。从现阶段我国经济类统计专业的教育情况来看,一方面在对统计方法进行创新教育,另一方面在对学生利用商品化统计软件包装能力进行提升。由此我们可以看出,在今后统计学的发展过程中,势必不能离开计算机技术的支持。在今后统计学相关专业的教育过程中,应该对学生的计算机程序设计以及利用能力进行培养提升,使得在展开统计工作的时候可以通过统计模型的编程来实现。

二、统计学方法在大数据中的应用趋势

(一)统计学方法及相关领域的动态分析

目前,国内外对统计学都有较为广泛的应用,主要应用在教育行业、生产制造行业以及企业管理当中,取得了较为理想的应用效果。根据CNKI数据库中统计方法、机器学习分布情况可以看出,在机器学习领域的论文数量从2013年以后一直呈现出持续增长的势头,并且在2016年超过了统计方法领域的论文数量。由此可以说明,我国在机器学习领域的发展速度正现出稳定提升的趋势,反映了我国在大数据领域研究方面越来越深入,所应用的研究方法也开始呈现出多样化的特点。从总体上来看国内在统计学方法研究过程中已经取得了阶段性的成果,并且其所面临的拐点与国家上的统计学发展拐点基本保持一致,大概都是在2013年开始对大数据以及将其学习等方面有了深入的探究,并且开始逐渐取得突破性的成果。而机器学习方法的论文数量都是在2016年开始超过统计方法的论文数量。但是与此同时,我们也看出其差异性也很明显,国内在统计方面研究的论文以及在机器学习方法方面研究的论文与国际相比较尚且存在较为明显的差距,并且这种差距呈现出了持续性的特点,这也使得我国在这两个领域方面还有很大的发展空间。

(二)统计学方法及相关领域研究方向分析

经过对CNKI数据库中的统计方法以及大数据领域期刊论文分布情况进行分析之后,可以看出,统计方法领域中出现频次最高的是“统计分析”以及“数理统计”、“人工智能”;在大数据领域出现频次较高的是“云计算”、“图书馆”以及“物联网”等关键词。通过上述关键词来看,其所涉及到的内容都是反映当前我国统计以及大数据技术所研究的重点以及热点,同时我们也可以看出,现阶段我国在统计与大数据领域方向的研究存在着一定的重合。在进行的数据研究的时候,需要应用到统计学方法,同时统计学方法在利用的时候往往也需要与大数据进行结合。

(三)统计学方法的发展展望

有数据的地方势必就会涉及到统计学。从17世纪开始,国势学派以及算数学派的争论到今天大数据计算、计算机技术的相互作用,使得统计学的内容正在不断完善,并且其应用领域也在不断扩大,随着大数据时代的来临,使得传统的统计学发展方向发生了一定转变,开始从小样本的统计推断分析走向大数据量的挖掘分析,从而使其所掌控的数据量不断提升。在未来统计学方法发展的过程中,应该注意将统计学与新的数据思维相结合,从而产生一种新型的、应用范围更广的大数据算法。从现阶段我国大数据方法创新发展的情况来看,其与国际研究在深度以及广度上还存在不小的差距,这也恰恰说明了我国在大数据统计学方面还有很大的进步空间。现阶段,国内的大数据研究更多的是停留在信息化产业上,与其他行业的融合发展趋势尚且不明显,这也使得信息服务以及数据产业的创新发展受到了一定影响。在今后统计学发展的过程中,其研究热点势必会从数据分析以及数据发掘向算法方向转移,这样也使得大数据技术与统计学方法二者之间的联系更加紧密。

结束语

综上所述,我国统计学方法在今后发展过程中应该充分考虑到实际需求,积极适应时代变化,现阶段大数据时代已经全面到來,并且大数据技术在我国有广泛应用,在实际应用的过程中取得了较为理想的效果。将大数据与统计方法进行结合可以使统计学方法的作用得到更好的体现,也使得统计学方法不断的进步以及拓展,在大时代背景之下,其功能性得到了更加充分的展现。

统计学毕业论文范文模板(二):线上线下混合式教学在生物统计学教学中的实践与研究论文

[摘要]为提升生物统计学课程的教学水平,针对传统生物统计学教学中的局限,分析和实践基于线上网络教学+线下面授教学的混合式教学模式在生物统计学教学中的应用策略和方法。实践表明,通过线上+线下的互动与教学,能激发学生学习的兴趣与动力,丰富生物统计学的教学形式与内容,促进生物统计学教学质量的提升。

[关键词]线上线下;混合式教学;生物统计学;实践

[作者简介]严明(1981—),女,重庆人,博士,讲师,研究方向:生物技术。

[中图分类号]G642[文献标识码]A[文章编号]1674-9324(2020)25-0273-02[收稿日期]2020-03-18

生物统计学是生物医学类专业的必修课程,学生通过学习本课程掌握实验设计的原理和方法,并学会对实验数据进行统计分析和处理。然而,生物统计学涉及到大量基础理论,单纯通过教师讲解,学生理解度较低,学习效果不佳。如何在有限的课时内,改革传统的以讲授为主的教学方式,有效提高教学效果是生物统计学教学亟待解决的难题。

近年来,随着互联网信息技术的发展,一种基于线上网络教学+线下面授教学的混合式教学模式应运而生。该模式可避免传统教学模式中以教师为主导,学生学习主动性差的缺点,又可克服学生完全在线学习缺乏监管、学习效果不佳的困难。本文尝试将混合式教学方法运用到生物统计学教学中,以期在有限的教学时间内最大限度实现教学目标,提升课程教学效果。

一、线上线下混合式教学的概念及内涵

线上线下混合式教学是一种新兴的教学模式,授课教师利用网络教学平台向学生提供教学视频和课件等教学资源,并设置作业、调查等互动模块,学生利用课外时间自主完成学习任务,并通过平台与教师交流。在线下课堂,教师根据学生在线学习的情况,对疑难问题进行有针对性的讲授,帮助学生理解、掌握教学难点。

线上线下混合教学模式打破了教学的时空限制,学生可以灵活安排学习时间,通过学习在线资料提出问题,并带着问题进行课堂学习,有效提升学习效率。线上线下混合教学还可帮助教师动态掌握学生学习情况,生成客观的过程性评价材料,并丰富课程的教学形式,拓宽教学路径,因此正逐渐成为高等教育领域的一大趋势。

二、生物统计学课程教学面临的困境

1.教学时长受限。目前,本校生物统计学面向生物医学工程和医学信息工程专业开设,每学期共32个课时。由于教学内容抽象,而且学生要通过大量实践才能掌握统计学原理在生物研究中的应用,因此,教学难度高,课堂教学时间很难满足教学需求。

2.教与学不同步。传统教学模式下,教师与学生之间的沟通以课堂为主,教师按照教学安排按部就班地进行教学,对学生需求重視不足;学生缺乏主动反馈的意识,教师很难掌握学生的真实学习状况,教与学处于不同步状态。

上述困境对如何拓展教学时间,完成课程教学并指导学生学以致用提出了新的挑战。

三、线上线下混合式教学在生物统计学教学中的实践探究

1.构建线上教学平台,实现课前线上自主学习。授课教师首先以超星泛雅平台和学习通APP为依托构建线上教学平台。教师在平台上将课程每章的重难点列示出来,搭建课程框架体系,并上传包括课件和教师根据课程知识体系录制的教学视频等资料。教学视频时长控制在15分钟以内,并保证精炼、易懂,让学生不会因视频过长而放弃观看,提高学习时效。同时,在教学平台提供视频配套的课件资料,方便学生下载并配套观看。教师还在平台设置了视频弹幕问答和闯关式章节测试,学生通过答题和测试后才能进入后续章节的学习。

在教学实践中发现,线上教学平台还可以为理论教学提供良好的拓展实践平台。教师可以在线上平台提供实验设计及实验数据分析的实例供学生练习,实现对课时压缩的有效弥补。学生普遍反映网络教学平台十分有利于自主学习,尤其是遇到知识难点时,学生可以通过反复线上观看教学视频来帮助理解,能达到较好的学习效果。

此外,线上教学平台可以通过视频回放次数、测试完成程度等数据统计帮助教师了解学生之间的差异性,既方便教师掌握学生学习状态,分析存在的问题,也为线下课堂教学提供依据,在后续教学中因材施教,满足不同层次学生的个性化学习需求提供依据。

2.线下检测自主学习效果,实施针对性教学。采用线上线下混合模式教学,课堂教学的任务发生转移。教师要集中精力对知识点进行梳理和归纳,并针对重难点以及学生在线上学习过程中的困难进行答疑解惑和查漏补缺。在教学实践中,为完成上述任务,在每个章节的线上学习完成后均安排答疑和小组讨论,让每位学生通过多种方式修正和完善遗漏或理解错误的知识点。全部授课结束后,授课教师向学生发放了关于教学效果的调查问卷,结果显示,78.2%(18/23)的学生认为采用混合式教学方法可以把重要知识点学透,在课堂上有更充裕的时间进行消化吸收,更有利于教学内容的掌握。

在线下教学中,教师还对教学场景进行了编排和优化。教师提供具体的实验案例,并以某一具体实验案例(如抗癌药物筛选)为背景贯穿整个课程教学始终,模拟真实实验场景,让学生从实验参与者的角度设计实验流程、整理实验数据、统计分析和解读呈现的全部流程。帮助学生实践生物学研究提出假说—实验验证—得出结论的基本流程,理解生物统计学对生物学研究的重要指导作用,培养学生知识迁移、应用和分析并解决科学问题的能力。

3.课后回顾学习并提升。在课堂教学完成后,师生的教学活动都还没有结束。教师要对线上线下教学过程中容易出现的问题进行整理总结,并将解决方案到网络平台,供学生回顾性学习。学生要对课堂上遇到的问题,搜集学习资料进一步思考和巩固。教师还要对学生课后学习情况进行挖掘,并根据学生的不同情况进行个性化的学习支持。对于有困难的学生,教师要单独辅导和监管,帮助学生完成课程学习;对于学有余力的学生,可以鼓励学生走进实验室,跟随教师的科研工作,完成真正的动手实践,实现素质提升。最终通过师生配合,完成对课程教学效果的提升。

4.教学考核。由于教学形式发生变化,课程的教学考核模式也要随之做出调整和改变。在实践中,教师改变传统的期末考核模式,充分利用线上线下教学记录,实现全过程考核。考试成绩包含网络平台学习考核(25%)、线下课堂表现(25%)和期末闭卷考试(50%)三部分。其中网络平台学习考核由系统根据学习时间、频率以及测试情况生成;课堂表现根据学生听课及参与讨论情况,综合学生互评和教师考核给分。上述考核方式,降低了期末考试在总成绩中的比重,更加侧重于学生的平时学习积累和实践能力的培养。因此,可避免学生“突击考试”的侥幸心理,促进学生向平时主动学习转变,更符合现代教学模式和人才培养的需求。

大数据技术论文范文第2篇

大数据时代 学术期刊 功能

柴英,中国人民大学书报资料中心编辑;马婧,中国人民大学书报资料中心编辑。

20世纪90年代以来,伴随着计算机技术的飞速发展,文字、方位等各种信息正在被全面数据化,这昭示一个大规模生产、分享和应用数据的时代――大数据时代的到来。大数据时代对于数据处理在理念上发生了三大转变,那就是要全部数据而不是抽样数据,要及时有效而不是绝对精准,要揭示相关关系而不是探究因果关系。[1]这些转变正在快速影响和改变着世界经济发展、商业模式乃至于生活方式。作为以信息为基础的人文社会科学研究领域,大数据势必引发知识体系、研究方法等的根本性变革。而为学术研究服务而生的学术期刊也将会在运行模式、销售方略、功能作用等方面,发生巨大甚至是本质性的变化和发展。这些问题已引起相关学者的关注和热议,然而在大数据时代,学术期刊的传统功能会被全盘废弃,还是承继中有所创新,尚未有学者进行深入细致的探讨。本文拟以正在兴起的大数据研究为视角,探讨学术期刊各项功能实现手段、效能发挥的新变化。

一、大数据与学术期刊的引领功能

学术期刊是学术成果交流、和传播的平台。它的诞生,是学术研究和技术发展双重推动的结果。如启蒙运动掀起的学术思潮,在古登堡的铅字印刷技术支持下,在17世纪下半叶催生出西方国家最早的学术期刊。而中国现代学术期刊,也是在中国现代学术研究和大机器印刷技术引进的背景下产生的。诞生伊始,学术期刊就肩负着引领学术发展的神圣历史使命。学术期刊通过征集、整理、筛选、加工、编辑、学术成果,洞察学术发展前沿,呈现学术界优秀研究成果,成为学术研究的领航标。同时,编辑也承担着学术研究的旁观者、参与者和引领者三重角色。学术期刊提供的学术信息反映并决定着学者的学术研究走向。学术期刊之所以拥有引领学术发展的权威地位,是因其掌握学术发展的数据。然而纸媒时代的学术期刊对于学术信息的筛选加工处理,主要依赖抽样、局部、片面数据,甚至纯粹依赖编辑的经验、推断和价值观去完成。至于编辑要经过很长时间的工作历练才能准确、客观、真实地反映学术研究状况,积极有效地推动学术研究、高屋建瓴地引领学术研究,是由学术期刊社的运行体制、声望影响以及编辑个人学养等多种因素决定的,因此传统纸媒时代的学术期刊引领功能的发挥和传承,具有长期性和不确定性。

大数据时代的到来,彻底改变了这一状况。“云计算”技术的发明和广泛运用,使得存储和保留学术数据变得既简单又方便。2000年,数字存储信息仍只占全球数据量的1/4,另外3/4的信息则存储在报纸、胶片、黑胶唱片和盒式磁带媒介中。2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余均为数字数据。到2013年,世界上存储的数据预计能达到约1.2泽字节,其中非数字数据只占不到2%。[2]大数据时代的来临,使学术界第一次有机会和条件,把囊括所有学科的学术期刊历史出版物进行数据化,从而全社会可获得和使用学术研究所有领域和各层次的全面、完整和系统的数据。大数据的核心是预测,即根据全面的数据预测未来事情的发展趋势。学术期刊通过对这些学术数据进行整合、分析,展示学术前沿、热点等基本学术动态,继而深入探索学术研究的状况和发展规律,最终既可为学术研究提供真实、客观、准确、全面的学术信息,也可为编辑提供筛选、评判稿件学术依据,还可通过重组、扩展、再利用数据,开发学术研究的衍生产品。

传统纸媒时代的学术期刊只能实现宏观领域的学术引领功能。对于读者个体的学术需求认知是模糊的、不确定的。然而在大数据时代,在技术的支持下,学术期刊可对每个学者或读者的个体需求了如指掌。如电子书阅读器可记录大量关于读者阅读期刊的相关数据,如读者群的构成,读者选择阅读论文的好恶,阅读一页或全文需花费的时间,哪些内容做了笔记或画线强调……这些数据聚合起来将会向期刊展示一些重要信息,如读者的浏览论文时间、研究旨趣等,而这些信息是在传统纸媒时代因过于分散根本无法获取的。根据这些信息,学术期刊可为读者提供个性化的服务,如学者个人专业研究领域的相关动态、研究状况。真正实现学术期刊宏观引领和微观服务的有机结合。

二、大数据与学术期刊的交流功能

近现代以来,学术研究不再是个人兴趣,而是逐渐走向专业化和职业化。个人孤军奋战的学术模式也逐渐被学术团体取代。学术团体或机构中的学者们通过相互通信、定期集会、交换材料及出版期刊共同激发创造性研究的出现。学术期刊的先天使命就是要为学术研究搭建一个权威、公平、公正的学术成果交流平台。传统纸媒时代的学术期刊往往以著名学者为核心,汇聚某一学科领域从事相关研究的同道中人共同推动学术研究发展。学术期刊是展示该学派学术观点洞见的窗口,是学派与学派之间、学派成员之间沟通的桥梁。如法国的年鉴学派,依托《年鉴》,历经三代学术掌门人的共同磨砺,其社会文化史研究的理论和方法最终得到了历史学界的肯定。又如中国近代以顾颉刚为首的禹贡学派,创办《禹贡》,为那些专攻历史地理的学者找到了精神家园;以傅斯年为首的史料学派凭借中央研究院历史语言研究所的学术资源,出版历史语言类刊物《集刊》,为所有历史语言研究者提供了丰富的历史资料,也催生了许多重要的学术成就。[3]

近年来,“学术研究正从过去的单一领域向全领域方向发展,各学科在研究视角和方法上相互借鉴,交叉融合,使研究内容不断扩展,对信息的需求也呈现多角度、全方位和智能化的特点。学术创新模式、学术研究范式、知识形态、知识获取、知识交流及处理机制的改变,都直接影响着学术期刊的生存和发展环境”。[4]20世纪90年代开始,学术期刊逐步走向数字化。国内一些技术公司抢先与各家学术期刊达成协议,把所有的期刊论文数字化、网络化,形成了知网、万方等多个学术期刊数据库。很多人误以为学术期刊数据化,就是把纸本期刊改为PDF的网络版。大数据给学术期刊交流功能带来的变革远非如此,大数据促使无障碍、无延迟的跨国界、跨学科学术交流成为现实。学术期刊出版集团利用云计算技术和移动设备,以学术资源为核心,搭建吸引所有学者参与的学者在线交流平台。这一平台具有无地域限制、无时间限制、完全开放、资源共享、检索便捷、无需空间、方便互动等特性。在这个平台上,学者可按需获取全世界范围、全学科领域的学术资源,可随时个人成果,建立个人学术空间,可通过学术圈社交平台交换、学术信息、展开学术讨论。这都无需考虑时间、场所、经费等这些传统学术会议的必需因素。

此外,学者在这个平台上获取的资源将是跨终端的多样化、全媒体资源。如可以缩放的图片、可添加底色的公式、可观看的视频等,这些全新的资源将会给读者带来具有互动性的优质阅读体验。通过元数据标注内容的技术开发出来的著作者身份识别系统(ORCID)、基金来源识别系统(Fundref)、论文版本识别系统(Crossmark)等新增技术手段,则可帮助学者间的学术交流更加便捷。移动互联网随时、随地、随心等特性,丰富的互动及个性化门户等功能,可满足互联网学者用户学习、阅读的需求。学术期刊的交流功能将得到最大化发挥。

三、大数据与学术期刊的传播功能

传统纸媒的学术期刊肩负着传播学术成果、推动学术研究的重要功能。各家学术期刊秉承“内容为王”的理念,竞相争取知名作者资源,在选题策划、编校质量方面精益求精,以内容赢得关注,以质量树立品牌。纸媒学术期刊传播的媒介和途径比较单一,主要是通过邮局订阅、实体书店购买等方式,因而传播的受众主要是相关领域的学术研究人员,范围极为有限。受众所获取的信息有限,代价却巨大。即使是学术期刊论文数据库盛行的今日,下载大量论文所需的高昂费用也常常会令非包库读者望而却步。学术期刊出版周期漫长,大多是双月刊或者季刊,即使是月刊,从投稿到正式发表的周期少则数月、多则数年。大数据正在推动着各级政府、经济领域、商业模式发生日新月异的变革。这对于以社会现象为研究对象的社会科学来说,很多研究成果可能未及发表,就已成为故纸堆。学术研究成为象牙塔里少数学术精英的游戏。学术期刊对于学术成果的推介传播效果究竟如何,主要是依据主观感觉和经验进行模糊判断,在此基础上形成的传播决策和刊物定位也往往是不断试错的结果。

大数据时代学术期刊传播媒介将多样化,整合化,传播范围全空间化。互联网、物联网、移动智能终端、各种社交软件等技术平台都已成为学术期刊传播的重要媒介。学术期刊可把各自所掌握的学术数据,通过以上媒介和相关信息技术整合、融通,实现纸媒学术期刊和网络学术数据库资源同步、多种媒介之间互享互通、期刊传播和读者受众互动共建。如此一来,传统纸媒学术期刊和新媒体实现了内容、网络、终端、服务等全方位的“整融合”。学术资源和期刊结构重组后的学术期刊传播格局,将在数量和种类上呈现几何式递增态势,学术研究成果的传播路径得以全方位拓展。大数据主张开放、共享数据。学术期刊的传播范围将全空间化。未来学术期刊有可能彻底改变读者付费的传统销售模式,在国家财政支持下,所有学术数据将向所有读者免费开放。这有可能改变100多年来形成的学术研究专属于少数学术精英的学术研究专业化、职业化现状。

大数据时代学术期刊的传播速度将及时化、全时化,传播效用将最大化。大数据追求时效性,“允许不精确”。全部数据而非样本数据会提高网络数据的容错率,新的对的数据会很快修正乃至淹没旧的错的数据,讲求时效远比苛求准确来得实用。这将彻底颠覆传统学术期刊乃至学术研究遵循的“慢工出细活”的祖训。技术支持下的学术数据将及时、全时为受众服务,学术期刊的整刊定期出版模式,有可能被分篇随时出版模式取代。大数据将使学术研究成果取消门槛,无需编辑、随时、资源共享,这将有力推动学术研究的整体进程。大数据可将整合后的全体数据提供给受众。读者读取数据的过程又会产生新的数据,扮演着数据受领者和数据创造者双重角色。学术期刊可主动挖掘、分析这些阅读行为数据,发现并利用受众的个性化需求,促进传播的分众化、个性化、精准化,从而实现传播的效用最大化。如搜索引擎可以根据读者的学术论文浏览记录将读者需要的数据排序置前,还可为其推荐所需的最新研究动态信息。大数据时代,基于交互性的传播平台,以及智能的数据库管理,用户的形象被勾勒得更加清晰,且根据兴趣与需求被重新标签化、归类化,这样就提升了品牌形象推广的精准度。[5]

此外,大数据时代传播理念将会转变为“内容、服务并重”。大数据的大量全部、多样混杂特征势必使得人人陷入数据海洋中,如果任由其无序发展,人们获取有效信息会如大海捞针般困难。因此,大数据时代学术期刊要想在众说纷纭中清晰、准确地传播自己的声音,始终注重内容建设、不断完善服务质量将是学术期刊奉行不悖的传播理念。

四、大数据与学术期刊评价功能的变革

作为学术共同体交流沟通的平台,学术期刊为引领学术研究、制定学术规范、解决学术分歧,在最初发展中就形成了同行评议的评价机制。以学术期刊为核心的专业同行学术共同体,通过对论文的学术规范、创新与否、论证完备等方面进行评鉴并针对该学术成果是否应发表给出重要参考意见。从而针对学术成果及其所有者进行价值判断。学术期刊采用的外审匿名评议学术成果的评价方法主要是定性评价。同行评议能否公正、客观地反映学术成果的真实价值,主要取决于学术研究风气、学者学术水准、国家学术体制等多方面因素。鉴于同行评议学术成果具有不确定、不全面等先天缺陷,学术界逐渐采用统计论文影响因子、被引率等定量评议的方法。我国的人文社会科学界,还形成了以核心期刊为基础的学术成果评价体系,量化评价学术成果的评价方法正在成为学术评价的主流形态,定量评价学术期刊发表的学术成果主要由专业评价机构来承担。学术期刊评价学术成果,同时自身也将成为被评价的对象。然而,由于模拟数据时代采集的数据样本数量小、种类少,结果导致学术期刊界关于定性或定量评价谁更客观公正争议不断。[6]目前,在更科学、更完善的学术成果评价机制出台之前,学术成果评价仍然采用同行评议为主、量化评价为辅的评价方法。

大数据时代学术期刊数据化的网络平台建立之后,学者期盼的“不同的学术共同体自己的表达平台,以及对于作为共同体代表参与学术评价活动(比如评奖或评审)的佼佼者的监督平台”也将随之产生。[7]这个平台不但对学术共同体的成员开放,还要对全社会成员开放。评价学术成果的主体不再仅仅是以学术期刊为核心的学术共同体、专业评价机构,而是包括全体参与评价活动的社会成员。关于学术期刊的评价主体应是专家同行还是评价机构之争也将不证自明。

大数据使一切皆可量化,正如哈佛大学社会学教授加里・金所言:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”大数据时代学术期刊评价学术成果的方法首先是“整融合”,包括学术共同体的全体参与者的评价意见、全网引用量、影响因子等各项数据,然后开发特定的工具来管理这些自有或来源于“云”的结构化或非结构化数据,最重要的是编辑人员要成为统计、分析这些数据的专业人才。由此,基于海量定性评价数据的定量化评价方法,才能真正客观公正地对学术研究成果作出价值判断,揭示各学科学术研究的质量,并在此基础上对未来研究作出科学指导和预测。学术腐败、学术不端行为也将在透明、共享的数据化空间中难以遁形。学术期刊将切实承担起在纸媒时代无法完成的监督创建学术规范的历史使命。学术期刊评价行为的性质也将由目前学术利益、学术资源诸因素干扰下的“权力行为”回归其学术活动的本真状态。

结 语

“大数据时代将要释放出的巨大价值使得选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。”[8]学术期刊界应主动自觉地应对大数据带来的学术研究、政策抉择、经济效益、商业模式的重大变革,积极探索大数据时代最大限度发挥自身功能的路径。然而,大数据并不是万能的,如何让数据“发声”,人类的智识和道德判断是合理开发大数据潜力、正确发挥大数据功能的保障。大数据促使相关关系的发现和使用,创造出巨大的经济和社会效益,但探究因果关系仍将是学术研究的终极动力。追求真理、传播学术仍将是学术期刊秉承的核心价值,学术期刊的引领学术研究,提供交流、传播平台,评价学术成果,监督学术规范的传统功能仍将继续发挥。要实现这些功能的途径、效用方面的重大变革。“在数据驱动的智能时代,需要一股自上而下的力量。政府、行业组织及大型出版集团需要建立数据平台,进行数据标准化处理”。[9]唯有如此,学术期刊大数据的核聚能才能真正爆发。

参考文献:

[1] [2] [8] [英] 维克托・迈尔―舍恩伯格,肯尼思・库克耶. 大数据时代:生活、工作与思维的大变革[M]. 盛杨燕,周涛,译. 杭州:浙江人民出版社,2013:17-18,94.

[3] 程文标. 近代史学期刊的分类、特点及其影响[J]. 重庆社会科学,2011(3).

[4] 周小华. 大数据时代中国学术期刊的创新发展[N]. 中国社会科学报,2013-12-18.

[5] 喻国明. 传播学研究:大数据时代的新范式[J]. 新闻记者,2013(6).

[6] 朱剑. 量化指标: 学术期刊不能承受之轻――评《全国报纸期刊出版质量综合评估指标体系( 试行) 》[J]. 清华大学学报,2013(1).

大数据技术论文范文第3篇

摘 要:为深入揭示大数据背景下我国高校图书馆研究热点,该文以大数据、高校图书馆作为检索词进行可视化分析。结果发现,大数据背景下高校图书馆研究的热点呈现逐年增长趋势,主要包括信息服务、知识服务、学科服务等,个性化信息服务和数据分析领域成为新近发文量较多的热点领域。总体上来讲,利用大数据理念、大数据相关技术提升高校图书馆服务已经成为研究热点。

关键词:高校 图书馆 大数据研究 热点可视化

中图分类号:G250 文献标识码:A 文章编号:1672-3791(2016)07(a)-0019-02

大数据是继Web2.0和云计算之后的又一个热门词汇,作为高校的文献信息资源服务机构,高校图书馆拥有大量数据,而大数据在高校图书馆服务的各个方面都有广泛应用[1]。维克托・迈尔・舍恩伯格和肯尼斯・克耶在其编写的《大数据时代》中提出:“大数据”具有4V特点:Volume(数据量大)、Velocity(输入和处理速度快)、Variety(数据多样性)、Value(价值密度低),大数据的这4个特点得到了学者们的普遍认可。大数据背景下,数据量的急剧增长、信息技术的飞速变革都为高校图书馆的发展带来了新的契机,推动了信息服务的升级,也为高校图书馆的研究带来新的视角。数字时代,高校图书馆对数据的处理主要是将纸质文献资料数字化、网络化,信息服务的目的是实现师生对学术数据的充分利用,进入大数据时代,对海量文献数据的分析、处理将成为高校图书馆发展的新趋势,高校图书馆的信息服务重心也会逐步由传统的业务向深层次的数据挖掘服务转移[2]。在这一大趋势下,对大数据背景下高校图书馆研究热点的可视化分析,有助于学者们把握高校图书馆当前的研究热点和发展趋势。

1 数据来源

以中知网及万方数据平台为主要数据库检索对象,检索时间截至2016年7月15日。检索方法一:以“高校图书馆”和“大数据”作为并列主题检索词进行精确检索,不限发表时间及文献类型,共得到488篇相关文献。其中,期刊402篇、会议论文17篇、学位论文9篇,以“高校图书馆”作为检索关键词的文献有303篇。检索方法二:以“高校图书馆”和“大数据”作为并列题名检索词进行精确检索,不限发表时间及文献类型,共得到263篇相关文献,其中,期刊224篇,以“高校图书馆”作为检索关键词的文献189篇。综合以上两种方法对检索结果进行可视化分析,提高查全率和查准率。

2 研究热点及趋势分析

大数据时代,数据将成为图书馆最重要的资产之一[3],高校图书馆的服务不再局限于提供简单的文献和信息服务,而是更加注重运用大数据技术挖掘文献和信息中所包含的数据和知识内容,挖掘隐形知识,为教学和科学研究创新服务。对于大数据背景下高校图书馆研究热点的分析,可以从研究热点领域、研究热点期刊分布和研究基金分布三大方面进行。

2.1 研究热点领域分析

统计结果表明:学者们对于大数据背景下高校图书馆的相关研究在2013年开始呈现逐年增长的趋势,相关知识点如图1所示,圆形大小表示相关研究领域的研究热度高低。

自2013年至今,学者们对于大数据背景下高校图书馆的研究热点领域主要集中在信息服务、知识服务、服务创新、学科服务、数据挖掘方面,对于云计算、信息资源、数字图书馆、数据分析等方面也有涉及。在近两年的研究中,除了一直热度不减的信息服务、知识服务、学科服务问题之外,更加侧重对个性化服务、数据分析的研究。在系统构建方面的研究在近两年兴起,高校图书馆更加关注其自身生态系统的运行问题,学者们也在尝试运用生态学、系统学等多学科方法来进行大数据背景下的高校图书馆研究。研究领域的变化说明了学者们对这一研究主题从理论研究向更加深入的技术性研究靠近。

2.2 研究热点期刊分布

2.2.1 刊种统计

对于大数据背景下高校图书馆的研究,发文最多的期刊前六名依次是农业图书情报学刊、图书馆学刊、科技情报开发与经济、河南图书馆学刊、内蒙古科技与经济、现代情报,其总计刊文量占全部刊种的53.52%。各个期刊对此主题的刊文,反应出大数据背景下高校图书馆问题研究受到学者们的普遍重视。

2.2.2 核心期刊统计

刊文在核心期刊的数量统计分别为:(1)中文核心期刊55篇(59.1%)。(2)CSSCI中文社科引文索引(南大)32篇(34.41%)。(3)统计源期刊(中信所)4篇(4.3%)。(4)CSCD中国科学引文库(中科院)2篇(2.15%)。核心期刊的刊文反应出该主题成为学者们的重点关注领域,在大数据背景下高校图书馆方面的研究成果较深入。

2.3 研究基金统计

近年来大数据背景下的高校图书馆的相关研究基金项目共计38项,其中32项是2015年至今的基金项目。包含省市基金项目21项,占总基金项目的55.2%,国家社科基金项目8项,国家教育基金项目5项,国家自然科学基金项目1项,其他基金项目3项。基金项目立项的数量反映了该主题的研究热度和深度都在不断增加。

3 结语

目前,学者们对于大数据背景下高校图书馆的相关研究正处于高速发展的探索阶段,对于如何利用大数据技术来提升高校图书馆信息服务的研究越来越深入。研究热点不仅局限于信息服务、知识服务和学科服务方面,还涉及数字图书馆、学科馆员、系统构建等多领域,研究更加侧重对个性化服务、数据分析的研究,高校图书馆作为服务教学、服务科研的文献信息资源服务机构,深化基于大数据的相关服务是其未来发展的方向。

由于该文对大数据背景下高校图书馆的热点分析主要是基于“大数据”和“高校图书馆”两个关键词构成的检索式,在文献的查全率方面,漏查了只是应用具体的方法进行高校图书馆数据分析的个别文献,在相关文献检索中,有个别文献是应用具体的数据分析工具进行高校图书馆数据分析挖掘。这类数据分析工具的应用,更加印证了数据分析方面的研究呈现增长的趋势。

参考文献

[1] 康春鹏,杜蕊.大数据给图书馆带来的机遇与挑战[J].现代情报,2014(5):47-55.

大数据技术论文范文第4篇

关键词:大数据;科研管理;数据处理

一、大数据技术引入高校科研管理中的优势

大数据技术是现代多种信息技术的有效结合,具有相当的优越性。从科研管理的角度来看,大数据技术通过针对科研管理系统、财务系统、人事系统以及基于互联网的大型科技文献数据库、专利库等数据资源的关联分析,找出数据的相关性,提取有价值的信息,可以为传统专家定性决策管理提供广泛、科学的理论依据。由于这些知识大 多直接来源于数据库内部,因此它较少受外部资源的限制和影响,具有相对的独立性,对于科研决策的指导意义也较为重大。

二、大数据环境下的高校科研管理信息化的应用探索

(一) 为高校科研评估提供数据支持

随着高校信息化的推进以及大型科技文献、专利、论文数据库系统等在科学研究领域的普及,全球范围内的科技数据信息量急剧增加。面对这些庞大、繁杂的原始数据,需要快捷、有效的技术手段进行筛选,并从中获得有价值的知识。

传统的数据分析和统计方法,由于受到人力,物力及财力的限制,原始数据背后隐藏的深层次知识无法得以有效采集、分析和使用。

而大数据技术可以综合内部、外部以及网络数据资料:从学校科研管理部门获得研究项目的类别和数量;从内部数据库得到人员、经费、设备等信息;从网络数据库中获得论文、专利的数量和质量信息;结合往年项目成果报表中获奖、专利成果转让情况,最终综合集成各类数据。通过建立综合数据评估模型将各类指标进行整合,为科研评估的专家提供数据支持,最终得出科学、合理的评估结果。

(二)提升项目立项决策的科学性

从筛选项目角度看,可以利用大数据技术,对项目的研究领域、预期成果,通过与外部文献库进行结合分析的方法检验课题的科学性、创新性,判断得出该项目立项的必要性;从筛选申请者角度看,可以将申请者所涉及的各项因素进行多数据的联合查询和分析,发现并建立科学的指标体系和筛选方法,最终得到候选人名单,从而达到提升项目立项决策的科学性的目的。

( 三) 为教师科研活动提供深层次服务

以科研人员欲向某单位进行项目申请为例。以往,科研人员只能够通过自身了解或者往年申报情况对对方单位的需求进行分析,由于个人收集的信息不够全面、不够准确以及信息传递的滞后性等问题,容易出现研究目标偏离实际需求的问题,申报结果往往不够理想。而随着大数据技术的普及,通过对大型数据仓库进行有效的挖掘,可以对相关单位所关注的关键技术、重点领域和发展方向进行分析和预测。通过建立模型、 数据可视化和生成文本报告等形式向科研人员提供可参考信息,了解各种影响之间的内在联系,指导科研人员开展研究工作, 达到为科研人员提供深层次服务的目的。

(四)优化科研资源配置

第一,对数据进行采集和筛选,建立不同种类的数据库,例如人员库、 成果库等;第二,建立适合本校的科学发展的评判模型,包括各类科研资源、科研成果的计算参数和规则库;第三,以定量化绩效考核作为基础的资源配置工具和决策支持管理工具,以此通过大数据技术完成对学校科研资源的优化配置。

三、大数据环境下提升高校科研管理信息化水平的方法

(一) 加强数据采集基础建设

高校应当采用先进、稳定的技术确保数据的快速传输与储存,选择合适的综合布线技术和设备,为数据储存提供良好的基础设施。面向未来数据爆炸式的增长,可以考虑采用FTYO模式,该模式的特点是带宽大、速度快、节省成本和能源、减少电磁干扰。数据存储中心的建设应考虑虚拟化和云平台,保证数据传递的速度与准确度。

(二) 加强科研管理团队建设

由于高校科研管理方面的相关数据种类多样且体量庞大,管理人员在平时就应当注意对这些数据的收集、整理工作。收集的数据可以方便管理人员及科研人员进行查询,但是广泛的原始数据往往来源多样、良莠不齐。科研管理人员应当对所获得数据的质量进行评价,评估数据来源是否可靠、数据的收集方法是否科学、数据是否具有时效性等等,然后对数据进行校核,除去冗杂的干扰性的数据,要注意清理或改正误差数据,最后将数据转化为可共享的标准化信息。科研管理人员应当利用大数据技术深度挖掘原始数据背后具有启示意义的信息,为管理层今后做出科学合理的决策提供依据。

(三) 改变科研管理理念

在大数据环境下,传统的科研管理理念无法保证高校科研事业的健康发展, 因此需要我们有所改变。 首先, 在大数据趋势下,信息挖掘要前倾,要从数据中来分析社会、国家的需求,使得科研目标更有价值、更有针对性。其次,在大数据趋势下,服务要前移,不能像过去那样等着科研人员来要数据、 要结果。 而是应该充分利用数据并且对数据进行分析、挖掘,掌握科研人员可能需要哪些数据或者结论,把服务工作前移。

(四) 推进数据的共享及利用

在大数据环境下,科研数据量激增,科学研究越来越依赖于系统的、高可信度的基础科学数据分析。当前全球科技活动不断增强,一系列重大科学工程的兴起、复杂科学问题的提出、大型科学研究计划的产生,导致前所未有的国际合作局面的产生,也导致了全球范围内对科技资源交流、互通的客观需求。因此,科研管理人员应针对大数据技术体量大、数据来源丰富、数据更新速度快等特点,积极推进科研数据的共享、利用工作,以达到提升科研管理的水平。

结束语

高校科研管理工作的质量水平决定着高校科研工作是否能够有效、顺利地开展。随着信息化技术的飞速发展,相应地推动了大数据技术的拓展。人类通过使用大数据的交换、整合和分析这一过程,从而发现新的知识,实现新的管理、创造出新的价值。高校科研管理是信息化应用的前沿领域,应当具有可能依托大数据技术提升管理与决策的水平。

参考文献:

大数据技术论文范文第5篇

关键词:大数据时代 数字图书馆 机遇与挑战

中图分类号:G25 文献标识码:A 文章编号:1672-3791(2016)10(b)-0150-02

在科学技术的影响下,学术资源建设速度越来越快。例如:中国最大的学术资源建设商――中国知网,已经从期刊论文向国内外期刊论文发展,在图书资源收藏方面收集了大量资源,可以给行业机构、学术等提供大量文献。在此种发展形式下,数字图书馆承受了较大压力,如何在未来发展中更好生存,已经成为人员研究的主要问题,必须及时对其进行分析。

1 国内外研究与启示

1.1 国内外相关论述对我国的影响

随着大数据时代的到来,人们对数据的需求量不断增大。目前国外相关研究已经从理念、技术和数据等方面进行了很多研究。美国加州大学伯克利分校图书馆的Huwe在《构建数字D书馆》一书中明确指出,大数据与数字化图书馆的发展方向吻合,可以借助数字图书馆进行信息采集和收集,进而挖掘用户行为,帮助人们了解阅读行为与信息的联系。Borgman等人将嵌入式技术成功安装于数字图书馆系统中,增加了数字图书馆功能,可以实现图书分类、收集处理和关联等各项操作,促进了数字图书馆与网络技术的融合,发挥了大数据的作用。

国内研究人员曾建勋曾在《数字图书馆论坛》中明确指出,大数据时代将数据数字图书馆数据管理、收集等服务的深层次发展,对数字图书馆人员提出了较高要求。另外武汉大学生陈传夫等也从理念、发展知识和财政投入机制等,分析了图书馆素质等问题,并提出了相关应对措施。

从上述研究均可看出大数据对数字图书馆带来的发展机遇和挑战,促进了数字图书馆和大数据的融合。为了促进高校图书馆和我国公共图书馆在大数据时代的发展,发挥数字图书馆在人们的生活或科学研究中的作用,必须深入思考,及时转变观念,提高数字图书馆的竞争力。

1.2 启示与思考

从当前的发展状况来看,学术资源建设商已经在大数据时代取得了很大进展,不仅包含网络资源与期刊,还涉及各种文献资源,可以查找作者、文献关系与学者等关系,给数字图书馆的发展带来了很大压力。所以图书馆相关人员必须提高思想认识,将资源建设商带来的威胁作为新的机遇。在实际工作中,必须积极吸取图书馆建设资源,扩展图书馆资源范畴,进行各种资源的有机结合,同时还要充分发挥资源价值,促使各种资源的整合,深入挖掘数据规律,认真分析数据规律,发现数据潜在价值。从服务角度上分析,图书馆还要向众多资源建设商学习,从用户角度探索问题,给用户提供人性化服务,满足用户对资源的需求。

经过分析发现,大数据时代,必须要改变传统的思维模式,形成适合数字图书馆发展的模式,适应大数据时代的发展,充分利用大数据促进数字图书馆的发展,让数字图书馆在人们的生活、学习和工作中发挥更大作用。

2 浅析数字图书馆的大数据思维

数字图书馆的大数据思维主要表示从大数据角度思考并分析数字图书馆发展中存在的问题,实现数字图书馆和大数据时代的有机融合,增加数字图书馆产品种类,提高数字图书馆服务水平。

2.1 建设数字图书馆资源

第一,扩大数字图书馆资源范围。资源是数字图书馆发展的基础,也是提高数字图书馆服务质量的主要方法。在长期发展中,图书馆非常重视资源建设,主要是图书、期刊及学位论文等资源。为了在大数据时代下发展,必须创新思维,引入一些数据库资源或一些社会热点信息等内容,以用户的搜索习惯作为数字图书采集参考,深入挖掘各种数据之间的联系,实现可再生资源的生产、收集和储存,扩大数字图书资源范围。第二,提高数字图书馆资源整合度。大数据时代的主要特点是数据类型较复杂,单纯的文本信息已经不能被大数据时展用户吸取,可以实现资源整合向综合信息服务转变。为了满足不同用户的需求,还可以实现文献和政府等信息的整合,扩大社会资源和数字图书馆的联系,将公众最关注的问题引入到社会资源整合中。第三,加强数字图书馆资源加工深度。在大数据时代,虽然数字图书馆结构信息具有较强的表现形式,但主要体现在资源库内部。在大数据时代下,必须及时扩展数字资源和外界的联系,构建全社会数字图书馆资源架构。同时进行图书馆资源深度加工时,必须从知识结构向知识建构加工方向发展。例如:从图书馆文献资源中分析知识结构,利用知识单位和文献建立知识建构,形成新知识。

2.2 灵活应用数字图书馆技术

大数据时代,数字图书馆技术已经开始从处理局部数据向更广的区域发展。从图书馆技术体系分析主要进行信息处理、组织架构、分析预测、服务技术等操作。

第一,应用语义技术。大数据环境中可以采用语义实现复杂数据的联系。当前数字图书面临的主要问题是将语义加入数字文献信息中。所以必须将本体技术、人工智能等先进技术应用到实际工作中,让数据间形成语义关系,促进收录资源和知识挖掘等各项操作。目前语义技术已经广泛应用到图书领域中,如:汉语主题词表、图书分类法等均是依靠语义发展起来的。知识相互间的语义关系,不仅可以帮助用户及时获取知识,还可以获得有用知识途径。第二, 数据聚类技术。数据聚类是实现信息相互聚集的过程。在繁杂的数据中,只有灵活应用聚类技术,才能发挥信息服务、处理等各种功能。在大数据背景下,利用数据聚类可将不同数据划分成相互联系、主体相近的小数据,给用户信息检索、选择和分析提供很大方便,给用户个性化服务提供了数据支持。第三,信息分析技术。大数据时代可以充分利用信息分析技术。可以将大数据技术融入到书籍图书馆中,拓展了数据分析工作,给用户提供了高端服务。例如:联机分析技术可给在线用户提供数据支持;定量定性分析技术可以在数字图书馆中得到充分应用。

2.3 数字图书馆的定位

第一,打破传统资源框架束缚。大数据给图书馆提供了较广阔的发展空间,满足了用户对不同信息的需求,在信息采集、收集和服务等方面均发生了变化。数字图书馆进行定位时,必须打破传统资源框架,将数据理念融于到数字图书馆建设中,所以不仅要采用传统的方法进行信息采集,还要进行网络信息自动获取,构建语义关系、数据联系等信息组织框架。

第二,建立全方位服务信息。传统图书馆主要进行文献服务。数字化图书馆服务资源发生了变化,服务形式开始从被动化向主动化发展。一方面向全社会提供服务;另一方面,提供全新资源服务;最后不断扩展服务与传播方式,全面扩展数字图书馆服务。

第三,定位数字图书馆员。大数据时代对图书馆员提出了更高要求,每馆员都要有敏锐的数据分析能力;及时了解学术变化;掌握大数据分析技术;熟练使用各种数据分析工具和软件,准确定位网络资源,促进数字图书馆的发展。

3 结语

大数据时代给数字图书馆带来了挑战,是数字图书馆的一种巨大转型,可以扩展数字图书馆数据资源,提高数字图书馆服务功能;同时,还要不断思考资源框架、技术应用模式和服务功能,与广大学术资源建设商共同发展。

参考文献

大数据技术论文范文第6篇

我们都知道数据可以分为两大类,一类是数字和符号这样的结构化数据,另一类则是文本、图像和音频这样的非结构化数据。如今,IT领域谈到的“大数据”中,80%以上属于非结构化的数据,而文本又是非结构化数据中最重要的部分。尽管现有技术对数字信息进行分析有相对成熟的方案,但如何高效地分析海量文本信息一直是业界的一道难题。

微软亚洲研究院网络图形组主管研究员刘世霞博士告诉CHIP,之所以现有的文本挖掘技术不够用,首先是因为目前技术尚处于研究阶段,精准度不够;其次是因为技术的灵活性不足,很难满足不同人的需求。她和同组的副研究员崔为炜以及香港科技大学屈华民教授共同主导的TextFlow项目在破解这个难题方面提出了新的思路,他们将文本挖掘技术与可视化这种交互技术结合在一起,不仅突破了传统静态文本挖掘技术的限制,而且能让人利用直观的流式图形迅速把握海量信息的发展脉络。在国际最顶尖的信息可视化学术会议IEEE InfoVis 2011上,TextFlow论文的引发了业内人士的关注。有评委表示,“该论文的主要贡献是在海量文本分析中引入主题合并和分裂的理念,这是分析主题演化时面临的最大挑战之一,从文本挖掘和可视化两个角度来说都意义非凡。”

有趣的是,他们在论文中以自身最熟悉的领域——可视化研究作为其中一个案例,将2001年至2010年间发表在IEEE Vis和InfoVis两个学术会议上的933篇论文作为文本数据集合,通过TextFlow模型得出了与实际学术发展潮流相当吻合的图表,其结论令人信服。例如,整体上看,过去10年间Vis相关主题有日渐式微的趋势,2006年之后各个主题独立发展;InfoVis与之相反,整体的趋势是上升的,主题之间的合并和分割非常多,说明该领域的研究更活跃。

他们是如何做到的呢?崔为炜向我们解释了文本可视分析的步骤(如上图所示)。首先,主要由机器来完成海量文本的收集和预处理工作。然后,利用自然语言分析中的概率模型HDP(Hierarchical Dirichlet Process)计算出文本所属的主题(topic)。这里假设每个主题都是由一组关键词来描述的,关键词以不同的概率出现在不同的主题中,每篇文章自然也会以一定的概率属于不同的主题(注:传统聚类方法会认为每个文本只属于一个主题)。刘世霞强调,HDP模型的优势是可以自动确定文本中的主题数量,但是它只能计算出一组静态文本数据的主题,无法进一步找出主题之间的关系。2010年的时候,他们成功改进了HDP模型,将这个语言模型扩展到能处理动态的文本数据流。简单地说,就是跟踪比较T1和T2两个时刻文本内容的变化情况,由此来确定主题之间是否发生了合并或者分裂。文本分析的最后一步就是利用前面得出的主题演化结果,计算出其中的关键事件和关键词,从而更好地展示事件发展的来龙去脉。

在谈到TextFlow模型对于主题合并和分割判断的准确率时,刘世霞表示目前还没有一个固定的样本集可供测试,但把多个领域的分析结果拿给相关领域专家查看时,他们都认为结果比较准确,可以达到满足应用的水平。另外,我们还了解到TextFlow模型的主要算法本身与语言是无关的,中文与英文的区别主要在于海量文本预处理阶段的分词技术,这方面已经有成熟的技术可以完成。

William Ribarsky是北卡罗莱纳州大学Charlotte可视化研究中心创始董事,非常关注微软亚洲研究院在文本可视分析方面所做的工作,他在美国召开的一次学术会议的发言中提到刘世霞所做的交互式可视文本分析,并称“这项成果令人刮目相看”。在扑面而来的大数据时代,相信未来利用TextFlow模型可以做许多帮助企业提升生产效率的事情。崔为炜向我们演示的案例中既包括对历史新闻事件的回放,也包括跟踪社交媒体的数据预测即将发生的新闻事件。由此引申开来,所有之前难以度量的文本数据或许都能迎来一次重生的机会。在信息时代,谁能把握住信息的脉搏,谁就能更好地把握住时代的脉搏。

文章开头虚构的面试题,大家找到答案了吗?

声音

我们应该把文本挖掘技术和可视化这种交互技术结合在一起,让人去做人擅长的事情,机器去做机器擅长的事情。机器擅长做什么呢?机器比较擅长去存储,做大数据量的运算,而人有分析的能力。因此,我们的工作主要就是把人的智能和机器的计算能力结合在一起。

——刘世霞

微软亚洲研究院网络图形组主管研究员

通过对海量新闻的集合进行数据挖掘,可以知道大概发生了什么事件,但我们利用文本可视分析还可以在此基础上得出这些事件之间的关系,从而帮助人们更准确地把握信息的脉搏。

大数据技术论文范文第7篇

【关键词】大数据 生物信息 知识提取 数据挖掘

1 数据挖掘的功能

数据挖掘是从大量的数据中四栋搜索隐藏于其中的具有特殊关系性的信息过程。它是数据库知识发现KDD中的一个步骤。知识发现KDD过程由以下3个阶段组成:数据准备、数据挖掘、结果表示和解释。数据挖掘跟许多学科都交叉关联,包括数据库技术、统计学、机器学习、人工智能、云计算和可视化等。

数据挖掘的实际应用功能可分为三大类和六分项:分类和聚类属于分类去隔类;回归和时间序列属于推算预测类;关联和序列则属于序列规则类。分类常被用来根据历史经验已经分好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。聚类是将数据分群,其目的是找出群间的差异来,同时找出群内成员间相似性。回归是利用一系列的现有数值来预测一个数值的可能值。基于时间序列的预测与回归功能类似,只是它是用现有的数值来预测未来的数值。关联是要找出在某一事件与数据中会同时出现的东西。

2 降维

从降维的角度讲,整个数据挖掘的过程就是一个降维的过程。在这个过程中,需要对数据删除线性关系比较强的特征数据,再用一些算法,如信号分析算法、傅里叶转换、离散小波转换等算法,从数据中提取特征,再对数据做主成分析处理,得到最后的特征,再用数据挖掘算法来将这些特征转化为人类可读取的数据或信息。

3 分布式数据挖掘解决方案

随着分布式计算技术、云计算技术、hadoop生态圈和非结构化数据库等技术的发展,以及对大数据挖掘的需求,出现了一批分布式数据挖掘,比较典型的有Apache推出的基于Hadoop的Mahout和加利福尼亚大学伯克利分校AMP实验室推出的基于Spark的MLBase。在Mahout中主要实现3种类型的数据挖掘算法:分类、聚类(集群)和协同过滤。相比Mahout而言,MLbase更好的支持迭代计算,它把数据拆分成若干份,对每一份使用不同的算法和参数运算出结果,看哪一种搭配方式得到的结果最优。

4 大数据下的具体应用实例――生物信息学的应用

生物信息学(Bioinformatics)是生命科学、计算机科学、信息科学和数学等学科交汇融合形成的一门交叉学科。近年来随着先进仪器装备与信息技术等越来越广泛和深入的整合到生物技术中来,生物医学研究中越来越频繁的涉及到大数据存储和分析等信息技术。在使用计算机协助生物信息时,处理仅有计算机辅助的方式存储数据很显然是不够的,生物信息学研究的目的是运用计算机强大的计算能力来加速生物数据的分析,理解数据中所包含的生物学意义。当前生物信息学研究的热点有:

(1)由以序列分析为代表的组成分析转向功能分析。

(2)由对单个生物分子的研究转向基因调控忘了等动态信息的研究。

(3)完整基因组数据分析。

(4)综合分析。

生物信息数据具有如下特点:高通量与大数据量;种类繁多,形式多样;异构性;网络性与动态性;高维;序列数据等特点[5]。针对这样的生物数据信息,要结合当前的大数据分析方法进行分析和理解。当前数据挖掘实现对生物信息分析的支持主要有:生物数据的语义综合,数据集成;开发生物信息数据挖掘工具;序列的相似性查找和比较;聚类分析;关联分析,生物文献挖掘等方面。

参考文献

[1]许凡.大数据时代的数据挖掘技术探讨[J].电子技术与软件工程,2015(08).

[2]洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014(11).

[3]李荣.生物信息数据挖掘若干关键问题研究与应用[D].复旦大学(博士论文),2004(11).

[4]宋杰.生物信息数据挖掘中的若干方法及其应用研究[D].大连理工大学(博士论文),2005(04).

[5]孙勤红.基于梯度采样局部收敛的生物信息大数据挖掘[J].科技通报,2015(10).

作者简介

孙勤红(1979-),女,山东省人。现为三江学院计算机科学与工程学院讲师。研究方向为人工智能、数据挖掘。

沈凤仙(1984-),女,江苏省人。现供职于三江学院计算机科学与工程学院。研究方向为数据挖掘。

大数据技术论文范文第8篇

1大数据技术和软件工程技术

大数据技术事实上是将人类日常生活中产生的各种数字信息,将这些信息收集起来之后分类处理,设定不同类别的存储空间,按照类别存储。大数据技术从功能的角度出发可以划分为多个类别,诸如分析技术、机器学习技术、遗传算法技术、自然语音处理技术等。应用大数据技术分析,就是基于当前的科学技术发展起来的一种分析技术。它主要依靠现代科技手段发挥技术的作用,特别网络技术发挥着基础性的作用。整理基础数据,对数据信息进行分类整理,应用相应的计算机算法,将相似特性的数据划分为一类,最终得到大量的数据,应用大数据技术对这些数据进行分析。大数据分析应用于互联网行业中,所发挥的优势是有目共睹的,而且还不断地引入新技术,在软件工程技术中应用,对该技术的发展起到了促进作用[1]。

大数据时代,社会各个领域都已经实现了信息化发展,人们对软件工程的概念越来越熟悉。事实上,软件工程的历史始于20世纪的中期,其研究重点是软件技术和工程管理。将相关工程内容引入其中,使得工程系统化运行,其中所涵盖的研究内容包括软件的生命周期、软件工程设计、软件的技术维护等方面。因此,在软件设计的过程中,要控制好技术开发成本,保证工程质量,使其生命周期不断延长,不同项目的技术需求和用户的各种技术需求都能够得到满足。

2大数据背景下的软件工程基础

处于大数据时代环境中,软件工程的发展中关乎到不同的领域,需要高度重视。大数据技术具有专业性的特点,还具有很强的实用性价值。在软件工程技术的研究中,要从应用需求出发不断创新软件技术,对于传统的技术要不断摒弃,对软件工程的发展创造良好的客观条件。大数据技术环境下,软件工程基础是基于互联网技术建立起来的,对各种数据信息系统化管理,根据需要进行处理,对工业的发展非常有利[2]。在软件工程技术中,大数据的安全性问题是需要高度重视的,否则,就会对软件工程技术造成不良影响,引起严重的后果。

2.1软件服务工程

在软件工程的研究范畴中,软件服务工程的数量不断增多。软件工程服务化方向发展,就是发挥服务的作用,使其成为软件开发的基本原则,按照服务项目内容为用户展开服务。由于软件工程发展的主题有所,服务内容也要做出相应的调整,同城是对软件工程的进行技术维护。在具体的服务工作中,需要软件开发人员使用分布式应用程序,在管理工作中采用虚拟操作的方法为用户2019.08提供服务[3]。软件工程技术应用中,结合使用大数据技术,可以对网络数据进行编程,使得软件具有互操作性,对于数据主动协调,使其符合动态场景的变化节奏,软件系统的集成度有所提高。

2.2软件开源

软件开源更为注重用户对软件技术的体验。在对软件开源进行研究的过程中,采用常规的方法,虽然获得一定的成果,但是应用价值不是很高。一些研究人员在研究软件工程技术的时候,就是将软件开源作为突破口,将开发项目划分为多个模块,将每个模块分给指定的研究人员进行开发。

2.3群体软件工程

群体软件工程是通过网络的方式进行软件开发,具体的实施中采用工程众包的形式,使得软件开发技术发挥作用。群体软件工程是一个分布式软件开发模型,这个工程项目的运行中,可以通过网络实现,对各项任务进行分配,也可以进行创造性的查询,通过众包解决软件开发过程中遇到的一些困难和重要问题。同时,在软件工程开发过程中,软件工程可以在任何阶段通过众包进行开发[4]。

3大数据与软件工程技术的未来发展方向

3.1大数据与软件工程技术开放式的发展

大数据技术的主要前提是大量的数据流,需要技术不断地升级和创新,寻求开发的研究途径是非常必要的。计算机网络的发展意味着计算机可以在开放的环境中相互通信,共享数据资源,软件等信息的有效利用能力也会有所提升。通过网络运行可以增加利润,使得用户的各种需求得到满足,提高资源的利用率。

3.2大数据与软件工程技术融合到其他领域

软件工程技术在当今许多科学领域有着广泛的应用。由于软件工程技术给予各个领域非常大的帮助,从航空到生活中都发挥着软件工程技术的作用[5]。应用程序的运行,可以使用数据平台对信息进行收集并分析。比如,用户在进行股票交易的过程中应用大数据技术,可以使用软件工程技术构建数据模型,通过对数据模型的分析,预测股票的变化趋势。

4众包软件服务工程中的大数据技术

在软件开发过程中,必须有足够的硬件和软件基础来支持数据流,随着数据流的量逐渐增多,对硬件和软件就有了新的要求。专家学者在分析数据流的时候,还对在线服务进行了研究。数据流是重点内容,主要是对数据流的使用方法进行研究,对支撑数据流的软件和硬件进行研究[6]。从软件工程开发的角度而言,软件运行中都会产生大量的数据流,包括服务端、用户端等,都会有很多的数据信息产生,这些数据流对软件和硬件的使用寿命起到了决定性的作用。软件工程的开发中,要做好数据流的管理工作。有必要对原始数据进行深入的研究,为提高软件的使用寿命创造条件,对数据流的分析要高度重视[7]。

5密集型数据科研第四范式

第四种科学研究范式是指根据实际情况建立独立的科学研究方法,探索第四种范式的理论基础,以及大型数据存储设备在发展中的重要性。软件工程中,采用传统的大数据研究方法,大数据的有效分析是不可能的,大数据的研究还没有取得突破性的成果。因此,目前大多数软件不能在短时间内同时实现数据信息的存储、数据信息的传输和有效识别。在探索第四范式理论和研究方法的过程中,首先需要对集成大数据的软件服务价值进行估计,抛弃传统的大数据统计方法,建立新的大数据信息统计方法和分析方法[8]。此外,有必要从多个方面研究大数据的处理,对大数据信息进行管理并深入分析,讨论大数据的价值以及存在的可变性,这对软件工程的发展起着重要的作用。在研究软件工程技术的时候,必须更新传统的软件开发理念,重视软件处理和分析大数据能力的发展,使得软件产业呈现出新的发展面貌。

在当今大数据时代,软件工程技术的研究已经区域复杂。随着数据的指数的不断增长,软件技术对硬件设备数据处理能力产生一定的影响。因此,在对软件工程技术的研究中,就需要对大数据技术的特点进行研究,基于此研究软件工程技术,使得硬件设备的数据处理能力有所提高。在研发开发软件技术的过程中,要从应用领域的需求出发对大数据技术进行分析,在大数据开发理论的基础上创新软件开发理论,促进软件技术更好地发展。

参考文献