数据挖掘技术在体育训练中的应用综述与分析(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇数据挖掘技术在体育训练中的应用综述与分析范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：随着体育事业的不断发展，大部分体育信息都是用信息技术存取和积累的。面对庞大的数据库和激烈的比赛竞争，将数据挖掘技术应用于体育领域将会成为一种趋势。该文研究数据挖掘技术的各种算法在体育训练中的应用情况，对基于决策树分类的网球训练算法、基于BP神经网络算法、基于关联规则的FP-tree算法进行了分析。最后在此基础上，研究了决策ID3算法的改进方向和可能出现的弊端，提出了数据挖掘技术未来应用到体育领域的研究方向。

关键词：数据挖掘；体育训练；决策树ID3

中图分类号：TP311文献标识码：A文章编号：1009-3044(2012)22-5492-04

Application Review and Analysis of Data Mining Techniques in Sport Training

XU Jian-min, OU Mu-hua, XIONG Jin-zhi

(Computer College, Dongguan University of Technology, Dongguan 523808, China)

Abstract：With the continuous development of sports, most sports are using IT to access and accumulate. Faced with a huge database and fierce competition in the game, the data mining technology in the field of sports will become a trend. This study focuses mainly on the implementation of the various algorithms based on the data mining, which investigates the algorithm based on decision tree classification applied to tennis, the algorithm based on BP neural network, and the FP-tree algorithm based on association rules. Finally, on the basis of the above method, the study analyzes the direction of improvement to and possible drawbacks of the decision-making ID3 algorithm, and provides a way of research of data mining which will be applied to sports.

Key words: data mining; sports training; decision tree ID3

目前体育数据信息的分析通常采用常规统计方法：抽样理论、假设检验、决策理论、估计理论、时间序列等[1]，大多数统计分析技术都要求完善的数学理论和严谨的使用技巧，对使用者要求很高，且大多属于抽样研究，存在不同程度的丢失信息现象。此外，传统统计方法很难挖掘出数据资料的潜在规律。随着近年来体育领域数据增多，各种指标的体质监测数据，各种各类体育竞技比赛数据等越来越多，形成海量数据[2]。与此同时，计算机应用技术在存储、模拟分析数据方面有着很明显的发展潜力。于是，如何在海量数据中寻找各种因素间的相互关系、发现它们之间的变化规律，进而对数据深入分析就成为了计算机的重要发展方向之一。因此，数据挖掘技术的研究和应用成为体育科学研究中不可或缺的内容之一。

该文首先介绍数据挖掘的定义和基本方法，其次综述数据挖掘技术在国内外体育训练的应用情况，最后在此基础上经过对方法和研究方向的分析，提出未来数据挖掘技术在体育训练上的研究方向。

1数据挖掘的基本方法

数据挖掘作为一门跨学科的应用技术，它涵盖了统计学、机器学习、人工智能、模糊数学等诸多科学领域，形成了根据具体任务而进行数据分析以及知识萃取的方法体系。同样，对于相同的问题也可以根据不同的应用领域特点选择不同的算法。比如，处理描述性挖掘任务有数据特征化和数据区分等概念抽象和数据汇总概要处理；预测性挖掘任务因目标变量属性的不同有分类和预测方法。

数据挖掘的方法主要有：

1）分类：按照分析对象的属性分门别类加以定义，建立类组。

2）回归：是使用一系列的现有数值来预测一个连续数值的可能值。

3）预测：根据对象属性的过去观察值来估计该属性未来的值。

4）聚类：是将一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一个类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。

5）关联：是要找出在某一事件同时出现的事件。主要是要找出：如果甲因素出现在某一事件的一部分，则乙因素也出现在该事件中的机率有多大。

数据挖掘常用的技术主要有决策树、遗传算法、聚类分析、神经网络技术、关联规则等[3-4]。

1）决策树

一种用树枝状展现数据受各变量的影响情况的分析预测模型，根据对目标变量产生效应的不同而制定分类规则，它是建立在信息论基础之上，对数据进行分类的一种方法。它首先通过一批已知的训练数据建立一棵决策树，然后采用建好的决策树对数据进行预测。决策树的建立过程是数据规则的生成过程，因此这种方法实现了数据规则的可视化，其输出结果容易理解，精确度较好，效率较高，因而较常用。常用的方法有分类及回归树法、卡方自动交互探测法等[3]。

2）遗传算法

一种新的最佳化空间搜索方法，它应用算法的适应函数来决定搜索的方向，运用一些拟生物化的人工运算过程进行一代又一代的周而复始的演化，求得一个最佳结果。特点是具有强固形与求值空间的独立性。强固形使问题的限制条件降到最低，并大幅度提高系统的容错能力；而求值空间的独立性则使遗传算法的设计单一化，且适用于多种不同性质、领域的问题。将遗传算法运用于数据挖掘，可以开采出与众不同的信息，是别的算法所不能替代的。

3）聚类分析

聚类分析是将数据对象分成类或簇的过程，使同一簇中的对象之间具有很高的相似度，而不同簇中的对象高度相异。一个好的聚类方法会最大化类内的相似性，最小化类间的相似性。主要聚类方法有：划分算法、层次算法、基于密度的方法、基于网格的方法、基于模型的方法。

4）神经网络技术

一种模仿人脑思考结构的数据分析模式，由输入变量或数值中自我学习并根据学习经验所得的知识不断调整参数，以期得到资料的模式。是建立在自学习的数学模型基础之上，它可以对大量复杂的数据进行分析，并能完成对人脑或计算机来说极为复杂的模式抽取及趋势分析。神经网络的处理过程主要是通过网络的学习功能找到一个恰当的连接加权值来得到最佳结果。比较典型的学习方法是回溯法。通过将输出结果同一些已知值进行一系列比较，加权值不断调整，得到一个新的输出值，再经过不断的学习过程，最后该神经网络得到一个稳定的结果。

5）关联规则

关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。关联规则主要应用在商业数据库中：商品分类设计、降价经销分析、生产安排、货架摆放策略等。关联规则主要反映了一个事物与其他事物之间的相互依存性和关联性。给定一个事务集D，挖掘关联规则的问题就变成如何产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则问题。

2数据挖掘在体育领域中的应用

2.1数据挖掘国内外研究情况

1)数据挖掘在体育训练国内研究的情况

查阅中国期刊中文数据库，硕士博士论文中，涉及到体育数据挖掘的体育科研论文内容主要有：体育教学、学生体质调研、运动训练监控、临场比赛优化、体育信息管理等的数据挖掘研究以及优化数据挖掘工具在体育领域的应用研究。

杨双燕、赵水宁比较全面地介绍了数据挖掘技术在学生体质调研、体育产业、竞技体育、体育决策管理中的应用方向[5]。高洪歌通过对优秀运动员参加的国际比赛中的各项技战术参数，然后运用关联规则、聚类分析和基于马尔代夫过程的数据挖掘算法，揭示了隐含于数据中的很多信息[6]。孟宪明、凌培亮从视野和步长等方面对人工鱼群算法进行改进，并提出基于该算法的乒乓球技战术分类规则数据挖掘模型，分析顶级乒乓球运动员比赛实例，结果表明与乒乓球技战术关联规则数据挖掘相比，该模型在挖掘质量和挖掘效果上有较大优势[7]。龚明波，钟平中通过对通过球队进球、射门、射门命中率、角球等11项攻防技术指标进行主成分分析的基础上，确定球队技战术能力聚类的综合指标，形成聚类样本。在此基础上，引入模拟人类视觉系统的尺度空间理论，提出了基于尺度层次空间聚类的球队技战术分类方法[8]。陈健、姚颂平以CBA联赛为背景运用关联规则得出核心运动员的得分与球队获胜的关联度，核心运动员的上场时间和关联度等[9]。

2)数据挖掘在国外体育领域中的应用现状

在新世纪初美国NBA的教练运用IBM公司提供的DM工具Advanced Scout能在比赛中辅助教练员林场决定队员替换方案，取得了很好地效果。此后，NBA球队从各方面广泛使用该系统来优化他们的战术组合。

美国国家曲棍球联盟与IBM建立了一个合资公司，推出了电子实时比赛计分和统计系统NHL-ICE.该软件可以让教练、播音员、记者及球迷共同利用NHL各类数据，使用NHL-ICE挖掘各自所需的信息。

意大利运用数据挖掘技术开发了Data Volley软件系统，实现了排球比赛的技战术统计分析。

2.2决策树算法的应用

决策树是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。分类（Classification）任务就是通过学习获得一个目标函数（Target Function）,将每个属性集x映射到一个预先定义好的类标号y。分类任务的输入数据是纪录的集合，每条记录也称为实例或者样例。

决策树算法最具影响和最为典型的算法的主要是ID3算法。ID3算法的基本思想：以信息熵为度量，用于决策树节点的属性选择，每次优先选取信息量最多的属性，亦即能使熵值变为最小的属性，以构造一颗熵值下降最快的决策树，到叶子节点处的熵值为0。此时，每个叶子节点对应的实例集中的实例属于同一类[10]。

2.3神经元网络的应用

BP算法的基本思想是：学习过程分为两个部分：信号正向传播和误差的反向回传。信号从正向传播时，输入数据从输入层进入，经过各级隐层网络依次逐层处理，传递到输出层，如果输出层输出的结果和期望不相符或者差距很大，那么将误差值当做调整的信号一次各层向着相反的方向传回来，通过作用神经元之间的连接权矩阵，使误差减小。经过不断的学习，最后使得误差减小到可以接受的范围以内。具体的算法步骤如下：

1)从训练数据集中取出某一样本数据，将信息录入到神经网络中的输入端。

2)根据各个节点间的连接情况正向逐层的处理后，可以得到神经网络的输出数据。

3)计算网络输出的数据值与期望输出的数据值的误差。

4)把误差逐层按照相反的方向传回到之前各层网络，并且按照一定的原则将误差信号的值作用到连接的权值上，使整个神经网络的连接权值误差越来越小。

5)将数据集输入—输出样本逐一重复以上步骤，直到整个样本集的误差减小到可以接受的范围。

目前国内有学者将BP神经网络技术应用到研究体育生化指标对竞技的影响[12]。他们采用采用BP神经网络，输入的神经元个数为4个，隐含层5个神经元，输出1个神经元。经研究得到的结论是：

1）BP神经网络精确度比较高，预测结果清晰地预测了运动员竞技能力和比较科学的预测了运动员的未来发展趋势。

2）在体育训练中，运用BP神经网络模型对运动员生化指标数据可以预测运动员竞技成绩并且对指导教练员选拔运动员有一定的科学帮助。

2.4关联规则

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联.关联分析的目的是找出数据库中隐藏的关联网[13]。

设I={i1,i2,…,im}是项的集合。关联规则：形如A => B的蕴涵式，其中A?I , B?I ,并且A∩B =?。支持度：P(AUB)，即A和B这两个项集在事务集D中同时出现的概率.置信度：P(B I A)，即在出现项集A的事务集D中，项集B也同时出现的概率.如果一条关联规则同时满足最小支持度阈值和最小置信度阈值，那么就认为它是有趣的，并称为强关联规则。给定一个事务集D，挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则[14]。

3分析

3.1各种常用方法的适用范围及不足

基于数据挖掘决策树分类方法即ID3方法，比较简单明了，它构建树的步骤简单，在属性不多的情况下人为就可建立，实用性非常强。

基于数据挖掘关联规则方法的乒乓球技战术分析系统可以根据乒乓球比赛的实战数据结果进行统计分析，应用关联规则中的FP-growth算法，深入挖掘选手A和选手B在各项技术的比拼，切磋过程中的弱项和强项，也就是选手A与选手B进行比赛时哪些技战术会让自己得分，运用哪些技战术会使自己失分。不仅有利于自身选手在体育训练中加强自己的薄弱环节，并且在自己水平有限的情况下和某个个体选手对决时可以充分发挥自己的强项，尽量避免使自己失分的弱项，这样可以把握形势的主动权，取得更好的成绩。所以数据挖掘在体育训练方面的应用可以挖掘众多体育信息中潜在的规律，使体育训练和比赛朝着理性化和精确化的道路发展，故数据挖掘在体育方面产生的影响是举足轻重的。

将乒乓球比赛技战术分析做成一个实用、有效的软件，广泛的被各个乒乓球队使用，作为为教练做出正确的分析和决策提供一个参考，使教练的意见和训练更加的客观，使体育比赛更加的科学精准[11-12]。

不过这种方法有一定的不足：

1）比如如果只录入一场比赛，那么数据的说服力和准确度都会下降。并且在这种不完全数据的统计中技术水平往往也和现场情况选手的压力、体能情况和发挥息息相关。

2）就是FP-tree关联规则本身具有一定的误差。源于它是以支持度-置信度为基础的关联规则挖掘方法，在理论上缺乏严格的理论证明和基础。在阈值参数设定缺乏客观标准时就将其直接应用到客户细分中，可能会产生一些误导。

基于关联规则本身的局限，我们有必要开发更好的算法，克服这些不足，在发现规则的同时需要更多的数据，更深层次的联系才行。

3.2对基于决策树ID3算法的思考

决策树ID3算法通过学习建立一棵决策树。在生成决策树的时候，通常采用信息增益方法来确定生成每个节点时所应选择的合适属性，也就是通过选择具有最高信息增益的属性作为测试是否合适做当前属性的方法。目的是为了将划分后的获得的训练样本进行分类所需要信息最小。也就是利用该属性进行信息划分会使产生的各样本子集中不同类别混合程度降低。因此决策树采用这种规则能够有效减少对象分类所需要的划分次数。

理想的决策树有三种：1）叶子结点数最少；2）叶子节点深度最小；3）叶子结点数最少且叶子节点深度最小。但是这种最优的决策树是NP难题。因此，决策树优化问题是很难解决的。不过可以尽量通过结合实际情况优化算法使数据挖掘的分类更有效[13]。决策树ID3算法在网球的例子中尚可正确执行和得出可行的结论。但是ID3算法有一些不足：1）用户信息的计算比较依赖于特征取值的数目较多的属性，这样不太合理。

2）ID3算法在建树时，每个结点仅含有一个属性，是一种单元的算法，属性特征间的相关性强调的不够充分，无法体现出属性间相互联系的特点。

3）ID3对噪声较为敏感。

4）当数据样本集增加时，ID3的决策树会随之变化。

4结论

该文首先是对国内体育训练中数据挖掘技术的应用状况进行综述，然后对决策树的应用，BP神经网络技术在研究体育生化指标对竞技的影响的应用以及FP-Tree算法在乒乓球比赛技术分析中的应用进行分析，最后对ID3算法和FP-Tree算法提出自己的见解：虽然做成最优的决策树是一个难题，但是我们可以根据自己的经验和实际情况灵活的运用算法，即可在实际应用中取得更好的效果，比如训练人员可以根据天气等情况判定每日是否适合户外训练或比赛；另外，运用关联分析数据挖掘技术可以实现乒乓球比赛中技术运用更加合理、精确；它可以实现对实战中选手自身的技术弱项和强项的挖掘，以及运用哪些技术可以得分或失分，为比赛中技术运用提供了科学的依据。

参考文献：

[1]迟殿委,周兴斌.数据挖掘的体育训练决策支持系统[J].微型计算机,2009(25):190-192.

[2]郝丽,刘乐平.数据挖掘（Data Mining）在体育统计中的应用[J].华东理工学院学报,2004,6(5): 92-95.

[3]胡斐.数据挖掘在体育领域中的应用研究综述[J].科技创新导报,2010(27):211-212.

[4]朱明.数据挖掘[M].2版.合肥:中国科学技术大学出版社,2008.

[5]杨双燕,赵水宁.体育数据中数据挖掘技术的应用研究[J].浙江体育科学,2003,2(30): 49-51.

[6]高洪歌,赵会群.关联规则挖掘在乒乓球比赛技战术分析中的应用[J].北方工业大学学报,2003,18(1): 15-20.

[7]孟宪明,凌培亮.基于人工鱼群算法的乒乓球数据挖掘[J].计算机工程,2010,36(5): 28-31.

[8]龚明波,钟平.尺度空间层次聚类在足球球队技、战术能力分类中的应用研究[J].体育科学,2005,25(1):87-90.

[9]陈健,姚颂平.关联分析在篮球技术统计数据分析中的应用[J].上海体育学院学报, 2009, 33(5):91-94.

[10]栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,5(9):95-96.

[11]高洪敏.数据挖掘技术在乒乓球比赛技战术分析中的应用研究[D].北京,北方工业大学,2006.

[12]赵会群,孙晶,花勇民,等.数据挖掘技术在体育比赛技战术分析中的应用研究[J].北京体育大学学报,2008,31(5):712-715.

[13]刘小虎,李生.决策树的优化算法[J].软件学报,1998,9(10):797-800.

[14]段玉春,朱晓艳,孙玉强.一种改进的ID3算法[J].南阳师范学院学报,2006,5(9):63-65.

数据挖掘技术在体育训练中的应用综述与分析

常用范文

优秀范文

精选范文