混合式教学中线上短文本聚类算法研究(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇混合式教学中线上短文本聚类算法研究范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：本文的目的是实现在基于混合式课堂中，学生通过线上学习而产生的短消息文本的聚类算法比较。首先通过手机QQ聊天记录的收集获得我们需要的短消息文本；然后使用最经典的k-means算法对我们的短消息文本进行聚类，通过对聚类结果的分析了解到学生对本节内容的疑惑，对小组中学生活跃的程度比较，以及学生的情感变化等研究。通过对文本的聚类可以大大的提高了教师的工作效率，减轻了教师的负担，更能够有的放矢的针对某组的具体问题进行因材施教的教学。

关键词：k-means算法；混合式教学；短消息文本

DOI：10.16640/ki.37-1222/t.2017.01.194

1 引言

华南师范大学的李克东教授认为，混合式学习是我们教学中多种形式的混合：线上线下的混合，过程性评价和终结性评价的混合，学生与学生共同探讨的混合。[1]随着信息时代的到来，以及我们线上学习的推广，产生了大量的数据，这些数据的增长之快，数量之大是难以想象的。这些数据蕴含的信息也是我们所不能想象的，对文本的处理以及有很多年的历史了，是相对比较成熟的了，但把它有效的应用到我们混合式学习中是本文档一个创新点。随着学生线上学习而产生了大量的短消息文本数据，对这些数据进行聚类从而发现学生的问题及不足，教师通过整理可以大大增加课堂的效率，而且可以通过学生的问题有的放矢的整理出适合本班的教辅材料。

2 短消息文本的介绍

由于我们使用的语料是学生的聊天记录，它属于短消息文本，其具有字数少，表达不明确，书写不规范的特点。然而从这些语言表达少，又不规范的的短消息文本中识别其语义还是有一定难度的。其次由于短消息文本是学生们讨论的过程，所以其口语化十分严重，例如现在网络中使用较广泛的“债见”；“好咩”；“欧克”；“鸭梨”等。

（1）不规范性：短消息文本由于是截取学生的聊天记录，聊天的过程是在一种轻松愉悦的情况下进行的，然而书写出来并没有正式邮件那么规范，会出现错误的编写，用语不规范等特点。如不规范缩略语（围脖一微博）（晒一share）等。

（2）不确定性：由于聊天是大家彼此交流互动的过程，不同于以往的信件存在固定的主题，围绕一个话题展开的，我们短信息文本存在话题的不确定性。

通过以上介绍我们可以了解到短消息的不规范性、不确定性口语化等特点都给我们聚类带来了一定的困难。如何不依赖以往词库排除不规范性带来的干扰而更好的挖掘最新的，有用的信息。如何利用短消息文本自身的特点提高聚类质量。如何在海量数据聚类中保证算法执行的效率等都是值得研究的问题。

3 文本的预处理

收集到的预料是同学们使用自然语言描述的，计算机无法直接识别它的意思，因此要将TXT格式转换成计算机能够识别的数据格式。

（1）文本的去噪：收集到的文本已TXT形式进行保存，从文本中去除与内容无关的的标记，主要为后面分词做准备。

（2）文本分词：对文本进行分词，本文只有使用的是中科院的分词系统，基于字符串匹配的分词技术。

（3）文本的表示：文本进行分词后再把它表示为计算机可以识别的格式，本文采用的文本模型：向量空间模型。

（4）文本特征提取：按照一定的规则从原来的文本特征集合中选出一部分最有效的特征。

4 使用K-Means进行聚类

本文之所以选用k-means算法，是由于该算法是一个应用比较广泛而且较为成熟的聚类算法了它是由MacQueen提出的一种非监督实时聚类算法，能够处理大量的数据，而且相对于其他算法来说比较简单易行。该算法的特别之处在于算法运行前必须先指定聚类数目K及初始聚类中心和收敛条件或者迭代次数。[2]根据一定的相似性度量标准，将每一条数据分配到最近的聚类中心，形成新的类，然后以每一类的平均矢量作为这一类的新的聚类中心，将数据重新分配，反复迭代直到类收敛或达到最大的迭代次数。

K一Means算法描述[3]：输入数据：聚类簇的个数为K，其中包含了n个数据对象样本集。输出结果：满足目标函数K的聚类才能才能结束。

（1）初始聚类中心是由已知的n个数据对象中随机选取的k个。

（2）将剩余的样本点依次计算它与聚类中心的相似度，（在不同的应用中可选择不同的距离函数来衡量其相似度）将其相似度最近的分为一类。（3）要计算各个聚类的Mean值，可由步骤（2）得到的新的聚类集合计算。（4）重复步骤（2）（3）直到所有聚类的Mean值不再改变，聚类结束。

K-Means聚类算法最大的优点是运算比较交单，并且算法简单快速。对于处理大数据有很强的伸缩性，时间复杂度近于线性。

K-means主要的缺点如下：（1）运行速度。虽然通常情况下，k-means执行的循环次数要少于数据对象的个数。但是对于不好的情况，它的时间复杂度将是超级多项式的。（2）K值的选取。在k-means中对于K值的选取是十分关键的，因为在程序运行前要先给定K的大小。K值选取的不同，划分的结果就不相同。（3）初始化K个中心点。它的的初始选取对于划分结果亦非常关键。K-means对于数据不同的维度“一视同仁”，缺乏轻重之分。

5 算法的评价

聚类技术是没有预先设定或者定义类别情况下进行的一种无监督的学习方法。因此，对聚类结果进行客观、有效的评价一直都是比较困难的。根据评价标准不同一般分为两类：①基于人工进行判定；②利用目标函数进行判定。本文以人工进行判定，其评定方法主要有F值、平均准确率、熵等。

6 总结

本文通过使用K一Means算法对在混合式教学中学生线上产生的短消息文本进行聚类，可以把学生一些不懂的问题聚类出来，可以大大减少教师工作量，提高工作效率。教师可以通过仔细研究聚类结果并且进行总结，在下一次上课时候有的放矢的给学生们进行讲解。

参考文献：

[1]王元彬.混合式学习的设计与应用研究[D].山东：山东师范大学教育技术系，2006：p10.

[2]Jean-Francois Aujol，Antonin Chambolle. Dual Norms and Image Decomposition Models[J]. International Journal of Computer Vision ， 2005 .

[3]王乐.短语消息聚类相关技术研究[D].国防科学技术大学，2008.

基金项目：云南师范大学研究生科研创新基金项目“基于PMVS的三维重建点云模型修复研究”（YJS201663）

作者简介：周S（1989-），女，山东蓬莱人，硕士研究生，研究方向：混合式教学。

混合式教学中线上短文本聚类算法研究

常用范文

优秀范文

精选范文