首页 > 范文大全 > 正文

聚类分析中常用相似性测度函数综述

开篇:润墨网以专业的文秘视角,为您筛选了一篇聚类分析中常用相似性测度函数综述范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:聚类分析是一种无监督的机器学习方法,常用于数据挖掘和模式识别领域中。聚类分析中如何度量样本对象之间的相似性一直是模式识别关注的热点。相似性测度函数的选取对于对象或模式的划分归属影响较大。本文通过对聚类分析中常用测度函数公式进行总结,并分析各自特点、优缺点和异同,给模式识别、数据挖掘领用中的研究人员提供更多选择。

关键词:聚类分析 相似性 测度函数

中图分类号:TP75 文献标识码:A 文章编号:1007-9416(2016)11-0233-01

1 简介

聚类分析是通过计算样本彼此间的距离(欧式距离,马式距离,夹角余弦距离等)来估计样本所属类别。它是一种无监督的机器学习方法,常被用于机器学习,模式识别,数据挖掘等领域中。通常我们在做分类实验过程中,往往遇到不同样本间的相似性度量(Similarity Measurement)选择问题,这一问题其实也是模式识别研究中最基本问题。因此,如何描述、判断样本之间或类与类之间的相似程度变得十分重要。对于不同的数据类型,相似性的度量也不同。所以在相似性测度函数选择上需要慎重。如数值型数据中对象间的相似度是指它们在欧氏空间中的互邻程度;而对分类型数据来说,对象间的相似度是则是跟相同属性的个数有关。更重要的是,不同的相似性测度函数对于同一算法的聚类结果往往不同,有的甚至差别很大。有必要根据输入数据的特征,选择一种合适的相似性度量方法。本文的目的就是对聚类中常用的相似性度量公式做一个总结。希望对模式识别、数据挖掘领域中或聚类分析科研人员提供帮助。

2 常用相似性测度函数

度量聚类样本点之间的亲疏程度常用函数有:

2.1 欧氏距离(Euclidean Distance)

欧氏距离源自欧氏空间中两点间的距离,使用较多。设X1、X2为两个n维模式样本,且X1=[x1,x2,…xn]T,X1=[x1,x2,…xn]T则对于n维数据(模式)而言,欧式距离定义为:

D(X1,X2)=||X1-X2||=[(x11-x21)2+…+(x1n-x2n)2]1/2

D越小,表示样本越相似。但是各特征向量对应的维上应当是相同的物理量,某些维上物理量单位发生变化,会导致出现不同的聚类结果。对不同的单位可对数据特征标准化处理,能够解决这一单位相关的问题。

2.2 曼哈顿距离(Manhattan Distance)

曼哈顿距离也称城市街区距离(City Block distance)。设n维向量X=[x1,…xn]表示模式向量,M=[m1,…mn]表示均值向量;C表示该类模式总体的协方差矩阵。则C=E{(X-M)(X-M)T},马氏距离的平方表达式为D2=(X-M)TC-1(X-M),该距离表示的各分量上模式样本到均值的距离。也就是在各维上模式的分散情况。其优点是排除了模式样本之间的相关影响。

2.3 切比雪夫距离(Chebyshev Distance)

国际象棋中走动步数最少寻优的度量方法类似于切比雪夫距离。n维向量X1和X2之间的切比雪夫距离定义为:

D12=max(|x1i-x2i|),其中i=1,2,…,n。

2.4 闵可夫斯基距离(Minkowski Distance)

闵氏距离不是一种距离,而是一组距离的定义。n维模式样本向量Xi、Xj之间的闵氏距离表示为:

公式中,xik、xjk分别表示Xi、Xj的第k个分量。p是一个变参数。当p=1时,就是曼哈顿距离;当p=2时,就是欧氏距离;当p∞时,就是切比雪夫距离。闵氏距离可以表示一类距离。所以闵氏距离的缺点包括曼哈顿距离、欧氏距离和切比雪夫距离的缺点。

2.5 标准化欧氏距离(Standardized Euclidean distance)

该距离是针对欧氏距离的缺点而作的一种改进方案。标准欧氏距离是先将各个分量进行处理。由于标准化变量的数学期望为0,方差为1。所以在得出样本集X的均值为M,标准差为S的情况下,X的“标准化变量”(standardization)可表示为:。经推导,就可以得到两个n维向量Xi、Xj间的标准化欧氏距离公式:

2.6 马氏距离(Mahalanobis Distance)

若样本集X,协方差矩阵S,均值μ,则X到μ的马氏距离可表示为:

样本Xi与Xj之间的马氏距离为:

若S是单位矩阵,则该距离就变成了欧氏距离。若S是对角矩阵,则变成了标准化欧氏距离。马氏距离的最大特点是与量纲无关。

2.7 夹角余弦(Cosine)

夹角余弦在几何学中可用于衡量向量的方向,而在聚类分析中可用于测度样本之间的相似性。则两个n维样本Xi、Xj之间的夹角余弦可定义为:

夹角余弦的取值范围为[-1,1]。值越大表示两个向量的夹角越小,样本之间相似度越高;反之相似度较低。

2.8 汉明距离(Hamming distance)

样本X1与X2之间的汉明距离定义为:其中一个变为另外一个所需要作的最小替换次数。汉明距离应用于信息编码中,使得最小化的距离可以增强容错的能力。

2.9 相关系数(Correlation coefficient)

对象X,Y之间的相关系数定义为:

相关系数的取值范围是[-1,1]。其绝对值越大,则表明X与Y相关度越高。当相关系数取1或-1时,分别表示X与Y之间为正相关或负相关。

2.10 信息熵(Information Entropy)

信息熵并不是一种相似性度量,但它却能用于分析样本分布松散的情况。样本集X的信息熵的定义如下:

公式中,n表示样本集X的分类数,pi表示X中第i类元素出现的概率。信息熵就越大,表明样本分布越分散;否则表明样本分布越集中。

3 结语

相似性的度量方法很多,有的用于专门领域,也有的适用于特定类型的数据,因此如何描述对象间相似性成为聚类的重要问题。本文对聚类分析中常用相似性测度函数公式进行综述,并解析各测度函数的优缺点、异同,为模式识别、数据挖掘或智能计算中涉及模式对象相似性测度方法提供帮助。至于采用何种指标特征变量精确刻画样本的性质及相似性测度方法需要更深入的学习研究。