首页 > 范文大全 > 正文

基于聚类挖掘技术在电子商务网站中的应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于聚类挖掘技术在电子商务网站中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:数据挖掘技术是一种新的信息处理技术。其目的是从海量数据中抽取潜在的,有价值的数据规律或数据模型。通过数据挖掘技术对电子商务网站数据的分析处理,结合客户关系管理策略,建立反映客户个性特征的客户特征模型,建立动态适应性的服务机制,有效地为不同类型的客户进行个性化服务。该文主要将聚类技术应用到电子商务网站,通过建立商品数据库,利用频繁项集的方法得到客户聚类向量,计算出客户的相异度矩阵,用聚类技术实现客户的分类。

关键词:数据挖掘;客户特征;聚类技术

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)05-1147-03

1 聚类分析算法的简述

聚类分析(Cluster Analysis)是数理统计中专门研究“物以类聚”的一种方法,它具有以下三个要点:选定某种距离度量作为样本间的相似性度量;确定某个评价聚类结果的准则函数;给定某个初始分类,然后用迭代算法找出使准则函数取极值的最好聚类结果。关于数据挖掘中的聚类算法有很多种[32],其中最经典的就是属于划分方法的K-means(K-平均值)的算法。

2 聚类分析算法的数据类型

聚类算法通常都采用以下两种数据结构

1)数据矩阵:这种数据结构是关系表的形式,用p个变量(属性)来表现n个对象,可以看成n×p(n个对象×p个变量)的矩阵

[x11…x1f…x1p? … ? ….?xi1…xif….xip? … ? …?xn1…xnf….xnp]

2) 相异度矩阵:或称对象-对象结构,存储n个对象两两之间的近似性,表现形式是一个n×p的矩阵。

[0d(2,1) 0d(3,1) d(3,2) 0 ? ? ?d(n,1) d(n,2) …. … 0]

在这里,d(i,j)是对象i和j之间相异性的量化表示,当对象i和j越相似,其值越接近0,两个对象越不同,其值越大。在经过数据标准化处理后,对象间的相异度是基于对象间的距离来计算的。最常用的距离度量方法是欧几里得距离,它的定义如下:

[d(i,j)=xi1-xj12+xi2-xj22+…+xip-xjp2]

这里的i=(xi1,xi2 ,…,xip)和j=(xj1,xj2 ,…,xjp)是两个p维的数据对象。

3 K-means算法的工作原理

K-means 算法[33,34]由J.B.MacQueen在1967年提出,常采用误差平方和准则函数作为聚类准则函数。K-means算法的主要过程:首先随机从数据集中选取 K 个对象作为初始聚类中心,然后计算剩下的各个其它样本对象到聚类中心的相似度(距离),分别将它们分配给离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,不断重复这个过程直到标准测度函数J收敛为止(如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数Jc 已经收敛,算法结束)。

K-means 的算法过程:

输入:聚类个数 k 和包含 n 个对象的样本集。

输出:满足方差最小标准的 k 个聚类。

方法:

1)从 n 个数据对象中任意选择 k 个对象作为初始聚类中心;

2) 循环下述流程(3)到(4),直到每个聚类不再发生变化为止;

3) 根据每个聚类中所有对象的均值(中心对象),计算样本集中每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分将每个对象重新赋给最相似的簇;

4)重新计算每个(有变化)聚类的均值。

4 聚类挖掘在电子商务网站中的应用

利用聚类方法可以对客户在各商品特征上的重视度情况进行分析,并将商品特征重视度类似的客户分到相同的类别中去,进而从中找出客户之间未知的现象及关系,智能地在各种商品特征中找出最适合客户所需的商品,减少客户自己寻找商品特征上所花的时间及盲目性,避免客户迷航。

现通过一个例子来说明如何在电子商务平台中使用聚类技术来实现客户分类和商品特征的智能推荐。

假设在商品数据库中有客户甲的4次记录,如表1。

表1 客户甲商品的重视度记录

[序 号\&商品的重视度\&第1次\&A,C,D,E,F\&第2次\&B,D,F,G\&第3次\&A,B,E\&第4次\&A,D,E,F\&]

按照关联规则频繁项集的方法找到客户甲对商品重视度的频繁项集以此作为客户甲的进行聚类分类的特征向量,过程如图1,设最小支持度计数为3。

图1 寻找客户甲商品重视度特征项集

从以上过程发现客户甲对于商品特征的重视度偏向于{A,E}{D,F},据此可得客户甲的聚类规则向量如表2(a),同理可得到客户乙、丙、丁对于重视度的商品特征偏向和聚类规则向量分别如表2(b),表2(c)和表2(d)。

根据欧几里得距离公式,可以计算出四个客户的相异度矩阵,如图2所示。

由此可知,甲和丁之间的欧几里得距离最小,所以甲较类似于丁。如果定义将d

将所有客户按上述方法聚类后,当某客户进入商品系统时,在该客户同类别中随机抽取一个客户,与该客户进行对比,即可知将向该客户推荐的商品特征。本例中,如果客户甲已评价“特征A,特征C,特征D,特征F”,客户丁评价了“特征C,特征D,特征G”,则可将“特征G”自动推荐给客户甲,将“特征A,特征F”推荐给客户丁。

从以上所述可以看到,通过建立客户商品特征偏好得到客户聚类向量,再使用聚类方法便可将客户进行分类,进而达到智能推荐商品的目的。在此可使用典型的K-means算法来实现。

参考文献:

[1] Goebel M,Gruenwald L.A survey of data mining and knowledge discovery software tools[J].SIGKDD Explorations, l999: 20-33.

[2] Cooley R,Mobasher B,Srivastava J.Data preparation for mining world wide web browsing patterns[J].Knowledge and Information Systems,1999(1): 5-32.

[3] Suhail Ansari, Ron Kohavietal. Integrating E-Commerce and Data Mining Architecture and Challenges[J].WEBKDD 2000, 2000: 37-39.

[4] Nordine Melab. Data Mining A key contribution to E-business[J].Information&Communications Technology Law,2001,10(3): 309-318.

[5] 陶树平,屠颖.关联规则和分类规则挖掘算法的改进与实现[J].计算机工程,2003(15): 104-105.

[6] 朱明.数据挖掘[M].1版.北京:中国科学技术大学出版社,2002: 5-17, 139-140, 154-157.

[7] La Jolla. Alternatives to the k-means algorithm that find better clustering[J].Proceeding of ACM SIGMOD, 1992:192-195.

[8] Zaki M J,Parthasarathy S, Li W.A localized algorithm for parallel association mining[C].9th Annual ACM Symposium on Parallel Algorithms and Architectures, Newport, Rhode Island, 1997:28-29.