开篇:润墨网以专业的文秘视角,为您筛选了一篇基于数据中心模式的多网站数据挖掘技术研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘要:随着互联网的快速发展,Web上的数据飞速增长。面对海量的数据,如何从中找出有价值的信息,运用到商业决策的制定中,已经成为越来越多的人关心的课题。该文主要介绍了web数据挖掘的概念和分类,论述了在电子商务中web挖掘的过程和方法,揭示了数据挖掘在电子商务中广泛的应用前景。论文实现了一个面向多电子商务平台的数据挖掘系统,系统面对多电子商务平台,实现了统一的数据收集和预处理过程,对用户的访问日志进行分析,从网站、商品类别、商品等角度进行数据分析,并又对用户的访问数据进行挖掘,从这些数据中发现潜在的规律,把握用户动态,帮助企业制定商业决策,使电子商务更具个性化和针对性。
关键词:数据挖掘;Web挖掘;电子商务系统;用户兴趣分析
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)31-6948-03
现今,随着网络技术和数据库技术的迅猛发展,有效推动了商务活动由传统活动向电子商务变革。随着商务活动活动的电子化、数字化和网络化,如何从这些大量的数据中找出有利于商业运作、提高竞争力和为访问客户提供更多更优质的服务的信息,成为电子商务成败的关键因素,越来越受到电子商务经营者的高度关注,这也对计算机数据技术提出了新的要求。数据挖掘技术应运而生,它是一种能够从网上获取大量数据,并能有效地提取有用信息供企业决策者分析参考,以便科学合理制定和调整营销策略,为客户提供动态、个性化、高效率服务的全新技术。
1 Web数据挖掘技术及其在电子商务中的应用
Web数据挖掘[1],即Web挖掘,它是指从Web资源上抽取信息或知识的过程,它将传统的数据挖掘思想和方法应用于Web之上,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。它以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术,将传统的数据挖掘技术与Web结合起来。建立在对大量的网络数据进行分析的基础上,采Web数据挖掘用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行对网站以及网页的改进。
Web挖掘是数据挖掘技术在Web环境下的应用,是集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项新技术[2]。目前,随着电子商务网站的兴起,经过分析一定时期内站点上的用户的访问信息,发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息,对各种商业领域具有重要的实用价值,因而,电子商务必将是未来Web数据挖掘的主攻方向。Web数据挖掘技术在电子商务中的应用主要包含以下几方面:(1)寻找潜在客户;(2)留住访问客户;(3)提供营销策略参考;(4)完善商务网站设计。
2 Web数据挖掘的过程和方法
根据Web数据挖掘的方法,Web数据挖掘的一般流程[3]分为:数据收集(采集)、数据预处理、模式发现、模式分析四个步骤。
Step1:数据收集(采集),从客户端、服务端或者是网站端获取数据。数据收集的对象以文本形式存在的,数据是粗糙、未经处理的,比如Web日志;
Step2:数据预处理,通过数据清洗,数据格式化对收集海量数据中的有用数据进行筛选,供下一步数据挖掘和分析;
Step3:模式发现,对预处理后的数据进行分析和挖掘,发现数据中存在的模式。
Step4:模式分析,针对发现的模式进行分析,提取其中有用的信息。得出的结果可以应用到制定商业决策或优化网站结构中。
3 数据收集和预处理模式的改进
3.1 传统的数据收集和预处理模式
传统的数据收集模式,获取的日志格式取决于各网站所使用的服务器日志格式,或者用户自定义的日志格式。这就导致获取的多个Web服务器日志文件的异构性,即记录的格式不同,内容排版也不同,无形中增加了数据收集的难度。
传统的数据预处理模式也存在相同的问题。由于数据的来源网站可能是多个,不同网站的网站路径结构都不一样,这导致大多数数据挖掘系统预处理后的信息只局限于来源url,访问url,访问的文档列表,流量等信息,无法得到定制化的信息,如用户点击了哪个商品类别等。
数据中心[4]是集数据收集、预处理、分析为一体的统一式数据管理中心系统,客户端只需要调用统一的数据中心接口,即可传递必需的数据,由数据中心统一的记录到日志文件中。因为数据都是有数据中心服务器的日志系统进行记录的,这样做就屏蔽了传统数据收集模式中,由于各个网站的日志记录格式不同,需要区别对待区别处理的问题。
在数据中心,将所有的网站的路径结构都抽象成了三层的目录结构,即应用系统层(例如淘宝)、模块层(例如数码这个类别)和资源层(例如iphone这个商品)。对每一层的目录,都使用一张表来进行维护。
比如对淘宝商城的路径结构进行抽象,应用系统层对应淘宝,code是taobao,数码这个类别对应模块层,code是digital,具体的产品,比如“iphone”,对应资源层,code是“iphone”。假设淘宝原来的商品“iphone”的查看页面路径是A,在数据中心配置该路径的映射路径B,也就是将上面的code组合起来,即三层目录结构taobao/digital/iphone。通过抽取每层的code和数据中心表中记录的应用程序、模块和资源进行对比,网站就可以得到用户访问了哪个模块或资源,解决了传统的数据预处理过程无法得到定制化信息的问题。
4 用户兴趣度算法
5 电子商务网站日志挖掘系统的设计与实现
5.1 电子商务网站中的Web数据挖掘对象
在电子商务网站中,Web数据挖掘的对象一般有用户的访问日志、用户的查询信息以及查询记录的数据。在本次的系统实现中,主要是对用户的访问日志进行挖掘。
5.2 Web挖掘系统的实现
1) 数据收集模块
以Web服务器的日志文件作为电子商务数据挖掘的数据源。其中,Web服务器的日志文件使用Web服务器自身提供的记录功能及规则,按照约定的或者自定义的格式进行数据收集。
2) 数据预处理模块
系统通过将收集到的日志进行数据清理、数据识别两个步骤对原有的Web日志文件进行预处理工作。
Step1:数据清理,根据挖掘的需要,去掉日志中无关的信息。
Step2:数据识别,根据服务端数据库存储的用户信息、应用信息、商品类别和商品信息,来对Web服务器日志中记录的信息进行匹配,将日志中的信息转换成可理解的,可被分析的数据。例如,在数据库中存储的商品类别表有一个类别“衣服”,它的url标识是“cloth”,所以系统会在访问信息的url查找cloth这个字串,找到了则会将此条信息和“衣服”类别进行联系,如此对所有的访问信息进行处理。最系统后会将这些信息处理成可被数据库识别的sql语句。
3) 数据分析模块
系统从多个角度分别对网站、商品类别、商品、用户、广告进行全面的数据分析,得出有价值的信息,比如网站全年的访问人数、商品的访问量排名、广告的点击率等等,并将这些分析的结果以图表的方式显示在页面上,方便查看。同时为后面的模式发现模块提供更多的挖掘维度和分析数据,更快的进行模式发现过程,如图1所示。
6 结论
Web数据挖掘是数据挖掘中很重要的一个领域,在电子商务中应用Web数据挖掘技术,可以为商务网站更准确、更有效的确认目标市场、制定商业决策、提高企业竞争力提供帮助,通过数据挖掘,商家还可以得到用于特定的消费群体进行定向营销的决策信息。论文研究并实现了一个电子商务网站日志挖掘系统,通过对传统的数据收集和预处理过程进行改进,对Web服务器日志进行了多角度的数据分析,对网站、商品类别、商品、用户、广告进行全面的数据分析,得出有价值的信息。
参考文献:
[1] 涂承胜, 陆玉昌. Web 使用挖掘技术研究[J] .小型微型计算机系统, 2004, 25(7) : 1177- 1184.
[2] Chen M S, Park J S, Yu P S. Data Mining for Path Traversal Patterns in a Web Environment[C] MIn: Proceedings of the 16th International Conference on Distr ibuted Computing Systems. Hong Kong: [s.n.] ,2006: 385- 392.
[3] Borges J, Levene M. Data Mining of User Navigation Patterns[C] MIn: Proceedings of the WEBKDD. 99 Workshop on Web Usage Analysis and User Profiling. San Diego, CA,USA: [s. n.] , 2008: 31- 39.
[4] 朱志国, 邓贵仕. Web 使用挖掘技术的分析与研究[J] .计算机应用研究, 2008, 25(1) : 29- 32.
[5] 陶俊,张宁.基于用户兴趣分类的协同过滤推荐算法[J].上海:上海理工大学,2011,30(2):34-38.
[6] 向坚持, 刘相滨, 徐选华. 基于用户行为的Web 使用挖掘数据采集技术研究[J].计算机与现代化, 2007, 12: 59-62.