首页 > 范文大全 > 正文

算法分析与研究关联规则挖掘的优化算法

开篇:润墨网以专业的文秘视角,为您筛选了一篇算法分析与研究关联规则挖掘的优化算法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:频繁项集挖掘是关联规则挖掘的核心部分,目前大多数关于关联规则挖掘的研究都集中于如何提高频繁项集挖掘的效率,然而在实际应用中,决策者面对的是最终从频繁项集中生成的规则集,因此优化规则的生成过程及生成规则同样值得重视。本文提出频繁项集的子集树这一模式来生成关联规则,不仅简化规则的生成过程还可缩小决策者面对的规则集,更便于规则的增量更新。

关键词:频繁项集;关联规则;项集子集树

中图分类号:TP113 文献标识码:A

1引言关联规则挖掘是数据挖掘中重要的研究任务。自从1993年Agrawal[1]提出后,关联规则挖掘问题就受到了广泛的关注。

一般来说,关联规则挖掘的过程由以下两步组成:

1)采用某种频繁项集挖掘方法发现所有的频繁项集。

2)根据所获得的频繁项集,产生相应的强关联规则。

由于第二步的开销远低于第一步,挖掘关联规则的总体性能由第一步决定。因此,许多关联规则的研究都是围绕着第一步算法效率改进的研究,如Apriori算法[2]及其改进形式[3-5]和后来的FP-growth[6]算法。然而这些研究仅从技术的角度理解和描述挖掘问题,注重的是算法的效率,但是对于一定应用领域,决策者最终面对的是从频繁项集中产生的规则,他们希望从规则中发现有用的知识来辅助决策的制定。如果直接从频繁项集中生成全部规则,将是一个庞大的集合,不利于决策者辨别。并且在挖掘的过程中有两个由用户设定的阈值,而用户有时也不能给出一个合适的阈值,因此常常需要多调整几次阈值来产生令决策者满意的结果。但是,每调整一次阈值就重新生成一次所有规则,不仅浪费时间而且浪费之前已产生的资源。

现有关于优化关联规则的的研究可概括为以下两种方法:一种是采用附加度量,如信任度conviction [7],χ2度量[8],全置信度[9]等;另一种是由用户定义约束条件,如项集约束[10],概念层次约束[8],规则形式约束[11]等。第一种方法相当于重新定义了规则的有趣性。然而规则是否有趣只有用户能够确定,这种判断是主观的,因用户而异。因此,可以说不存在在任何情况都能够产生有趣规则的度量方式。第二种方式是采取一定度量方式后结合实际应用情况按用户的需求增加附加约束来缩小被考虑的规则的范围。本文是在传统的支持度-置信度框架下生成有趣规则,首先采用Apriori算法生成频繁项集,然后根据文中定义的频繁项集的子集树生成关联规则。该方法在不丢失挖掘信息的基础上减少了规则数量并且最大限度地利用了旧的阈值下生成的关联规则,不仅有利于决策者的分析,还可以提高规则增量更新的效率。

(4)为了尽量缩小产生的规则数,在建立项集的频繁子集树过程中对生成的具有相同根结点的同层频繁项集按项集的支持度进行升序排序。

该过程将规则的剪枝过程融合在了规则的生成过程中,不仅减小了规则数量而且有利于阈值更新的情况下规则的更新。

4算例分析

为了说明算法的应用过程,本文以表1的交易数据集为例进行分析.

5结论

本文主要是针对规则的生成过程,提出了一种基于频繁项集的子集树挖掘方法,先通过生成频繁项集的频繁子集树,然后在子集树上搜索满足阈值的频繁子结点,最后由满足条件的子结点生成相应的规则。用该子集树进行规则的生成,不仅可以减少部分冗余规则的生成,更可以便于规则的增量新。

参考文献

[1]R. Agrawal, T. Imielinski, A. Swami. Mining Association Rules between Sets of Items in Large Database[C]. ACM SIGMOD Conference Proceedings on Management of Data,Washington DC,USA,1993: 207-216.

[2]R. Agrawal, R. Srikant. Fast Algorithms for Mining Association Rules[C]. International conference on very large database (VLDB), Santiago,Chile,1994: 487-499.

[3]H. Toivonen. Sampling Large Database for Association Rules[C]. In Proc. Of the 22nd Int. Conference on Very Large Databases,Mumbai,India,996: 134-145.

[4]R. Agrawal, J. Shafer. Parallel Mining of Association Rules[J]. IEEE Transactions on Knowledge and Data Engineering,1996, 8(6):962-969.

[5]H. E. Han, G. Karypis, V. Kumar. Scalable Parallel Data Mining for Association Rules[C]. In Proc. of the ACM SIGMOD Conference on Management of Data, NY,USA,1997:277-288.

[6]J. Han, J. Pei, and Y. Yin. Ming Frequent Patterns without Candidate Generation[C]. In Proceeding of Special Interest Group on Management of Data, NY,USA,2000:1-12.

[7]S. Brin, R. Motwani, J. Ullman,and S. Tsur. Dynamic Itemset Counting and Implication Rules for Market Basket Data[J]. Proc. ACM SIGMOD Conf., NY,USA,1997:255-264.

[8]S. Brin, R. Motwani, and C. Silverstein. Beyond Market Baskets: Generalizing Association Rules to Correlations[C]. Proc. ACM SIGMOD Conf.NY,USA, 1997:265-276.

[9]E. R. Omiecinski. Alternative Interest Measures for Mining Associations in Databases[J]. IEEE Trans on Knowledge and Data Engineering, 2003, 15(1):57-69.

[10]R. Srikant, Q. Vu and R. Agarawal. Mining association rules with item constraint[C]. In Proceeding of 3th International Conference on Knowledge Discovery and Data Mining(KDD),USA, 1997:67-73.

[11]Roberto J. Bayardo Jr, Rakesh Agrawal, Dimitrios Gunopulos. Constraint-Based Rule Mining in Large, Dense Databases[J]. Journal of Data Mining and Knowledge Discovery, 2000,4(2-3) 217-240.

[12]Jiawei Han, Micheline Kamber. Data Mining Concepts and Techniques, Second Edition, Translated by Fanming, Menxiao Feng[M].Shenyang:China Machine Press, 2007.