首页 > 范文大全 > 正文

基于统计过程控制的协同推荐攻击检测方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于统计过程控制的协同推荐攻击检测方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:针对恶意攻击者利用协同推荐系统用户偏好敏感的缺陷向系统中注入虚假数据破坏推荐结果真实性的问题,提出基于统计过程控制(SPC)的协同推荐攻击检测方法。该方法将用户概貌项目评价数偏离度作为服务质量控制属性构建休哈特控制图,利用判异规则检测攻击用户,从而完善协同推荐系统模型。实验证明这种检测方法对各种不同的攻击模型都有较高的检测准确率和查全率。

关键词:协同推荐系统;统计过程控制;用户概貌项目评价数偏离度;托攻击;攻击检测

中图分类号: TP393.08 文献标志码:A

Attack detection method based on

statistical process control in collaborative recommender system

LIU Qinglin*, MENG Ke, LI Sufeng

(

School of Computer Science and Technology, China University of Mining and Technology, Xuzhou Jiangsu 221116, China

)

Abstract:

Because of the open nature of collaborative recommender systems and their reliance on userspecified judgments for building profiles, an attacker could affect the prediction by injecting a lot of biased data. In order to keep the authenticity of recommendations, the attack detection method based on Statistical Process Control (SPC) was proposed. The method constructed the Shewhart control chart by using the users deviation from the average of rating numbers and detected attackers according to the warning rules of the chart, thus improving the robustness of collaborative recommender systems. The experiments demonstrate that the method is effective with high precision and high recall against a variety of attack models.

Key words:

collaborative recommender system; Statistical Process Control (SPC); deviation from average of rating number; shilling attack; attack detection

0 引言

推荐系统有效地解决了互联网发展带来的信息过载和信息迷航问题,特别是在电子商务领域,大部分的大型电子商务网站都在一定程度上使用了电子商务推荐系统。目前,主要的推荐系统有协同过滤推荐系统和基于内容的推荐系统两种[1]。由于基于内容的推荐系统无法解析信息的质量,难以区分资源内容的品质和风格,并且不能发现和更新与用户兴趣相似的资源等局限性和缺陷[2],对其的研究和应用都较少。基于协同过滤 (Collaborative Filtering, CF) 技术的推荐系统成为目前研究和应用最为广泛的个性化推荐技术。由于协同推荐系统对用户偏好信息的依赖,恶意攻击者可以通过向系统中注入虚假数据使系统频繁推荐其产品以谋求商业利益,使得推荐结果失去真实性,导致正常用户对推荐系统丧失信任和依赖,因此,保证推荐系统的安全性是非常重要的。

1 相关研究

协同推荐系统根据用户对项目的评分生成用户项目评分矩阵,每个用户的评分行为称为用户概貌,协同推荐系统通过分析所有历史数据收集代表用户不同喜好的用户概貌,并根据与当前用户概貌最相近的邻居用户的评分行为产生推荐,这种推荐方式需要用户的直接参与,而且推荐结果依赖于用户偏好信息,这就给攻击者提供了可乘之机。攻击用户通过注入虚假用户评价信息,成为大部分用户的最近邻,从而试图改变推荐系统的推荐结果使其有利于自己的利益,这类攻击通常称之为用户概貌注入攻击(profile injection attack)或托攻击(shilling attack)[3]。目前研究较多的攻击模型有随机攻击(random attack)、平均攻击(average attack)、倾向攻击(bandwagon attack)等。

事实上,用户概貌注入攻击的产生也促使了推荐攻击检测模型的研究与发展。文献[4]提出了分析攻击用户评价行为的若干指标,用以检测某用户是攻击用户的潜在可能性;文献[5]提出在简化的攻击场景下,用一个扩散相似性算法来检测相似的攻击组;文献[6]从用户评价时间间隔入手,提出一种基于时间SFM

因子的推荐攻击检测方法。另外还有一些针对特定攻击类型专有特性的攻击检测方法,如平均攻击检测模型、分类攻击检测模型等。但这些方法在大数据集、项目高填充量、适用范围、实际操作上都存在一定的局限性和不足。

协同推荐系统本身就是一个产生推荐的服务过程,攻击检测的目的就是通过隔离异常用户来保证推荐服务的质量。因此,本文从质量管理的角度出发,引入统计过程控制(Statistical Process Control, SPC)理论,从评价服务质量的角度入手,将用户概貌项目评价数偏离度作为服务质量好坏的评价指标,运用SPC理论中的控制图检测攻击用户,将符合判异准则的用户概貌视为攻击用户,由此提出一种协同推荐攻击检测方法,达到完善推荐系统模型的目的。通过针对最不易检测的随机攻击、平均攻击、倾向攻击3种攻击模型做大量实验来验证本文提出的攻击检测方法是可行且有效的。

2 基于SPC的协同推荐攻击检测方法

2.1 用户概貌项目评价数偏离度

统计过程控制是一种借助于数理统计方法的生产过程质量控制的重要工具,SPC主要是指对生产、服务过程进行实时的质量监控,消除控制过程中产生的异常,恢复过程的稳定,从而使整个生产、服务过程处于可控状态。将SPC理论运用于协同推荐系统将攻击用户看作是服务过程异常,必须有一个能够区分正常用户与异常用户的质量特性值。

本文将用户概貌项目评价数偏离度(Deviation from Average of Rating Numbers)作为推荐服务过程的质量特性值。因为攻击用户必须针对目标项目注入大量伪造数据来达到成功攻击的目的,这就导致攻击用户概貌与真实用户概貌在数理统计特性上是有区别的,用户概貌项目评价数偏离度就是一个描述用户概貌差异的通用属性,本文使用用户概貌描述文件长度变化(LengthVar)表示。LengthVar用于度量用户概貌项目评价数对整个数据库中用户平均评价数的偏离程度。真实用户概貌中的项目评价量不可能达到攻击用户概貌的项目评价量,使得LengthVar成为检测攻击用户概貌的最重要的指标[7]。LengthVar的计算方法:

LengthVaru=|nu-nu|∑u∈U(nu-nu)2

其中:U是所有用户集合,nu是用户u项目评价数,nu是整个推荐系统中用户项目评价数平均值。

2.2 协同推荐攻击检测中控制图的构建

SPC一般由两个阶段组成。第一阶段分析所监控质量特性值的历史数据生成控制图,控制图要求所度量的质量特性值是可计量且基于随机分布的,由于每个用户之间评价行为是相互独立的,本文用LengthVar作为服务质量特性值,满足控制图的这一要求。根据常规控制图(休哈特控制图)[8]的特点,在监控协同推荐系统时选用均值极差控制图,图上有中心线(Center Line, CL)、上控制界限(Upper Control Limit, UCL)和下控制界限(Lower Control Limit, LCL),及质量特性值点列,如图1所示,将图中的质量特性值点与图中的上下控制限比较,就可以清晰地看出服务质量的变化。计算出UCL、CL、LCL就可以构建出控制图。