首页 > 范文大全 > 正文

反垃圾邮件网格清扫网络

开篇:润墨网以专业的文秘视角,为您筛选了一篇反垃圾邮件网格清扫网络范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

不请自来的垃圾邮件(Spam)的泛滥给互联网带来了严重问题。据统计,在2002年初,垃圾邮件占整个邮件发送量的16%,2003年初变成42%,2004年初变成60% 。

垃圾邮件的清除需要消耗大量人力,Radicati集团预测,到2007年,全球因为垃圾邮件造成的损失将多达1130亿美元。

在我国,垃圾邮件已经带来了一定的负面影响。据Spamhaus统计结果,中国位居美国之后,成为全球第二大垃圾邮件发送国。2003年,欧美许多国家公开封堵来自中国的邮件,原因是从中国发出的垃圾邮件大大超出了他们的预料。

也就是说,从中国流出的垃圾邮件已经损害了我国互联网产业的整体形象。愈演愈烈的“垃圾邮件”问题已经引起国家相关部门的高度重视。

行政手段无法完全解决

2004年1月30日,由公安部、教育部、信息产业部和国务院新闻办四家单位,联合发出了《关于开展垃圾电子邮件专项治理工作的通知》,打响了“反垃圾邮件”第一炮。2006年国际清扫日(反垃圾邮件的一项公益活动)在北京的成功召开,也意味着反垃圾邮件得到了越来越多的关注和支持。

2006年3月30日,信息产业部颁布的《互联网电子邮件服务管理办法》正式实行,加大了打击垃圾邮件的力度。

通过行政手段干预垃圾邮件的发送是一种策略,通过技术手段来对付垃圾邮件则是另外一种策略。常见方法有:良好的用户习惯(如:不公开自己的E-mail地址)、提高发垃圾邮件的成本(对邮件发送收费)、黑名单、身份确认、基于规则的过滤、基于贝叶斯推理的过滤等。但迄今为止还没有一种真正有效的方法,这也是绝大多数用户的电脑里虽然安装有防病毒软件,却没有安装反垃圾邮件软件的原因。

就垃圾邮件的自动过滤技术而言,不能单纯用人工智能的方法来过滤垃圾邮件,因为人工智能目前还不是成熟技术。那么,垃圾邮件还有什么特征呢?最大的特征是:只要是垃圾邮件,它都会将相同的内容发送给数十万、上百万乃至上千万的接收者。

为此,我们可以建立一个分布式统计和分布式学习平台,以大规模用户的协同计算来过滤垃圾邮件:首先,我们可以为每一封邮件计算出一个惟一的“指纹”,通过比对“指纹”可以统计同一封邮件的副本数,当副本数达到一定数量,我们就可以判定这封邮件是垃圾邮件;其次,由于互联网上多台计算机比一台计算机掌握的信息更多,因而可以采用分布式贝叶斯学习算法,在成百上千的客户端机器上实现协同学习过程,收集、分析并共享最新的信息。

网格应对垃圾邮件

要建这样一个系统,网格技术是最好的选择,其原因有三点:垃圾邮件是发给整个互联网的,我们需要建立一个全局性的基础设施来收集垃圾邮件的信息; 对每封邮件都需要进行指纹计算,因而需要有一个分布式的计算环境;系统的动态性很强,所有的服务器、客户端及电子邮件都在不断保持更新,我们需要一个能够适应变化的灵活平台。

图1显示了网格环境下分布式数字签名统计和分布贝叶斯过滤系统的体系结构。整个系统主要包括反垃圾邮件客户端、反垃圾邮件服务器、调度服务器,其中客户端的主要任务是进行邮件的数字签名计算、贝叶斯学习及进行签名和贝叶斯学习结果上报;服务器端的主要任务是对邮件数字签名及贝叶斯学习成果进行相互传播,并选择一台服务器进行统计工作并把统计结果反馈给客户端;调度服务器的主要任务是根据客户端请求动态的分配服务器。

伪造的邮箱主要用于吸引垃圾邮件,起到蜜罐(Honey Pot)的作用。它的工作原理是故意在网上一些邮箱地址,吸引垃圾邮件地址爬虫来抓取这些地址。凡是发到这些邮箱的邮件必定是垃圾邮件,因而伪造的邮箱能够帮助系统更为准确地检出垃圾邮件。

该网格的主要工作步骤如下:

・反垃圾邮件服务器向某个调度器自己的服务,调度器与调度器之间相互共享信息;

・反垃圾邮件客户端一旦连上网格,向调度器提出申请;

・由调度器根据负载均衡或其它策略选择一台服务器为其服务;

・客户端向服务器报告邮件的签名和贝叶斯学习成果;

・服务器反馈此签名邮件统计信息及其它客户端最近更新的贝叶斯学习成果。

由于服务器面对的只是一部分客户端,所以服务器之间要实时交换信息;为了避免中央控制系统的瓶颈存在,临时选择一台服务器作为统计中心及分发中心;

为了更准确地过滤垃圾邮件,我们方案中还有共享众多用户的经验的策略。通过对现有的邮件用户(如:Outlook 2003)进行拓展,添加了用户操作按钮。

用户只要点一下按钮就可以判定或解除一封邮件为垃圾邮件。一旦用户做出了判断,那么他的这种行为趋向将作为被贝叶斯算法学习到,因为贝叶斯算法有根据过去的行为预测未来的功能,同时,用户的经验还将分享给其他用户,从而提高整体的判断能力。

由于现有的网格架构必须要有一个中心的索引服务器,这样不仅容易有单点故障的缺陷,而且不易于系统扩展。

为此,我们提出了将P2P机制加入到我们系统中以完善系统的可扩展性及可靠性。P2P技术作为分布式系统的一个重要分支,以其良好的可拓展性,以及用户越多系统的效率越高的特点,得到了广泛的应用。

例如著名的eMule、BitCommet等文件共享下载软件和PPlive、QQ直播等对等流媒体广播等系统。加入了P2P技术可以使我们系统成为一个自治的虚拟社区,节点的加入、退出以及节点故障都可以在无人参与的情况下完成,并且系统节点不断变化的情况下仍然能够正常运转。

利用网格技术的分布式统计功能实现大范围内垃圾邮件的过滤,每个加入系统的用户既是服务的对象,也是完成分布式统计功能的一个信息节点,随着系统规模的不断扩大,系统过滤垃圾邮件的准确性也会随之提高。

用大规模统计方法来过滤垃圾邮件的做法比用人工智能的方法更成熟,它不容易出现误判假阳性的情况,实用性很强;分布式贝叶斯方法是传统贝叶斯方法与网格环境相结合的产物,它将单点学习过程分布化和协同化,缩短了学习的时间,共享了学习的经验。这两种手段的结合,是在现有主流反垃圾邮件方法的基础上的升华提高,具有实际应用价值。

通过长期研究,我们在该课题上已经有一定积累。2003年12月,反垃圾邮件网格项目,被IEEE Cluster 2003国际会议挑选出来,赴香港做了现场演示,受到与会专家的热烈好评。2004年4月,在Grid Computing World China 2004上也做了专题报告和现场演示。

目前,我们正在紧锣密鼓地研究与之相关的许多理论和实现问题,争取使之尽早正式问世,服务于社会。