至顶网›安全频道 ›解析垃圾邮件过滤机制降低邮件误判率

解析垃圾邮件过滤机制降低邮件误判率

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

垃圾邮件，不仅扰乱我们的生活，浪费我们的时间，更带来众多恶意软件威胁。根据Ferris研究中心统计预测，在2008年将有近40万亿的垃圾邮件被发送，从而进一步导致近140亿美元的利益受损。而在2007年，这一数字分别为18万亿垃圾邮件和30亿美元，增长之快，令人吃惊。

来源：论坛整理 2009年2月22日

关键字：过滤防护反垃圾邮件垃圾邮件

　　图1：垃圾邮件对企业的影响

　　图2：垃圾邮件对个人的影响

　　理论上，垃圾邮件过滤器可以拦截垃圾邮件，允许“良好”或者“真实”邮件进入邮件系统。但是过滤器也有出错的时候，垃圾邮件过滤器不可避免的一个副作用就是误报(false positive)和漏报(false negative)。

　　一般而言，当垃圾邮件过滤器检测出某个邮件为垃圾邮件时，要么阻止其进入邮件系统，要么对其进行隔离，放置在一个专门的文件夹里，以供用户手动识别并删除。对于后一种方法，它需要人工的参与，会消耗用户一定的精力。实际情况是，有一些用户从来都不会去检查这些隔离区。

　　另外，Ferris研究指出，用户删掉垃圾邮件所承担的成本大约在0.04美元每封。但是该研究所分析师Richi Jennings 也指出，查找丢失的有用邮件所承担的成本远远大于删除所花费的成本，大约每封为3.5美元。更糟糕的是，过滤器漏报、误报给用户带来的损失则会更大。下面，我们将先浅述有关垃圾邮件过滤器方面的技术。

　　为了尽量减少过滤器导致的误报，我们需要先了解它们的工作原理。

　　图3：垃圾邮件过滤体系结构中的邮箱过滤

　　●基于关键字和 Bayesian 过滤器

　　最早的过滤器，主要是检索邮件主题和正文中的关键字，更高级些的过滤器，则采用了Bayesian算法，可以针对邮件提高过滤准确率。

　　图4：贝叶斯垃圾邮件过滤

　　●Captcha技术

　　CAPTCHA 是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写，是一种区分用户是计算机和人的公共全自动程序。在一个CAPTCHA测试中，作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题，所以回答出问题的用户就可以被认为是人类。此种技术可以防止通过软件自动发送垃圾邮件的产生。

　　图5: CAPTCHA验证码

　　●建立垃圾邮件黑白名单

　　与刚才讲的技术不同，这个是根据邮件服务而不是根据信息进行评估筛选，尤其是根据发件人以往行为记录进行分类管理：

　　黑名单是由世界各地数据库搜集来的，过滤器会根据这些黑名单检查每个进入的邮件，如果符合，那么就会拒绝接收邮件。

　　白名单同样也是来源于各地IP汇总。邮件过滤器一般既拥有黑名单又拥有白名单，以提高过滤效率。

　　在某些情况下，过滤器厂商会使用“信誉服务”或者“声誉名单”来区别他们的名单。

　　图6：先进的黑、白名单机制

　　●Graylisting系统

　　收件人邮件系统暂时性拦截未名邮件，然后对该邮件发送者发送一封要求自动回复的邮件。一般而言，通过这种方式可以一定程度上阻止垃圾邮件的侵入，毕竟他们可没有耐心再发送一封回复邮件。

　　●Tarpitting

　　tarpitting是降低发送垃圾邮件的发件人大量发送电子邮件信息的方法。该方法的目的是维持合法用户在发送邮件时服务的高质量，但是由于这个方法的低反映率，使它不适用于发送垃圾邮件的人。

　　●循环模式检测(RPD)

　　着重分析垃圾邮件发送的样式，RPD技术主要用在垃圾邮件侦测中心内，主动侦测与收集垃圾因特网上的邮件爆发行为样本，实时动态更新垃圾邮件攻击信息，发布给企业端的垃圾邮件网关服务器。Commtouch对于不安全行为引起的网络爆发有着直接的最有效的效果。

　　图7：循环模式检测

　　八种消除过滤器误报的方法

　　一、使用垃圾邮件过滤器

　　误报，会让你不明确到底哪些是垃圾邮件哪些不是。如果没有过滤器的话，更会有误报、漏报的发生。当你收到很多类似垃圾邮件标题的邮件时，很可能会全部选中进行删除，而事实上，这其中很有可能有你需要的邮件。因此，要消除误报的发生，更应该使用过滤器。

　　二、在非保护区安装垃圾邮件过滤器

　　在计算机网络世界中，非保护区(Demilitarized Zone ，DMZ) 指的是通过防火墙而独立于其它系统的部分网络，为了实现在保护内部网络的安全同时，又可以保证需要放置在 Internet 上的服务器的安全，防火墙只允许部分类型的网络流量进入或离开。

　　在包含 DMZ 的网络中，所有互联网流量通过互联网或外部防火墙进行传送。这里的防火墙只允许 Web 流量和 Internet 邮件通过 DMZ 区域。内部防火墙允许电子邮件流量和数据库连接通过 DMZ 服务器。这样，系统管理员可以确保只有从安全 DMZ 服务器上调用的电子邮件流量和数据库能访问公共信息。

　　图8：DMZ：非保护区(DeMilitarized Zone in Networks)

　　三、放弃使用过时的垃圾邮件过滤技术

　　道高一尺，魔高一丈。传统的垃圾邮件过滤技术已经不能胜任现在的需要了，我们建议用户采用最新的过滤技术，以保证邮件安全。

　　四、适时更新白名单

　　白名单是动态的，每个用户在社会生活中总会有新的联系，相应的可信任名单也会有一定的变化。这就要求对白名单进行不定期地更新。

　　五、使用实时黑名单

　　如果你是通过使用黑名单来阻止垃圾邮件的话，那么你必须慎重对待。因为过时的黑名单，很可能会让你错过一些有用邮件。实时黑名单(realtime blackhole list，简称rbl)技术是一个可供查询的ip地址列表，通过dns的查询方式来查找一个ip地址的记录是否存在来判断其是否被列入了该实时黑名单中。

　　六、保证自身不发送垃圾邮件

　　如果你不幸发送了垃圾邮件，想必你的声誉肯定大受影响，而且很可能会被加入到黑名单之列。进而，可能会影响到你发送一些日常邮件。为此，下面三种方法可以帮助你保持良好声誉：

　　使用某个可信任安全厂商的Web检测或过滤软件，并制订所使用的环境政策。

　　及时安装安全补丁，并定期查杀病毒。

　　使用出站过滤机制，全面扼杀垃圾邮件。

　　七、使用用三元分类技术

　　过滤垃圾邮件，企业的更好选择也许是放弃传统的二元分类法(恶意或未知)，转而采用三元分类法:恶意、未知、已知善意。利用三元分类法，恶意信件(如垃圾邮件和网络钓鱼)仍可以被阻止或隔离，而进入收件箱的所有其他信件将根据所感知的合法性进一步分类。

　　采用三元分类法后，最佳信件将绕过垃圾邮件过滤器，只有没有得到声誉服务支持的信件或普通信件，接受自动的垃圾邮件过滤。通过过滤器的信件将出现在收件箱中，不加任何特殊的标记。信任图标被保留给已知的、善意的、享有良好声誉的电子邮件(它们都绕过过滤器)。