垃圾邮件(未经许可的商业邮件或不受欢迎的非法邮件)成为1990年以来一直困扰着互联网的问题。那时,互联网越来越商业化,越来越接近消费者。一开始只是感觉到少数人制造一些电子广告,而现在垃圾邮件占用了目前大部分的邮件空间。垃圾邮件造成恶性商业形象,损害了邮件使用者的利益,占用网络资源,而且它对公司的网络系统和网络可信度,效率和安全性造成严重的威胁。
第二代反垃圾邮件技术
即时黑名单和电子签名是第二代反垃圾邮件技术,因为他们不是为了反垃圾邮件而把现有的MTA技术简单的重复或者延伸。第二代反垃圾邮件技术的存在完全为了制止垃圾邮件和对先前的技术进行改良。
实时黑名单
尽管在基于网址和域名上它是一个DNS测试, RBLs是真实的反垃圾邮件技术,在RBLs之后的概念是简单的维护一个发送垃圾邮件的网址,以阻止垃圾邮件的继续发送。
这种技术会有一定的效果,但容易被绕过。比如,改变IP地址,或者利用第三方的服务器来发送垃圾邮件。同样地,域名很容易被获得,并被垃圾邮件发送者利用,因而不能完全依赖它来判别垃圾邮件。
也被称为DNSRBLs,梭子鱼检查所有收到邮件的IP地址,与在RBL中的IP地址核对来阻断垃圾邮件。
电子签名
这是对于垃圾邮件防御有重大意义的一项技术。电子签名技术就是,如果垃圾邮件以大量的相同信息发送,可以用电子签名技术产生一个唯一的电子签名来收集和辨別垃圾邮件。如果能够获得充足的垃圾邮件样本,对于降低垃圾邮件的比率有重要意义。但是这种技术需要及时操作才能达成效果。
例如梭子鱼先设置蜜罐(诱骗邮件地址),是用于收集大量的垃圾邮件。采集完成后,指纹识别技术就处理垃圾邮件,生成一个已知垃圾邮件数据库。这就是梭子鱼的指纹识别技术。
第三代反垃圾邮件技术
用鉴别垃圾邮件(签名)和即时黑名单(RBLs)的方法来抵御垃圾邮件注定失败。垃圾邮件发送者能够轻易的绕过即时黑名单,最好的电子签名技术也无法达到百分之百的正确率。大约在2002年,在互联网和软件行业中有一项全新的技术。
贝叶斯过滤
贝叶斯过滤,利用统计学的方法检测垃圾邮件,基于垃圾邮件中单个词语的出现概率来判定,这是反垃圾邮件技术上的第一个突破,贝叶斯过滤技术的发展从根本上把反垃圾邮件的重点从网络和协议改变为邮件内容。
简单的贝叶斯过滤,对大多数的垃圾邮件是有效的,容易被绕过。这种技术是用已经收到的垃圾邮件来培训系统,从而产生一个基于规则评分的系统,来为每封邮件评分。
垃圾邮件发送者会不断的改变邮件的内容,通常是增加词汇或变种词汇(例如,用印刷体字母取代数字,O取代0)。不断变化中性词语和其他邮件内容以及创造变种词汇,使得位于反垃圾邮件系统最后一个步骤的贝叶斯过滤常被绕过。
梭子鱼的贝叶斯规则库在出厂之前都经过近万封邮件的培训,到达用户之后,用户继续对其进行培训,被“有效培训”以后,过滤垃圾邮件的准确率达到99% 。
人工智能和机器语言学习
经过贝叶斯过滤技术改进发展而来,目前将被广泛的应用。
2003年左右,由于新的需求,专门的反垃圾邮件技术开始分离出来,并和一些高科技结合,不断的发展起来。
基本上,这些技术执行文件分级使用“非贝叶斯过滤技术”。根据垃圾邮件的变化进行自我更新,目前这一技术正将被广泛使用。
梭子鱼的基于规则的评分系统,是一个人工智能(AI)系统 ,对发现的每一个关键词赋予分数 。分数越高,该邮件是垃圾邮件的可能性就越高 ;得分超过一定值时,该邮件将被分类为垃圾邮件。这种方式可以清除90%的垃圾邮件。为使评分有效,规则必须经常更新 。