首页 | 邮件资讯 | 技术教程 | 解决方案 | 产品评测 | 邮件人才 | 邮件博客 | 邮件系统论坛 | 软件下载 | 邮件周刊 | 热点专题 | 工具
网络技术 | 操作系统 | 邮件系统 | 客户端 | 电子邮箱 | 反垃圾邮件 | 邮件安全 | 邮件营销 | 移动电邮 | 邮件软件下载 | 电子书下载

反垃圾邮件

技术综述 | 客户端 | 服务器端 |
首页 > 反垃圾邮件 > 服务器端反垃圾邮件技术 > CCERT中文垃圾邮件过滤规则集 > 正文

CCERT中文垃圾邮件过滤规则集

出处:CCERT 作者:CCERT 时间:2005-1-5 19:17:00

CCERT中文垃圾邮件过滤解决方案 CCERT-Anti-Spam-Solutions.pdf

1. 什么是 Chinese_rules.cf

2. Chinese_rules.cf的理论背景

3. Chinese_rules.cf的生成和使用框架

4. Chinese_rules.cf的匹配速度问题

5. Chinese_rules.cf 的准确率

6. Chinese_rules.cf 的用户统计

7. Chinese_rules.cf 的使用方法


1. 什么是 Chinese_rules.cf

Chinese_rules.cf是用于业界广泛使用的免费垃圾邮件过滤系统SpamAssassin的中文垃圾邮件过滤规则集。由于以前没有中文的过滤规则集,SpamAssassin对中文邮件过滤的准确性不高。CCERT反垃圾邮件研究小组利用CCERT所掌握的最新和丰富的样本数据,推出了第一个基于SpamAssassin的中文垃圾邮件过滤规则集Chinese_rules.cf。该规则集每周更新一次,时效性非常好。
Chinese_rules.cf是在SpamAssassin 官方网站上发布的第一个中文垃圾邮件过滤规则集,也是用Google,Yahoo,百度,MSN搜索“中文垃圾邮件过滤”时所返回的第一条结果。

2. Chinese_rules.cf的理论背景

Chinese_rules.cf是邮件内容过滤规则集。目前邮件内容过滤技术可以分为两种方法:基于规则和基于统计的方法。基于规则的方法就是在邮件内容中寻找特定的模式,例如主题包含“免费”。基于统计的就是使用统计方法解决邮件的二元分类问题,其中分类机跟据垃圾邮件和正常邮件的样本训练出来。在垃圾邮件过滤技术中最常用的统计方法就是贝叶斯准则。
基于规则方法的优点是规则可以共享,因此它的推广性很强。一个人写出的规则可以提供给多个人,多个服务器使用。然而它的缺点就是更新速度慢。因为规则一般都是人工编写生成,所以新规则的产生速度跟不上新垃圾邮件出现的速度,换句话说,它的时效性较差。
基于统计的方法的优点就是分类机由程序自动训练出来,只要及时更新样本训练集就可以使分类机更新的速度跟得上垃圾邮件出现的速度,即它的时效性很强。然而该方法的缺点就是分类机不能共享,某个用户用自己的邮件样本集训练出来的分类机对其他用户可能效果不佳,因此该方法的推广性较差。
Chinese_rules.cf使用基于统计规则的新方法,即它所使用的规则是由统计方法自动生成的。该方法吸取了基于规则和基于统计的优点:因为它是一种基于规则的方法,因此推广性很强,又因为它的规则是由统计方法自动生成的,因此它的时效性也很强。Chinese_rules.cf和传统方法比较如表1所示。

表1、Chinese_rules.cf和传统方法比较

 推广性时效性
基于规则
基于统计
Chinese_rules.cf

CCERT反垃圾邮件组自从1998年成立以来,每天都处理大量的垃圾邮件投诉,掌握最新和最丰富的样本数据。Chinese_rules.cf就在此最新和最丰富的样本数据库的基础上,通过统计方法自动产生的。

3. Chinese_rules.cf的生成和使用框架

Chinese_rules.cf的生成和使用框架如图1所示。首先,利用CCERT垃圾邮件处理服务和用户反馈信息来维护一个最新,最全的垃圾/正常邮件样本库,再利用统计方法,根据垃圾/正常邮件样本库自动生成规则集Chinese_rules.cf。因为样本库是最新的,Chinse_rules.cf的时效性就非常强。CCERT把该规则集在CCERT主页上发布,作为CCERT提供的一种对外服务。各地用户(服务器)通过CCERT主页下载Chinese_rules.cf,这样使Chinese_rules.cf的推广性很强。

图1、Chinese_rules.cf 的生成和使用框架

4. Chinese_rules.cf的匹配速度问题

Chinese_rules.cf规则集一般被控制在500个规则左右。这一数字也许使人对Chinese_rules.cf的匹配速度有点置疑。仔细分析和测试结果表明Chinese_rules.cf的匹配性能还是比较高的,原因是:一、Chinese_rules.cf的规则都很简单,都是一个比较短的字符串,中间没有带任何一个通配符,这样匹配速度比复杂的规则要快的多;二、Chinese_rules.cf中有90%是邮件主题的规则,只有10%是信体的规则。由于邮件主题往往比较短,因此Chinese_rules.cf的匹配速度会比较快。
以上是对性能的理论分析。我们用一台普通PC(P4 2.8G CPU),用Chinese_rules.cf (2004 Dec 21的版本) 对178482封邮件匹配,则结果是平均匹配一封大小为5.0K的邮件只需要 0.04秒。这个结果实非常好的,因为如果一个邮件服务器的邮件平均大小为5.0K(不算附件),那么只要一台普通PC每天就可以处理216万封邮件。一般的学生邮件服务器每天收发30万封左右。换句话说,只要在现有的邮件服务器加上如同上述一台PC的处理性能就足以满足处理垃圾邮件的硬件需求。

5. Chinese_rules.cf 的准确率

Chinese_rules.cf的每一个版本都带有对准确率的测试结果。当前版本的测试结果如下:

Chinese_rules.cf,2005 Jan 2


阈值垃圾邮件查全率
(共16729)
正常邮件误判率
(共93655)

0.595.0%5.1%
1.092.9%1.6%
1.590.4%0.4%
2.087.9%0.1%
2.584.5%0.0%
3.081.1%0.0%
3.576.6%0.0%
4.072.4%0.0%
4.567.0%0.0%

扫描一封邮件大小为 1932.37 字节需要 0.03 秒(P4-2.8G CPU)

表2中的结果就是在测试规程中,除了Chinese_rules.cf 以外不使用其他任何规则。在实际情况,Chinese_rules.cf一般都会跟SpamAssassin的缺省规则同时使用。因为SpamAssassin的缺省规则中有一部分是描述邮件行为的规则,对检测中文垃圾邮件起作用,因此实际的性能会比以上实验结果要好。
注意、 对于每天处理40万封邮件以上的邮件服务器来说,能够容忍的性能是正常邮件误判率小于5%的同时,垃圾邮件的检测率大于90%。

6. Chinese_rules.cf 的用户统计

CCERT于2004年9月7日在网上发布Chinese_rules.cf。从9月至12月的用户统计情况如下。图2就是用户查看规则集的统计(按IP)。可以看出规则集的知名度在直续上升。

图2、用户查看规则集统计(按IP)

图3就是在Unix/Linux服务器上使用的用户统计(安不同IP),其中深灰色表示老客户,即上个月已经出现的IP。

图3、用户使用规则集统计(按不同IP)

7. Chinese_rules.cf 的使用方法

下载Chinese_rules.cf,把该规则放在SpamAssassin存放规则的目录(一般在/usr/share/spamassassin)。通过wget下载的命令如下:

# wget -N -P /usr/share/spamassassin www.ccert.edu.cn/spam/sa/Chinese_rules.cf

每次更新Chinese_rules.cf都需要重启加载SpamAssassin规则的程序。如果你用spamd则通常重启的方法是:

# ps –ax | grep spamd
察看spamd进程的PID,然后
# kill -HUP PID
如果你用mimedefang则要重起mimedefang。假设mimedefang的重起脚本为 /etc/init.d/init-script, 则命令如下:

# /etc/init.d/init-script restart

CCERT每周更新一次规则集和相应分数,更新使用CCERT反垃圾邮件服务在6个月内处理过的垃圾邮件为样本。经常更新Chinese_rules.cf会使过滤效果更好。只要把上述下载命令以及重起mimedefang的命令放在crontab中,并定期运行就可以完成自动更新功能。假如你想一个月更新一次,那么在root的crontab中应该添加一行:

0 0 1 * * wget -N -P /usr/share/spamassassin www.ccert.edu.cn/spam/sa/Chinese_rules.cf; /etc/init.d/init-script restart

更多信息请参见CCERT中文垃圾邮件解决方案 CCERT-Anti-Spam-Solutions.pdf

,
相关文章 热门文章
  • 企业邮箱与垃圾邮件的战争
  • 漫画网管员系列:病毒及垃圾邮件伤不起
  • 今年6月垃圾邮件总数400亿件 同比大降82.22%
  • Exchange Server 2003 用白名单脚本拦截垃圾邮件
  • 利用Exchange Server 2007的Edge服务器角色抵制垃圾邮件
  • 如何选择反垃圾邮件网关
  • 企业为什么需要反垃圾邮件网关
  • 企业应如何防范邮件服务器被盗用来发送垃圾邮件
  • 2011年垃圾邮件及钓鱼攻击趋势预测
  • 美国男子通过起诉垃圾邮件制造商获利百万
  • 电信行业反垃圾邮件需求分析及实践案例
  • 中国邮箱用户满意度普遍较低,防病毒反垃圾邮件体验最差
  • Imail反垃圾邮件技术
  • Qmail反垃圾邮件技术
  • 防范垃圾邮件技术
  • 谢绝第三方邮件转发
  • Postfix反垃圾邮件技术
  • Sendmail反垃圾邮件技术
  • 追踪垃圾邮件来源
  • 邮件过滤技术
  • OPEN RELAY的解决方案
  • 美讯智SMG邮件安全网关使用FAQ
  • 三分钟打造反垃圾邮件服务器
  • 黑名单服务器
  • 自由广告区
     
    最新软件下载
  • SharePoint Server 2010 部署文档
  • Exchange 2010 RTM升级至SP1 教程
  • Exchange 2010 OWA下RBAC实现的组功能...
  • Lync Server 2010 Standard Edition 标..
  • Lync Server 2010 Enterprise Edition...
  • Forefront Endpoint Protection 2010 ...
  • Lync Server 2010 Edge 服务器部署文档
  • 《Exchange 2003专家指南》
  • Mastering Hyper-V Deployment
  • Windows Server 2008 R2 Hyper-V
  • Microsoft Lync Server 2010 Unleashed
  • Windows Server 2008 R2 Unleashed
  • 今日邮件技术文章
  • 腾讯,在创新中演绎互联网“进化论”
  • 华科人 张小龙 (中国第二代程序员 QQ...
  • 微软推出新功能 提高Hotmail密码安全性
  • 快压技巧分享:秒传邮件超大附件
  • 不容忽视的邮件营销数据分析过程中的算..
  • 国内手机邮箱的现状与未来发展——访尚..
  • 易观数据:2011Q2中国手机邮箱市场收入..
  • 穿越时空的爱恋 QQ邮箱音视频及贺卡邮件
  • Hotmail新功能:“我的朋友可能被黑了”
  • 入侵邻居网络发骚扰邮件 美国男子被重..
  • 网易邮箱莫子睿:《非你莫属》招聘多过..
  • 中国电信推广189邮箱绿色账单
  • 最新专题
  • 鸟哥的Linux私房菜之Mail服务器
  • Exchange Server 2010技术专题
  • Windows 7 技术专题
  • Sendmail 邮件系统配置
  • 组建Exchange 2003邮件系统
  • Windows Server 2008 专题
  • ORF 反垃圾邮件系统
  • Exchange Server 2007 专题
  • ISA Server 2006 教程专题
  • Windows Vista 技术专题
  • “黑莓”(BlackBerry)专题
  • Apache James 专题
  • 分类导航
    邮件新闻资讯:
    IT业界 | 邮件服务器 | 邮件趣闻 | 移动电邮
    电子邮箱 | 反垃圾邮件|邮件客户端|网络安全
    行业数据 | 邮件人物 | 网站公告 | 行业法规
    网络技术:
    邮件原理 | 网络协议 | 网络管理 | 传输介质
    线路接入 | 路由接口 | 邮件存储 | 华为3Com
    CISCO技术 | 网络与服务器硬件
    操作系统:
    Windows 9X | Linux&Uinx | Windows NT
    Windows Vista | FreeBSD | 其它操作系统
    邮件服务器:
    程序与开发 | Exchange | Qmail | Postfix
    Sendmail | MDaemon | Domino | Foxmail
    KerioMail | JavaMail | Winwebmail |James
    Merak&VisNetic | CMailServer | WinMail
    金笛邮件系统 | 其它 |
    反垃圾邮件:
    综述| 客户端反垃圾邮件|服务器端反垃圾邮件
    邮件客户端软件:
    Outlook | Foxmail | DreamMail| KooMail
    The bat | 雷鸟 | Eudora |Becky! |Pegasus
    IncrediMail |其它
    电子邮箱: 个人邮箱 | 企业邮箱 |Gmail
    移动电子邮件:服务器 | 客户端 | 技术前沿
    邮件网络安全:
    软件漏洞 | 安全知识 | 病毒公告 |防火墙
    攻防技术 | 病毒查杀| ISA | 数字签名
    邮件营销:
    Email营销 | 网络营销 | 营销技巧 |营销案例
    邮件人才:招聘 | 职场 | 培训 | 指南 | 职场
    解决方案:
    邮件系统|反垃圾邮件 |安全 |移动电邮 |招标
    产品评测:
    邮件系统 |反垃圾邮件 |邮箱 |安全 |客户端
    广告联系 | 合作联系 | 关于我们 | 联系我们 | 繁體中文
    版权所有:邮件技术资讯网©2003-2010 www.5dmail.net, All Rights Reserved
    www.5Dmail.net Web Team   粤ICP备05009143号