WakiAAS反垃圾回应系统运行5个月技术统计

WakiAAS,全称Waki Advanced Anti-SPAM System,是我写的一个基于PHP的反垃圾回应系统。可以提供基于各种垃圾回应特征的过滤功能。这个系统自开发到测试断断续续持续了半年多,自7月份开始正式上线负责我的Blog的反垃圾回应功能以来已经经过了5个月零4天,这期间共捕捉垃圾回应176条,漏捕5条,错捕0条。今天简要统计了一下WakiAAS这小半年的工作情况。

七月:51条(漏判5条)
八月:6条
九月:20条
十月:1条
十一月:81条
十二月:17条(截至12月4日)

除了八月份因为运动会关闭回应系统和十月份因为系统bug导致回应无法提交之外,垃圾回应的数量是逐月增长的。十二月估计有超过100条的可能性吧。
被拦截的176条回应99%为简单的英文广告,含有一至数条网址。
其余还有部分中文广告,中文广告采用人工发送。

发送目的分析
1.英文广告均含有网址,针对搜索引擎的可能性更高。
2.中文广告不含网址,但含有电话号码,针对访客的可能性更高。

发送方式分析
1.绝大部分发送都是通过机器人完成的。这点通过机器人陷阱和秒表计数器可以看出来。
2.有极少数英文广告通过人工的方式发送,这种SPAM的特点是机器人陷阱没有反应、秒表计数器时间较长。

反过滤特征
从日志观察,绝大部分垃圾回应在发送时有意识地采取了反过滤措施。反过滤手段主要有以下几种:
1.随机的虚假IP地址。
很多垃圾回应拥有完全相同的特征,但IP地址却显然是通过随机生成的。
2.在文本中加入随机字符串。
为了躲避相似性比较过滤器,稀释垃圾回应之间的相似性,几乎全部垃圾回应都在文本中加入了随机字符串。
3.模拟正常回应。
很多垃圾回应在回应中加入“comment”等有实际意义的单词、表情符号来干扰过滤系统,企图让过滤系统误认为这是一条正常的回应。
4.回避真实网址。
鉴于不少常发送SPAM的厂商的域名已经被列入反垃圾黑名单,目前的SPAM广告通常使用Blog、SNS网站、短网址服务、文件共享服务来诱导访客转到自己的真实地址。广告过滤者不可能完全屏蔽常见的BSP、SNS、网址缩短服务、文件共享服务的域名,这样会对正常用户造成不便。因此利用以上黑名单制度本身的缺陷,避免自己的域名因为黑名单被阻挡。

过滤手段与共同特征
由于目前尚未接到含有中文的垃圾回应,这里暂时只分析英文垃圾回应的过滤。
1.不含有汉字的回应嫌疑更大。
2.垃圾回应绝大部分采用机器人或人工大量发送,从页面载入到表单提交之间的时间差很小。发送越快的回应嫌疑越大。
3.垃圾回应中含有大量网址。
4.垃圾回应中含有大量相似的垃圾词,如“cialis”、“buy”、“online”、“viagra”、“levitra”等等。

话题:Waki-Blog 反SPAM

WakiAAS反垃圾回应系统运行5个月技术统计有 0 条回应

发表回应

 
如果您是注册用户,请先登录。
昵称 (*)
E-Mail (*)
(不会公开)
网站
留言 (*)
悄悄话
有(*)标记的是必填项目。