Monday, 28 July 2008

最近のspam filterの傾向 Top 16

15749  %25.4  To: が <> で囲われているがコメントはない
11552  %18.6  本文が6行以下でURLのみ
7380  %11.9  同じドメイン宛だがaccount名が異なる(ようにfakeしてある)
4113  %6.6  Message-id が宛先ドメインに合わせてfake
2812  %4.5  Content-Type: multipart/alternative; で始まる
2212  %3.6  Mailer が The Bat!
2178  %3.5  To: のGCOSがでたらめ
1757  %2.8  Recevied: のhostがfake (宛先ドメインかmail)
1741  %2.8  undisclosed from/to で、かつ知らない人からのメール
1634  %2.6  news@ie... 宛
1611  %2.6  Content-Type: text/html; で始まる
968   %1.6  To:がfake (古いアカウント宛)
903   %1.5  GCOSが "hogehoge" で生成されている
863   %1.4  = ?koi8
673   %1.1  Subject に xxx
590   %1.0  <!DOCTYPE HTML PUBLIC で始まる (なんだこれ?)
552   %0.9  Mailer が good mailer

以上でfilterされたものの92.4%。Span率92%で取り逃しているのも結構ありますが、こんなものでしょう。取り逃したものを、さらにbayes filterにかけると良いと思うが、そこまではやってません。

なんでfakeが行なわれているのかが謎。The Bat!、good mailer は正直でよろしい。koi8 は相変わらず多い。

最初のルールは、年数人引っかかっている正しいメールもあるんだけど、あまりに当りレートが高いので残してあります。たぶんアドレスリスト自体がそうなんているんじゃなかろうか。

To: <xxxx@jj.u-ryukyu.ac.jp> とか「手で書く」って、どこかおかしいから言ってあげた方が良いし。

この状態だと、まぁ、ほとんど使い物にならないです。特に最初のメールはだいたい読み落しちゃう。留学生からのとか。どうしようかなぁ。

No comments: