Spamstatistik auf Tedesca.Net

von bez für Welt
26.12.2007 11:08 UTC neu
30.01.2010 12:46 UTC geändert
im Weblog TedescaCom

Anfang Oktober mußte ich meinen Internetserver nach einem Totalzusammenbruch aufgrund eines Hardwarefehlers neu aufsetzen. Der Server war dadurch 18 Stunden außer Betrieb, die Daten konnten aber alle aus der Sicherung wieder hergestellt werden. Bei der Neuinstallation habe ich auch das Email-System modernisiert, insbesondere

  • komplett auf virtuelle Mailboxen umgestellt
  • Amavis mit ClamAV und Spamassassin als Filtermaschine eingesetzt
  • Postfix-GLD als Greylister verwendet
  • auf eigene Scripts völlig verzichtet

Da jetzt nochmals eine Änderung am Mailsystem erfolgt, nämlich die Einführung von policyd-weight vor Postfix-GLD, folgt hier nochmals eine Statistik über 12 Wochen.

Statistik

Die erstaunlichste Veränderung gegenüber der letzten Statistik ist die Zahl der eingegangenen Emails. Während ich vermutet hatte, daß in 2008 die Zahl der eingehenden Emails die Marke von 1 Million überschreiten würde, mußte ich jetzt feststellen, daß allein in den vergangenen 12 Wochen 630.000 Emails eingingen; das sind 320 pro Stunde, alle 11 Sekunden eine. Damit vervierfacht sich das Spam-Volumen derzeit jährlich mindestens.

Durch die veränderte Filterkette ergibt sich eine völlig neue Verteilung der Ausschlußgründe gegenüber der letzten Analyse, aber der Effekt ist der gleiche:

  • 1,3% Helo command rejected: Invalid name (501 5.5.2)
  • 25,0% Helo command rejected: need fully-qualified hostname (504 5.5.2)
  • 0,5% Helo command rejected: Don't use my own IP address (550 5.7.1)
  • 4,0% Helo command rejected: Host not found (450 4.7.1)
  • 2,2% Sender address rejected: Domain not found (450 4.1.8)
  • 63,2% Recipient address rejected: You have been greylisted, please try later (451 4.7.1) - not retried
  • 2,1% Recipient address rejected: User unknown in virtual mailbox table (550 5.1.1)
  • 0,1% Amavis/ClamAV Virustest
  • 0,4% Amavis/Spamassassin Spamtest

Insgesamt 1,2% der Nachrichten haben alle Tests erfolgreich durchlaufen.

Schlußfolgerungen

Etwa ein Viertel der Nachrichten wurde schon nach der ersten Kontaktaufnahme mit dem HELO-Kommando abgewiesen. Dabei ist die Prozentzahl für "Host not found" (Fehlercode 450) deshalb so niedrig, weil ich diesen Test nach wenigen Wochen wieder deaktiviert habe. Es gibt zu viele "gute" Mailserver, die unter einem Namen senden, der nicht ordentlich im DNS registriert ist.

Zwei Drittel der Nachrichten werden durch das Greylisting abgehalten. Die hier gezeigte Zahl ist schon abzüglich der erneuten Sendeversuche, die das Greylisting dann erfolgreich passiert haben. Hier setzen Optimierungsmöglichkeiten an:
1. Das Greylisting erfolgt, bevor überhaupt geprüft wurde, ob die Zieladresse existiert. Das ist bei einem Postfix-Server mit virtuellen Mailboxen systembedingt und läßt sich vermutlich nicht ändern.
2. Es werden unnötig viele Emails auf die Greylist gesetzt, die bei genauerer Analyse der HELO- und MAIL FROM-Zeilen ausgeschlossen werden könnten. Dafür erprobe ich jetzt policyd-weight.

Nach einem Tag Testlauf mit policyd-weight zeichnet sich folgende Verteilung (vor Übergabe an Amavis) ab:

  • 1,5% Helo command rejected: Invalid name (501 5.5.2)
  • 24,3% Helo command rejected: need fully-qualified hostname (504 5.5.2)
  • 1,1% Helo command rejected: Don't use my own IP address (550 5.7.1)
  • 0,1% Sender address rejected: need fully-qualified address (504 5.5.2)
  • 0,3% Sender address rejected: Domain not found (450 4.1.8)
  • 0,9% Relay access denied (554 5.7.1)
  • 28,6% Recipient address rejected: Mail appeared to be SPAM or forged (550 5.7.1)
  • 34,7% Recipient address rejected: Your MTA is listed in too many DNSBLs (550 5.7.1)
  • 3,0% Recipient address rejected: temporarily blocked because of previous errors (550 5.7.1)
  • 5,3% Recipient address rejected: You have been greylisted, please try later (451 4.7.1)
  • 0,4% Recipient address rejected: User unknown in virtual mailbox table (550 5.1.1)

Masse statt Innovation

Ich lese oft, daß die Spamversender, die nach meinen Erfahrungen für mehr als 90% des Volumens Bot-Netze verwenden, ihre Techniken immer weiter ausfeilen, um alle möglichen Filtermechanismen zu umgehen. Viel Kreativität kann ich aber nicht erkennen. Solange Greylisting so wirkungsvoll ist, hat die Gemeinde der Spamversender ihre Möglichkeiten noch lange nicht ausgeschöpft. Es ist wie oft in der Netz- und sonstigen Wirtschaft: Es wird versucht, Mangel an Innovation durch Steigerung des Volumens auszugleichen.

Dabei scheint es für die Absender überhaupt keine Rolle zu spielen, ob die Empfängeradressen existieren. Ich verstehe nicht, nach welchen Kriterien sie bezahlt werden. Innerhalb einer durchschnittlichen Woche mit 55.000 eingehenden Emails wurden 2200 verschiedene Phantasieadressen verwendet. Die Top 10 sind alte Bekannte: simonwilkinson@barnim.net orsi_vale@barnim.net sdougal@barnim.net rajagopalan_v@barnim.net oerbeck@barnim.net raines@barnim.net popeyes@barnim.net smmaclean@barnim.net ntziorkas@barnim.net rrood@barnim.net und so weiter und so fort. All diese Namen haben natürlich nie existiert. Andere, reale Empfängeradressen, die noch dazu im Internet leicht abzufischen wären, werden weitgehend ignoriert.

Stattdessen wird eine bekannte Domain wie "barnim.net" mit zahllosen potentiellen Postfachnamen nach einer Standardliste kombiniert. Anscheinend wird diese Namensliste gelegentlich auch noch manuell abgeschrieben, denn anders währen gewisse Evolutionen in der Schreibung kaum erklärlich. der oben gesehene "oerbeck" war vor einigen Jahren mal ein "overbeck".