Weitere Tipps gegen Kommentarspam

http://blog.choas.net/2005/01/09/weitere_tipps_gegen_kommentarspam

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

09.01.2005 - AntiKommentarspam

pixelgraphix  (Semantik) gibt Tipps zum Kampf gegen Kommentarspam  (Semantik) . Dabei wird auf das Six Apart  (Semantik) Dokument Six Apart Guide to Comment Spam  (Semantik) verwiesen. In diesem wird der JavaScript  (Semantik) Mechanismus gegen Kommentarspam  (Semantik) (Kommentarspammer laufen hinter her) als Form Obfuscation  (Semantik) bezeichnet. Dies fällt unter die Bezeichnung security through obscurity  (Semantik) . Dazu gehört auch die Umbenennung der Kommentardatei oder das Hinzufügen und Verändern von ein paar Eingabefeldern. Ebenso könnte man das Anpingen an weblogs.com and blo.gs unterlassen, da vermutet wird, dass Spambots dadurch angelockt werden.

Ein Turing Test  (Semantik) ist eine weitere Möglichkeit, um den Spambots das Leben schwer zu machen. Es werden Aufgaben gestellt, die der Mensch zu meist einfach lösen kann, eine Maschine (z.B. Spambot) jedoch so gut wie nicht. Hierzu gehören einfache Fragen, wie zum Beispiel den Nachnamen des Autors zu nennen. Der CAPTCHA  (Semantik) Mechanismus, bei dem ein (sehender) Mensch Bilder erkennen muss, auf denen Zahlen und Buchstaben stehen, ist auch ein Turing Test  (Semantik) .

Die Idee hinter der Authentifizierung und Identifizierung ist es, dem Spammer die Anonymität zu nehmen. Im Six Apart Guide to Comment Spam  (Semantik) Dokument werden hierfür TypeKey  (Semantik) und Tiny Orwell  (Semantik) erwähnt, die ich aber nicht näher betrachtet habe.

Durch das Content Filtering  (Semantik) wird versucht den Spam anhand des Inhalts zu identifizieren. Sei es anhand der URL  (Semantik) , wie das Blacklist  (Semantik) Plugin oder anhand der DNS  (Semantik) beim DSBL  (Semantik) Plugin oder durch Bayesian, wie es bereits bei den Emails benutzt wird.

Als letzte Möglichkeit (im Dokument) wird auf das Throttling eingegangen. Bei diesem werden nur eine bestimmte Anzahl an Kommentaren pro Stunde und Tag erlaubt. Danach werden keine weiteren Kommentare zugelassen.

Welche Konsequenzen für SBlog23  (Semantik) ziehe ich nun aus diesem Dokument? Pingen kann ich zwar noch nicht, jedoch wird diese auch Spambots nicht abhalten. Eine Suche bei Google  (Semantik) nach "Blog" wird genügend Futter liefern. Einen Turing Test  (Semantik) , insbesondere CAPTCHA  (Semantik) lehne ich ab, da hier Menschen mit einer Sehschwäche benachteiligt werden. Bei der Authentifizierung und Identifizierung sehe ich den Aufwand für einen kleinen Kommentar als zu übertrieben an. Throttling hingegen wird dann zuschlagen, wenn mehrere Leute mal etwas kommentieren wollen, wobei dies aus der bisherigen Erfahrung dann sein wird, wenn zwei Leute am Tag kommentieren (mehr waren es bisher nicht).

Bleibt nur noch das Content Filtering  (Semantik) . Beim bisherigen Movabletype  (Semantik) Blog hat dies aber dazu geführt, dass ich alles gefiltert habe und letzten Endes die Kommentardatei nicht nur umbenannt, sondern gelöscht habe. Dadurch wurde das Leben langweilig, ich hatte nichts mehr zu tun und beschäftigte mich mit der Entwicklung von SBlog23  (Semantik) :)

Die Unterscheidung beim Blacklist  (Semantik) Plugin sehe ich als zu sehr "schwarz-weiß" an. Meine Idee liegt darin, eine Grauzone einzuführen. Gewisse Wörter und URLs landen automatisch in einer Schwarzenliste, während bestimmt URLs in einer Weißenliste stehen. Die URLs mit den schwarzen Wörtern werden gefiltert und aussortiert. Die mit den weißen Wörtern können ohne Probleme angezeigt werden. URLs die von keinem abgedeckt werden, befinden sich in einer Grauzone. Sie werden als Buttons angezeigt, deren Beschriftung nichts sagen ist, wie zum Beispiel "Link", und deren URL als Md5 verschlüsselte ID an ein Skript übergeben wird. Das serverseitige Skript wird durch das Drücken des Buttons aufgerufen, sucht die URL anhand von der ID und verweist auf die Seite. Durch diesen Mechanismus wird die URL für die Suchmaschine unbrauchbar und verliert somit ihren Wert. Zusätzlich kann das Skript überprüfen, ob es sich um eine Suchmaschine handelt, die den Link aufrufen möchte. Wobei ich mir nicht sicher bin, ob zum Beispiel Google  (Semantik) ein Formular aufruft. Nachteilig daran ist, dass der Anwender nicht weiss wohin die Reise gehen wird, wenn er den Button drückt. Vielleicht sollte ich deshalb Internet Explorer  (Semantik) benutzer daran hintern, dass sie weitergeleitet werden?

Zum Schluß noch zu erwähnen wäre, dass das Blogsystem Textpattern  (Semantik) bis jetzt von Spambots verschohnt geblieben ist. Ein Grund hierfür könnte die Vorschautechnik sein, bei der erst im zweiten Schritt der Inhalt übernommen wird. Solange Textpattern  (Semantik) nicht so weit verbreitet ist wie Movabletype  (Semantik) und Wordpress  (Semantik) , wird sich keiner die Mühe machen dafür ein Skript für seinen Spambot zu schreiben. Aber natürlich gibt es auch hier Kritiker, die ihre Maustaste unnötig beansprucht sehen.

... und falls man mir etwas dazu sagen will (kommentieren geht ja noch nicht), dann trifft man mich vielleicht im IRC  (Semantik) : Icon des #blogs.de IRC-Channels.  (Semantik) .