Wiki Dateisystem

http://blog.choas.net/2005/01/28/wiki_dateisystem

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

28.01.2005 - Dateisystem

Heute schreibe ich etwas über ein Dateisystem  (Semantik) . Warum? Ganz einfach, mir ist mal wieder etwas bei Plan 9  (Semantik) aufgefallen, und zwar wikifs  (Semantik) . Plan 9 integriert ein Dateisystem mit einer Wiki-Unterstützung. Dadurch lassen sich Wikiseiten entweder über einen Webserver oder innerhalb von Acme  (Semantik) , einem Multiwindow Editor, betrachten und editieren. Der Wikiserver bindet beim Starten wikifs in das Dateisystem ein und verwaltet die einzelnen Wikiseiten, indem eine Historie angelegt wird. Für die Browser-Darstellung werden zusätzliche HTML  (Semantik) Seiten angelegt.

... für Linux  (Semantik) gibt es Wily  (Semantik) als "Acme-Ersatz". Einen wikifs-Ersatz habe ich leider nicht gefunden.

 

Was ist Dynix?

http://blog.choas.net/2005/01/27/was_ist_dynix

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

27.01.2005 - UnixBetriebssystem

Letzte Woche hat Golem  (Semantik) in einem Artikel (Kleiner Erfolg für SCO im Streit mit IBM  (Semantik) ) darüber berichtet, dass SCO das Verfahren gegen IBM weiter verzögern darf. Erreicht wird dies dadurch, dass "IBM ... alle Versionen und Veränderungen an AIX und Dynix vorlegen" muss.

Der Name AIX  (Semantik) ist im Zusammenhang von SCO gegen den Rest der Welt  (Semantik) des öffteren erwähnt worden. Während DYNIX  (Semantik) mir bisher noch nicht über den Weg gelaufen ist. Aus diesem Grund wollte ich doch mal wissen, was das eigentlich ist und bei dieser Gelegenheit gleich ein bischen Symantik zum UNIX Betriebssystem  (Semantik) sammeln.

DYNIX  (Semantik) ist ein Betriebssstem, das 1984 von der Firma Sequent Computer Systems  (Semantik) entwickelt wurde und auf BSD Unix  (Semantik) (4.2BSD  (Semantik) ) basiert. 1993 wurde DYNIX  (Semantik) durch DYNIX/ptx  (Semantik) ersetzt. Unix System V Release 4  (Semantik) beeinflusste diese Version.

Sequent Computer Systems  (Semantik) war (unter anderem mit AT&T  (Semantik) ) einer der Vorreiter von SMP  (Semantik) und wurde 1999 von IBM  (Semantik) übernommen. Wenn ich das richtig verstanden habe, dann soll es bei der Geschichte SCO vs. IBM  (Semantik) zum Teil genau um diesen SMP  (Semantik) Code gehen. Dieser ist angeblich über Unix System V  (Semantik) nach DYNIX/ptx  (Semantik) und von IBM  (Semantik) in Linux  (Semantik) gewandert? Um aber dieses Thema detailiert und semantisch auseinander zu nehmen könnte man sich und einen eigenen Blog beschäftigen.

 

Google gegen Kommentarspam

http://blog.choas.net/2005/01/19/google_gegen_kommentarspam

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

19.01.2005 - AntiKommentarspam

Google  (Semantik) berücksichtig bei Links das rel Attribut. Kommentarspammer  (Semantik) können zwar fleißig weiter spammen, Google wird aber diese Links ausfiltern. Um dies zu realisieren muss die BlogSoftware  (Semantik) einfach nur das rel Attribut mit einem nofollow hinzufügen.

Für meine Idee mit der Black-Gray-White-Liste würden dann alle "grauen" Links ein rel bekommen. Die Links auf der weißen Liste sind sauber, und die schwarzen werden geblockt. Dadurch könnte ich den umständlichen Weg über einen Button umgegehn.

Den Google Anti-Kommentarspam  (Semantik) Artikel habe ich bei Golem  (Semantik) (Google: Neues Tag gegen Spam  (Semantik) ) gefunden.

 

SBlog23 mit Tags

http://blog.choas.net/2005/01/18/sblog23_mit_tags

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

18.01.2005 - Tags

Bei Moe  (Semantik) habe ich im PlasticWiki  (Semantik) gelesen (PlasticWiki:TagBlogs  (Semantik) ), dass TagBlogs  (Semantik) dieses Jahr megatrendig werden sollen. Da nur in Blogs gelogen wird, glaub ich natürlich alles was in Wikis steht und habe sBlog23  (Semantik) mit Tags  (Semantik) ausgerüstet. Beim betrachten der Liste sieht man, wenn hätte es gewundert, dass sBlog23  (Semantik) mit fünf Einträgen - ich korriere, da dieser hier noch nicht dazu gezählt wurde: sechs Einträgen - führt. Ich glaub, dass sBlog23  (Semantik) als einziges die Anzahl der Einträge als Title anzeigt (ist das vielleicht patentiert und deshalb machen es die anderen nicht?).

Über die gewichteten Stichwortlisten schreibt zum einen pixelgraphix  (Semantik) : Worum geht es wirklich?  (Semantik)

... und Moe  (Semantik) selber schreibt auch über Tags: Technorati goes tagging  (Semantik)

Die großen Vorbilder sind technorati/tags  (Semantik) , flickr/tags  (Semantik) und del.icio.us/tag  (Semantik) .

 

ATI Proprietary Linux x86 Driver

http://blog.choas.net/2005/01/18/ati_proprietary_linux_x86_driver

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

18.01.2005 - Linux

Wahnsinn, ATI  (Semantik) hat es wirklich dieses Jahr geschafft einen Treiber für X.Org  (Semantik) rauszubringen. Eigentlich hätte dieser schon letztes Jahr / letzte Woche der Weltöffentlichkeit präsentiert werden soll: ATI Linux x86 Treiber für X.Org  (Semantik)

 

Titan in Farbe

http://blog.choas.net/2005/01/14/titan_in_farbe

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

14.01.2005 - Gimp

Während die Welt das erste Bilder vom Saturn-Mond Titan  (Semantik) in Schwarz-Weiß betrachtet, habe ich, um die Bildanzeige von sBlog23  (Semantik) zu testen, das Bild genommen und mit Gimp  (Semantik) bearbeitet. Hierzu habe ich den Filter Alien Map 2  (Semantik) (wie passend) benutzt: Das erste Bild vom Saturn-Mond Titan mit Gimp bearbeitet.  (Semantik)

... Titan Fakten  (Semantik) gibt es auch.

 

Spam zieht Spam an

http://blog.choas.net/2005/01/11/spam_zieht_spam_an

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

11.01.2005 - AntiKommentarspam

Über status404  (Semantik) habe ich den Artikel Spam breeds more spam  (Semantik) gefunden. Dort schreibt Kasia Trapszo  (Semantik) , dass sie bei zwei Kommentaren den Kommentarspam nicht entfernt hatte und keine 24 Stunden später hatte sie dann 356 neue Spameinträge. Die nicht entfernten Spameinträge wurden über Google  (Semantik) gefunden, indem nach einer bereits gespammten URL  (Semantik) gesucht wurde.

Was lernen wir daraus? Die Kommentare sollten auf einer eigenen Seite stehen. Am besten in einem Unterverzeichnis. Durch einen Eintrag in der robots.txt  (Semantik) kann man dieses Verzeichnis für die Suchmaschinen ausschließen.

... ob der Umkehrschluß vielleicht auch möglich ist? Verkriecht sich der Spammer, wenn er seine URL nicht findet?

 

Weitere Tipps gegen Kommentarspam

http://blog.choas.net/2005/01/09/weitere_tipps_gegen_kommentarspam

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

09.01.2005 - AntiKommentarspam

pixelgraphix  (Semantik) gibt Tipps zum Kampf gegen Kommentarspam  (Semantik) . Dabei wird auf das Six Apart  (Semantik) Dokument Six Apart Guide to Comment Spam  (Semantik) verwiesen. In diesem wird der JavaScript  (Semantik) Mechanismus gegen Kommentarspam (Kommentarspammer laufen hinter her) als Form Obfuscation  (Semantik) bezeichnet. Dies fällt unter die Bezeichnung security through obscurity  (Semantik) . Dazu gehört auch die Umbenennung der Kommentardatei oder das Hinzufügen und Verändern von ein paar Eingabefeldern. Ebenso könnte man das Anpingen an weblogs.com and blo.gs unterlassen, da vermutet wird, dass Spambots dadurch angelockt werden.

Ein Turing Test  (Semantik) ist eine weitere Möglichkeit, um den Spambots das Leben schwer zu machen. Es werden Aufgaben gestellt, die der Mensch zu meist einfach lösen kann, eine Maschine (z.B. Spambot) jedoch so gut wie nicht. Hierzu gehören einfache Fragen, wie zum Beispiel den Nachnamen des Autors zu nennen. Der CAPTCHA  (Semantik) Mechanismus, bei dem ein (sehender) Mensch Bilder erkennen muss, auf denen Zahlen und Buchstaben stehen, ist auch ein Turing Test  (Semantik) .

Die Idee hinter der Authentifizierung und Identifizierung ist es, dem Spammer die Anonymität zu nehmen. Im Six Apart Guide to Comment Spam  (Semantik) Dokument werden hierfür TypeKey  (Semantik) und Tiny Orwell  (Semantik) erwähnt, die ich aber nicht näher betrachtet habe.

Durch das Content Filtering  (Semantik) wird versucht den Spam anhand des Inhalts zu identifizieren. Sei es anhand der URL  (Semantik) , wie das Blacklist  (Semantik) Plugin oder anhand der DNS  (Semantik) beim DSBL  (Semantik) Plugin oder durch Bayesian, wie es bereits bei den Emails benutzt wird.

Als letzte Möglichkeit (im Dokument) wird auf das Throttling eingegangen. Bei diesem werden nur eine bestimmte Anzahl an Kommentaren pro Stunde und Tag erlaubt. Danach werden keine weiteren Kommentare zugelassen.

Welche Konsequenzen für sBlog23  (Semantik) ziehe ich nun aus diesem Dokument? Pingen kann ich zwar noch nicht, jedoch wird diese auch Spambots nicht abhalten. Eine Suche bei Google  (Semantik) nach "Blog" wird genügend Futter liefern. Einen Turing Test  (Semantik) , insbesondere CAPTCHA  (Semantik) lehne ich ab, da hier Menschen mit einer Sehschwäche benachteiligt werden. Bei der Authentifizierung und Identifizierung sehe ich den Aufwand für einen kleinen Kommentar als zu übertrieben an. Throttling hingegen wird dann zuschlagen, wenn mehrere Leute mal etwas kommentieren wollen, wobei dies aus der bisherigen Erfahrung dann sein wird, wenn zwei Leute am Tag kommentieren (mehr waren es bisher nicht).

Bleibt nur noch das Content Filtering  (Semantik) . Beim bisherigen Movabletype  (Semantik) Blog hat dies aber dazu geführt, dass ich alles gefiltert habe und letzten Endes die Kommentardatei nicht nur umbenannt, sondern gelöscht habe. Dadurch wurde das Leben langweilig, ich hatte nichts mehr zu tun und beschäftigte mich mit der Entwicklung von sBlog23  (Semantik) :)

Die Unterscheidung beim Blacklist  (Semantik) Plugin sehe ich als zu sehr "schwarz-weiß" an. Meine Idee liegt darin, eine Grauzone einzuführen. Gewisse Wörter und URLs landen automatisch in einer Schwarzenliste, während bestimmt URLs in einer Weißenliste stehen. Die URLs mit den schwarzen Wörtern werden gefiltert und aussortiert. Die mit den weißen Wörtern können ohne Probleme angezeigt werden. URLs die von keinem abgedeckt werden, befinden sich in einer Grauzone. Sie werden als Buttons angezeigt, deren Beschriftung nichts sagen ist, wie zum Beispiel "Link", und deren URL als md5  (Semantik) verschlüsselte ID an ein Skript übergeben wird. Das serverseitige Skript wird durch das Drücken des Buttons aufgerufen, sucht die URL anhand von der ID und verweist auf die Seite. Durch diesen Mechanismus wird die URL für die Suchmaschine unbrauchbar und verliert somit ihren Wert. Zusätzlich kann das Skript überprüfen, ob es sich um eine Suchmaschine handelt, die den Link aufrufen möchte. Wobei ich mir nicht sicher bin, ob zum Beispiel Google  (Semantik) ein Formular aufruft. Nachteilig daran ist, dass der Anwender nicht weiss wohin die Reise gehen wird, wenn er den Button drückt. Vielleicht sollte ich deshalb Internet Explorer  (Semantik) benutzer daran hintern, dass sie weitergeleitet werden?

Zum Schluß noch zu erwähnen wäre, dass das Blogsystem Textpattern  (Semantik) bis jetzt von Spambots verschohnt geblieben ist. Ein Grund hierfür könnte die Vorschautechnik sein, bei der erst im zweiten Schritt der Inhalt übernommen wird. Solange Textpattern  (Semantik) nicht so weit verbreitet ist wie Movabletype  (Semantik) und Wordpress  (Semantik) , wird sich keiner die Mühe machen dafür ein Skript für seinen Spambot zu schreiben. Aber natürlich gibt es auch hier Kritiker, die ihre Maustaste unnötig beansprucht sehen.

... und falls man mir etwas dazu sagen will (kommentieren geht ja noch nicht), dann trifft man mich vielleicht im IRC  (Semantik) : Icon des #blogs.de IRC-Channels.  (Semantik) .

 

Kommentarspammer laufen hinter her

http://blog.choas.net/2005/01/08/kommentarspammer_laufen_hinter_her

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

08.01.2005 - AntiKommentarspam

Über status404  (Semantik) (Gestern war ein schwarzer Tag  (Semantik) ) habe ich einen Artikel (Die Spam-Rettung?  (Semantik) ) gefunden, bei dem der angebliche Killercode gegen Kommentarspam gefunden wurde. Dieser funktioniert, wenn ich das auf die schnelle so richtig verstanden habe, indem beim Abschicken des Formulars JavaScript  (Semantik) eine Funktion aufruft und einen Code übergibt. Die Funktion sucht nach einem Feld mit dem Name hashcash_secret_code. Der übergebene Code wird mit md5  (Semantik) verschlüsselt und als neuer Feldname benutzt. Danach überträgt der Browser die Formulardaten inkl. dem veränderten Feld. Serverseitig wird wahrscheinlich geprüft, ob der Feldname mit dem verschlüsselten Code übereinstimmt.

Dieser Mechanismus funktioniert aber nur deshalb, weil die Benutzer JavaScript aktiviert haben müssen und die Spambots mit JavaScript noch nicht umgehen können. Dies ist aber alles nur eine Frage der Zeit. Sollte dieser Mechanismus sich weit verbreiten, dann lohnt es sich für den Kommentarspammer  (Semantik) seinen Spambot mit einer JavaScript Bibliothek, wie zum Beispiel Rhino  (Semantik) , auszurüsten.

Solange dies eine individuelle Lösung ist und die großen Blogsysteme dies noch nicht standardmäßig anbieten, laufen die Kommentarspammer  (Semantik) erst einmal hinter her.

 

Das ist das Ende von Trackback

http://blog.choas.net/2005/01/07/das_ist_das_ende_von_trackback

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

07.01.2005 - Trackback

Zu einem Blogsystem, wie zum Beispiel Movabletype  (Semantik) , gehört der Trackback (noch) dazu. Aus diesem Grund wollte ich ihn auch für sBlog23  (Semantik) implementieren. Andereseits erklärt bwolf  (Semantik) mit dem Artikel Groovy Trackback Of Death  (Semantik) , nicht nur mit einfachen Worten (verfasst in Groovy  (Semantik) ) wie der Trackback-Mechanismus funktioniert, sondern er zeigt auch wieso "trackbacks are not good for you" sind.

Während man beim Kommentarspam alle möglichen Versuche unternehmen kann, um dem Kommentarspammer  (Semantik) bzw. dem Spambot die Arbeit zu erschweren, sei es mit Capchas oder JavaScript  (Semantik) , lässt sich dies bei Trackbackspam  (Semantik) schlecht realisieren.

Das Problem ist, dass der Trackback-Mechanismus ein automatisierter und vor allem anonymisierter Prozess ist. Bei diesem wird an die Trackback Adresse  (Semantik) neben Titel und Text, auch die angebliche URL  (Semantik) des Blogs geschickt. Ein Spambot würde aber nicht nur eine URL, sondern verschieden URLs übertragen. Sollte das Blogsystem keine einfache Möglichkeit bieten, um den Trackbackspam zu entfernen, so wie bei Drupal  (Semantik) (siehe Groovy Trackback Of Death  (Semantik) ), kann dies eine heitere Angelegenheit werden.

Andererseits besteht der Trackback-Mechanismus nicht nur darin Spam zu empfangen, sondern selber anderen Seiten seine Gedanken, Ideen und die URL des Blogeintrags mitzuteilen. Deshalb habe ich schnell die Ping-Funktionalität eingebaut, bevor die Trackbackspammer es schaffen, dass der Trackback im Jahr 2005 stirbt.

... mehr über den Abschied von der freien Kommunikation  (Semantik) schreibt DerJoern, dem ich jetzt erst einmal meinen ersten Trackback schicke.

 

Reallife Blogsystem?

http://blog.choas.net/2005/01/03/reallife_blogsystem_

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

03.01.2005 - IRC

Vor lauter Semantik und rumgebastel an sBlog23  (Semantik) stellt man bei Icon des #blogs.de IRC-Channels.  (Semantik) doch glatt die Frage, was "reallife für nen blogsystem" ist. Da wir aber nicht im Reallife sind, kommt die Antwort natürlich als URL: Die ultimative ... Antwort!  (Semantik) .

 

Groovy

http://blog.choas.net/2005/01/01/groovy

Copyright (C) 2003-2005 LarsGregori (Lizenz: Creative Commons)

01.01.2005 - Programmiersprache

Dies ist ein kleines semantisches Beispiel über Groovy  (Semantik) , um dessen sprachlichen Einflüssen aufzuzeigen.

Groovy  (Semantik) ist auf der Homepage folgendermaßen beschrieben: "Groovy is ... combining lots of great features from languages like Python, Ruby and Smalltalk and making them available to the Java developers using a Java-like syntax."

In den Präsentationsunterlagen zu Groovy (für die OSCON 2004  (Semantik) ) ist zu lesen, dass Groovy "Features of Ruby, Python, Dylan  (Semantik) and Smalltalk" benutzt.

Des weiteren baut Groovy auf ASM  (Semantik) auf. "ASM is a Java bytecode manipulation framework  (Semantik) ." und "offers similar functionalities as BCEL  (Semantik) or SERP  (Semantik) "

Eine Liste über Skriptsprachen für Java findet sich bei Oreilly im Artikel Groovy, Java's new Scripting Language  (Semantik) von Ian F. Darwin  (Semantik) . Er schreibt folgendes über die JavaSkriptsprachen: "We already have, after all, JavaScript  (Semantik) and Rhino  (Semantik) , Jython, Jelly, BeanShell, JRuby, Tcl/Java  (Semantik) , Sleep, ObjectScript, Pnuts, Judoscript, the Bean Scripting Framework  (Semantik) (BSF  (Semantik) )--which gives access to Perl, TK/Tcl  (Semantik) , and more--and many others. But other developers have been hoping for a scripting language with the power of Perl, Python, or Ruby but without having to re-learn everything from the ground up."

Mittlerweile ist auch schon die Beta 8 von Groovy  (Semantik) erschienen, wie es bereits bwolf  (Semantik) gebloggt (Groovy 1.0 beta 8  (Semantik) ) hat.

... und bei Langreiter  (Semantik) wurde kürzlich (2004-12-21  (Semantik) ) Dylan  (Semantik) erwähnt.