[Datum: 2003-04-15]
			  Data-Mining-Cup 2003
                            Aufgabenstellung
			  ====================

Ausgangssituation
-----------------

Die Problematik unverlangt zugesendeter (Werbe-) E-Mails, mit
zumeist fraglichem Inhalt, ist weithin bekannt und die Lage der
Empfnger wohl recht aussichtslos. Trotz entsprechender Gesetzes-
regelungen ist eine drastische Verfolgung im juristischen Sinne
kaum praktikabel.

Fr Personen mit zahlreichen Auenkontakten per E-Mail und
damit einer entsprechenden Verbreitung ihrer Adresse kann
sich die Situation sogar so darstellen, dass pro Tag nicht
nur die gewnschten E-Mails sondern auch das Mehrfache an
Werbe-E-Mails (Spam) im Postfach liegen.

Der Empfnger steht nun vor dem Problem, die fr ihn wichtigen 
E-Mails von den Spam-Mails, die ja nicht immer auf den ersten
Blick als solche zu erkennen sind, zu trennen - ein lstiges und
zeitraubendes Verfahren.

Der frhe Wunsch, die Erkennung von Spam-Mails und deren Auslese
zu automatisieren, fhrte ber die letzten Jahre zu verschiedenen
Software-Projekten und auch kommerziellen Produkten mit mehr oder
weniger knstlicher "Intelligenz" und einer entsprechenden Spann-
weite an Effizienz. Einer der wohl bekanntesten Mail-Filter ist
die Open-Source Software SpamAssassin(tm), der ihre Praxis-
tauglichkeit schon in vielen Hochschulen und Unternehmen unter
Beweis stellen muss.

Wichtiges Kernstck eines guten Mail-Filters ist seine Fhigkeit,
E-Mails auf Grund verschiedenster kontrollierter und erfasster
Merkmale zu klassifizieren und somit mit einer entsprechend hohen
Wahrscheinlichkeit die Zuordnung Spam oder Nicht-Spam zu treffen.
Die Qualitt eines Mail-Filters steht und fllt somit mit der
Gte seines Klassifikationsalgorithmus. 


Szenario
--------

Im Zuge von Manahmen zur effizienteren Gestaltung von Kommuni-
kationsablufen stellt ein Unternehmen durch Hinweise der Mitarbeiter fest, dass ein beraus
hoher Anteil der eingehenden E-Mails Werbe-E-Mails sind. Die nicht
unerhebliche Arbeitszeit die fr die tgliche Aussortierung und das
letztendliche Lschen der Spam-Mails aufgewendet wird, lsst in dem
120 Mitarbeiter zhlenden Unternehmen Rckschlsse auf ein hohes
Rationalisierungspotenzial zu.

Aus diesem Grund wurden ber einen entsprechenden Zeitraum alle
E-Mails im Unternehmen gesammelt und nach Spam oder Nicht-Spam
getrennt abgelegt. Jede E-Mail wurde dann durch einen Satz von
Merkmalen beschrieben.

Im Rahmen des Data Mining Cups liegen exemplarisch Daten von
8.000 E-Mails, sowie deren Klassenzugehrigkeit vor.

Ziel des Einsatzes von Data Mining ist es, einen Klassifikator zu
erstellen, welcher in der Lage ist Nicht-Spam-Mails von Spam-Mails
zu unterscheiden. Der Klassifikator (Regel) soll dann automatisiert
eingehende E-Mails prfen und nur noch Nicht-Spam-Mails direkt zu-
stellen. Spam-Mails sollen in einem gesonderten Mailordner des
Mitarbeiters abgelegt werden.

Im Rahmen des Data Mining Cups ist der Klassifikator exemplarisch auf
11.177 E-Mails anzuwenden.

Ziel ist es, die Anzahl der durch den Filter hindurch gelassenen
Spam-Mails zu minimieren, wobei eine wesentliche Bedingung lautet:
Unter den ausgefilterten E-Mails drfen sich maximal 1,0 %
Nicht-Spam-Mails (bezogen auf die Gesamtzahl von Nicht-Spam-Mails)
befinden. Achtung: Sollte die eingereichte Lsung diese Bedingung
nicht erfllen, wird die Lsung nicht gewertet!


Aufgabe
-------

Folgende Data-Mining-Aufgabe ist zu bearbeiten.

Anhand der Trainingsmenge ist ein Klassifikator zu generieren,
der auf die exemplarisch ausgewhlten 11.177 zu klassifizierenden
E-Mails anzuwenden ist und oben beschriebenes Problem lst.

Der Klassifikator muss demnach folgende
Bedingungen erfllen:
1. Die Anzahl der Spam-Mails, welche den Filter passieren,
   muss minimiert werden.
2. Unter den ausgefilterten E-Mails drfen sich maximal 1,0 %
   Nicht-Spam-Mails (bezogen auf die Gesamtzahl von Nicht-Spam-Mails)
   befinden.

Achtung: Fr die Optimierung des Klassifikators ist zwingend
         die oben angegebene 2. Bedingung (1 % Klausel) zu
         beachten! Sollte die eingereichte Lsung diese Bedingung
         nicht erfllen, wird die Lsung nicht gewertet!


Einreichung des Ergebnisses
---------------------------

Als Ergebnis ist eine Liste der IDs jener E-Mails zu
liefern, welche den Filter passieren, also als potenzielle
Nicht-Spam-Mail zugestellt werden sollen.

Die Liste ist als Textdatei an dmc@prudsys.de zu senden. 

Der Name der Datei ist aus der Teilnehmer-ID wie folgt
zu bilden:

<Teilnehmer-ID>.txt (z.B. 0534-9823.txt)

Nur so ist es mglich, die eingesandte Lsung richtig zuzuordnen.

Anmerkung: Ihre Teilnehmer-ID ist identisch mit 
dem Benutzerpasswort, welches Ihnen mit der Registrierung
zum Wettbewerb zugegangen ist.

In der Datei sind nur die IDs der direkt zugestellten E-Mails
anzugeben, und zwar jede ID auf einer Zeile:

   093474
   465773
   244527
   ...


Daten
-----

Zwei Textdateien werden zur Verfgung gestellt:

   data_dmc2003_train.txt ... Trainingsmenge, 8.000 Datenstze, das
      Zielmerkmal (Spam-Mail) heit "target".
      (yes = Spam-Mail, no = Nicht-Spam-Mail)
      Das ID Merkmal heit "id".
      

   data_dmc2003_class.txt ... Daten von 11.177 E-Mails, die zu
      klassifizieren sind, enthlt bis auf "target" die gleichen
      Merkmale wie data_dmc2003_train.txt.

Die einzelnen Spalten sind durch Leerzeichen voneinander getrennt.
Sofern keine Werte angegeben sind, sind die Werte nicht bekannt,
sie sind also in diesen Fllen als fehlende Werte zu behandeln.


Bewertung der Ergebnisse
------------------------

Der Jury ist bekannt, welche von den 11.177 zu klassifizierenden
E-Mails tatschlich Nicht-Spam-Mail oder Spam-Mail ist. Genauer
gesagt, stammen alle Daten aus einer Stichprobe von insgesamt
19.177 E-Mails.

Die eingesandten Ergebnisse werden mit der bekannten Information ber
die tatschliche Zuordnung der E-Mails verglichen und der Anteil der
nicht ausgefilterten Spam-Mails bestimmt. Gleichzeitig wird der Anteil
der ausgefilterten Nicht-Spam-Mails ermittelt und die Einhaltung
der 1 % Klausel (siehe oben) berprft. Sieger ist der Teilnehmer
oder die Teilnehmerin, welche(r) unter Einhaltung der 1 % Klausel die
wenigsten Spam-Mails zustellt. Teilnehmer, die die 1 % Klausel ver-
letzen, werden nicht gewertet.


Beschreibung der Merkmale
-------------------------

Die zur Beschreibung der E-Mails verwendeten Merkmale entsprechen
denen des weit verbreiteten Open-Source Projektes SpamAssassin(tm).
Siehe auch http://spamassassin.org


Kontakt
-------

prudsys AG
Frau Sandra Hmke
Bergstrae 61
09113 Chemnitz

E-Mail: dmc@prudsys.de

WWW:    http://www.data-mining-cup.de
        http://www.data-mining-cup.com

