SystemTagger
Der System Tagger taggt alle Beiträge eines Forums. Hier wird erklärt wie er arbeitet. Ich habe mir folgenden Algorithmus überlegt:
Wenn ihr bessere Ideen habt, dann teilt mir diese bitte mit.
- Es werden alle Threads gelesen die noch Posts haben, die nicht getaggt wurden.
- Der System Tagger summiert nun alle Beiträge in einem großen Text pro Thread.
- Danach wiederholt er alle als fett markierten Wörter und entfernt die restlichen BBCodes.
- Es werden nur großgeschriebene Wörter berücksichtigt.
- TODO: Das macht eigentlich nur in der deutschen Sprache Sinn... also überdenken
- Wörter aus der Stopwortliste werden aus dem Text entfernt.
- Wörter die mehr als einmal vorkommen werden nach der Anzahl ihres Vorkommens gewichtet. (Wörter die nur einmal vorkommen und nicht fett sind, sind also keine Tags)
- Ansonsten würde jedes Wort ein Tag sein, was sicherlich nicht gewollt ist
- Dann wird der Thread auf maximal 15 Tags beschränkt
- TODO: Eine Zahl in Abhängigkeit der Postanzahl wäre wohl am Besten.
- Die Tags gemäß ihrer Gewichtung auf einer Skala von 100 bis 250 verteilt.
- Die Tags werden mit der UserID SystemTagger, dem ersten Posting zugeordnet
- Alle abgearbeiteten Posts(!!) werden als "finished" markiert
