SystemTagger

Der System Tagger taggt alle Beiträge eines Forums. Hier wird erklärt wie er arbeitet. Ich habe mir folgenden Algorithmus überlegt:

Wenn ihr bessere Ideen habt, dann teilt mir diese bitte mit.

  1. Es werden alle Threads gelesen die noch Posts haben, die nicht getaggt wurden.
  2. Der System Tagger summiert nun alle Beiträge in einem großen Text pro Thread.
  3. Danach wiederholt er alle als fett markierten Wörter und entfernt die restlichen BBCodes.
  4. Es werden nur großgeschriebene Wörter berücksichtigt.
    • TODO: Das macht eigentlich nur in der deutschen Sprache Sinn... also überdenken
  5. Wörter aus der Stopwortliste werden aus dem Text entfernt.
  6. Wörter die mehr als einmal vorkommen werden nach der Anzahl ihres Vorkommens gewichtet. (Wörter die nur einmal vorkommen und nicht fett sind, sind also keine Tags)
    • Ansonsten würde jedes Wort ein Tag sein, was sicherlich nicht gewollt ist
  7. Dann wird der Thread auf maximal 15 Tags beschränkt
    • TODO: Eine Zahl in Abhängigkeit der Postanzahl wäre wohl am Besten.
  8. Die Tags gemäß ihrer Gewichtung auf einer Skala von 100 bis 250 verteilt.
  9. Die Tags werden mit der UserID SystemTagger, dem ersten Posting zugeordnet
  10. Alle abgearbeiteten Posts(!!) werden als "finished" markiert