Skip to content

Clustering Text-basierter Medien

by - Dezember 1, 2010

In dieser Arbeit geht es um den Einsatz von Clustering-Verfahren als Hilfsmittel des Information Retrieval auf Grundlage von Text-basierten Daten bzw. Dokumenten. Die Folien der Präsentation stellen eine kurze Einführung in das Thema dar, später folgt dann eine detailliertere Ausarbeitung.

In der Präsentation wird zuerst eine Einordnung in den Kontext vorgenommen und es werden ein paar Beispiele für mögliche Anwendungen aufgezeigt.  Anschließend wird auf die folgenden grundlegenden Fragen eingegangen:

  • Was ist überhaupt Clustering?
  • Was sind Merkmale von Texten?
  • Was für Metriken gibt es, bzw. wie vergleiche ich Texte?
  • Welche Arten von Cluster-Algorithmen gibt es?
  • Wie messe ich, wie „gut“ ein erstelltes Clustering ist?

Dem Leser werden die generellen Schritte

  • Merkmalextrahierung & -aufbereitung
  • Proximitätsbestimmung
  • Fusionierung

erläutert und die beiden bekannten Algorithmen „k-means“ und „MajorClust“ mit Beispielen vorgestellt.

Insgesamt sollten die Folien einen groben Überblick über das weite Themengebiet geben.

From → Seminarthemen

Schreibe einen Kommentar

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: