Skip to content

Stand der Dinge: Publikationsanalyse

by - März 8, 2011

In unserer Adaption der agilen Softwareentwicklung haben wir Iterationen festgelegt, in denen (Teil-) Prototypen entwickelt werden. Zurzeit befinden wir uns in der dritten Iteration und haben Grundlagen, wie die Installation eines Redmine und verschiedene Server-Basics, sowie die ersten beiden Prototypen abgeschlossen.

Aus Benutzersicht beginnt der zweite Prototyp mit einer Möglichkeit des Uploads einer Publikation im PDF-Format. Diese PDF-Datei wird auf dem Server gespeichert und der Reintext extrahiert. Dieser Reintext wird intern weitergegeben und analysiert. Unter anderem werden verschiedene Abschnitte, Überschriften, Metadaten und der Referenzteil einer Publikation erkannt. Aus den Metadaten werden Felder wie Autoren oder der Titel der Publikation extrahiert; Angaben zu Zitaten aus dem Referenzteil werden nach Autoren, Titel der Arbeit, Erscheinungsjahr, etc. zerlegt.  Dies geschieht ohne menschliches Eingreifen, die Maschine macht Vorschläge für die einzelnen Bestandteile, die dem Benutzer zur Überprüfung in einem Formular präsentiert werden. Nachdem ein Benutzer die ihm vorgegeben Felder korrigiert, oder mangels Motivation das Formular zumindest abgesendet hat, werden die Daten in einer Datenbank abgelegt. In diesem Schritt werden gleichzeitig szientrometrische Maße berechnet, die später Aufschluss über Zusammenhänge der Publikationen oder Autoren geben sollen.

Die extrahierten und generierten Daten können nun genutzt werden, um Benutzern des Systems semantische Daten anzubieten. Das heißt, dass die aufbereiteten Daten etwas aussagen und einen gewissen Mehrwert bieten sollen. Ist dem Benutzer z.B. ein Autor bekannt, so kann er sich Daten zur Mehrautorenschaft anzeigen lassen. Wir präsentieren dies in einem interaktiven Graph. In der folgenden Grafik sind verschiedene Autoren als Knoten dargestellt. Der Knoten in der Mitte ist der Ausgangspunkt – der Autor, für den sich der Nutzer interessiert. Die Kanten repräsentieren den Grad der Zusammenarbeit zweier Autoren. Eine dünne Linie sagt aus, dass die Autoren zumindest eine Publikation zusammen veröffentlicht haben. Die Kante, die vom Ursprung Richtung Westen liegt zeigt an, dass die verbundenen Autoren mehrere Publikationen miteinander verfasst haben. So eine Visualisierung kann interessant sein, wenn man einen bestimmten Autor schätzt und interessiert an Autoren ist, die vielleicht ähnliche Publikationen verfasst haben.

Ein anderes Maß ist die bibliografische Kopplung. Hier wählt man eine Publikation X aus und ist interessiert an anderen, inhaltlich ähnlichen Dokumenten, z.B. einem Dokument Y. Ein Indikator für die inhaltliche Ähnlichkeit ist die Anzahl an Dokumenten, die zugleich im Referenzteil von X, als auch im Referenzteil von Y auftauchen. Wir nehmen an, dass zwei Dokumente, die beide aus gleichen anderen Dokumenten zitieren, inhaltlich ähnlich sind. Eine erste Visualisierung zeigt die folgende Grafik. Die Kantenstärke gibt – wer hätte es gedacht – die bibliografische Kopplung wieder.

Es ist geplant, dass ein Benutzer auf einen beliebigen Knoten klicken kann, die Daten für diesen Knoten nachgeladen werden, und der Graph mittels Morphing umgestaltet wird. Eine der größten Hürden stellt im Moment noch die automatisierte und korrekte Extraktion der verschiedenen Teile (Autoren, Titel, Zitate, …) einer Publikation dar. Diese Daten werden benötigt, um die korrekte Verlinkung der Publikationen zu gewährleisten. Es ist geplant, dazu maschinelles Lernen zu verwenden. Also Namen oder Titel von Publikationen vorzugeben und der Maschine damit eine Möglichkeit zu verschaffen, zukünftig ähnlich aufgebaute Zeichenfolgen erfolgreich als Titel etc. zu identifizieren. Unter anderem liegt der Schwerpunkt unser derzeitigen Iteration aber auf dem Clustern von Daten.

From → Visualisierung

Schreibe einen Kommentar

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: