Identifizieren von Teilen von Webseiten

Art der Arbeit: Bachelorarbeit / Masterarbeit

Fachlicher Hintergrund:

Es bestehen verschiedene Methoden, um auf Webseiten (also HTML oder auch XML Dokumenten) einzelne Teile zu identifizieren: XPath-Pfade, CSS Selektoren, id-Attribute, class-Attribute usw. Dabei können strukturelle Merkmale genutzt werden (wo in der Baumhierarchie befindet sich ein Knoten), Attribute von Knoten (etwa: id, class, data-* und andere), Inhalte von Knoten (etwa: der Knoten enthält bestimmte Textinhalte als Teil), Layout-Merkmale (das Element wird auf einer bestimmten Position des Bildschirms angezeigt oder unterhalb einer bestimmten Überschrift). Je nach Art eignen sich diese Merkmale für die Identifikation von Teilen von Webseiten besonders gut oder können zu Problemen führen. Beispielsweise erfordern manche Techniken, dass die Webseite vorher angezeigt wird, und sind dann vom spezifischen Endgeräte oder seiner Größe abhängig. Andere Techniken wiederum sind zwar vom Endgerät unabhängig, ändern sich aber bei einer Anpassung der urspränglichen Webseite sehr häufig, etwa bei der Anzeige dynamischer (Werbe)Inhalte. Wiederum andere Ansätze sind auch bei solchen Modifikationen stabil. Schließlich können verschiedene Techniken kombiniert werden (etwa: Gib mir den ersten Knoten, der unter der zweiten Überschrift steht und der keine Werbeeinblendung ist). Für das automatische Auslesen von Webinhalten oder für Werbeblocker ist man an möglichst robusten Techniken zur Identifikation interessiert. Häufig werden diese daher durch Menschen nach pragmatischen Gesichtspunkten und unter Kenntnis von Webtechnologien erstellt. Das liefert aber keine optimalen Ergebnisse. Andererseits aber ist der Raum an Möglichkeiten sehr groß. So könnte ein Teil einer Seite durch vielfältige Kombinationen (etwa: mehreren XPath und CSS Selektoren in Kombination mit inhaltlichen Informationen) sehr robust beschrieben werden. Die entsprechenden Strategien sind aber komplex und erfordern algorithmische Unterstützung.

Aufgabenbeschreibung:

Es soll eine systematische, algorithmische Technik zur Generierung von Identifikatoren von Webseiten Teilen entwickelt werden. Ziel ist die automatisierte Erstellung von Beschreibungen, die bei Veränderungen von Gegebenheiten möglichst robust sind. Dabei sind unterschiedliche Ansätze zu kombinieren. Die (relativ großen) Suchräume der einzelnen Ansätze sind systematisch auszuwerten. Für die Güte der Lösung sind Kriterien zu entwickeln.

Mögliche Arbeitsschritte:

  • Einarbeitung in Verfahren zur Adressierung von Teilen von Webseiten (XPath, jQuery, CSS, XQuery, Inhaltssuche, optische Suche usw.)
  • Entwicklung von Kriterien zur Bewertung von Identifikationsverfahren
  • Erstellen eines Prototyps und Evaluation in einem Feldtest.

Die genaue Festlegung des Themas erfolgt in Abstimmung mit den Betreuern unter Berücksichtigung eventuell schon an andere Studenten vergebener Themengebiete. Eine gemeinsame Bearbeitung verschiedener Teilthemen durch mehrere Studenten ist unter Umständen möglich. 

Literatur und Ressourcen:

  • Dokumentationen der verschiedenen Web-Standards.
  • Dokumentationen bestehender Verfahren (etwa: Adblocker, Element Hiding Helper, usw.)

Betreuer: Prof. Clemens Cap

Voraussetzungen: Keine besonderen.