Automatisierte Dateninterpretation und Verarbeitung von Web-Scraping-Daten im Bereich Retail

In dieser Arbeit werden zunächst die Probleme der Beschaffung und der Qualitätssicherung
von Stammdaten im ERP-Bereich analysiert. Ziel ist es, einen automatisierten
Erfassungsprozess zu entwickeln, der unbekannte Webquellen als Grundlage für die
Informationsbeschaffung nutzt. Zu diesem Zweck wird Web-Scraping in Verbindung mit
verschiedenen Ähnlichkeitsanalysetechniken eingesetzt. Es werden selbstexpandierende
Wortlisten auf der Grundlage von Levenshtein-Algorithmen und Fuzzy-Matching verwendet.
Die Implementierung erfolgt in der Programmiersprache Python. Anschließend wird eine erste
Version des Prototypen mit Testdaten befüllt und die Ergebnisse werden detailliert analysiert.
Es werden sowohl Erfolge als auch Probleme aufgezeigt und bewertet. Es zeigt sich, dass die
Extraktion und Dublikatsfindung in vielen Fällen erfolgreich ist, aber auch, dass komplexe
Strukturen im Aufbau der Eingabequellen zu Problemen führen, welche die Extraktion von
Informationen aus unbekannten Webquellen zunächst erschweren. Abschließend werden
Möglichkeiten zur Weiterentwicklung und Verbesserung diskutiert.

Hier geht es zum Download