Informationsextraktion aus Produktpreisblättern

Problemstellung & Zielsetzung

In nahezu jeder Domäne finden sich in großen Mengen nicht- bzw. semistrukturiete Daten. Diese sind häufig in menschenlesbarer Form verfügbar. Viele Anwendungsfälle erfordern eine Verarbeitung enormer Datenmengen (bspw. Preisvergleichsseiten). Da diese in der Regel nicht mit vorhandenem Personal bewältigt werden können möchten wir eine technische Lösung für dieses Problem entwickeln.

Problematisch ist dabei, dass es weder eine vordefinierte semantische noch eine syntaktische Struktur vorhanden ist. Ziel ist es daher diese menschenlesabren semistruckturierten Daten aus einer bestimmten Domäne automatisiert zu analysieren und deren Inhalt auf ein vordefiniertes Datenschema zu übertragen. Dazu werdensowohl Ansätze zur Strukturerkennung in Dokumenten, als auch aus dem Bereich des Natural Language Prozessing (NLP) verwendet.

Wissenschaftliche Herausforderung

Die neuesten (generischen) Ansätze (z.B. von Hansen, Pomp et. al) erreichen bei der Tabellenerkennung in PDF einen F1-Score von ca. 80%.

Erfolgreiche semantische Tabellenanalysen sind derzeit nur in vereinzelten Domänen vorzufinden. Der Einsatz von Deep-Learning Methoden ist im Rahmen von semantischen Tabellenanalysen aktuell ebenfalls wenig erforscht (vgl. Milosevic et. al.). Die erfolgreich durchgeführten semantischen Tabellenanalysen von Milosevic et. al. (Folie 8) bauen auf der Grundlage von strukturierten Datenformaten (XML) auf. Der in diesem Projekt betrachtete Anwendungsfall weist eine erhöhte Komplexität auf, da die Dokumente im PDF-Format vorliegen und vorverarbeitet werden müssen. Moderne OCR-Bibliotheken (z.B. Tesseract OCR) erreichen Fehlerraten <10% bei der Übersetzung von Dokumenten (tesseract-ocr). Anzuwendende NLP-Methoden müssen also auf Grundlage „90% richtiger“ Daten durchgeführt werden.

Quellen

Hansen, Pomp et. al – Matthias Hansen, Andre Pomp et. al.: Data-Driven Recognition and Extraction of PDF Document Elements (https://www.mdpi.com/2227-7080/7/3/65)

Milosevic et. al – Nikola Milosevic et. al.: A framework for information extraction from tables in biomedical literature (https://link.springer.com/article/10.1007/s10032-019-00317-0)

tesseract-ocr – https://github.com/tesseract-ocr/docs/blob/master/das_tutorial2016/7Building%20a%20Multi-Lingual%20OCR%20Engine.pdf