(31.08.2020) Die Software-Branche fokussiert sich zunehmend auf das Thema Robotic Process Automation (RPA). Immer mehr Anbieter aus unterschiedlichen Segmenten präsentieren entsprechende Applikationen, die auf Basis des menschlichen Verhaltens Arbeitsschritte eigenständig übernehmen. 

Dietrich von Seggern, Geschäftsführer der callas software GmbH, Quelle: callas softwareAnwender sollen von deren Einsatz vor allem durch optimierte Prozesse, das Vermeiden von Fehlern sowie den Wegfall monotoner Arbeiten profitieren. Dietrich von Seggern (Bild), Geschäftsführer der callas software GmbH, erläutert, weshalb das PDF-Format für RPA-Anwendungen eine solide Grundlage bildet. Damit RPA-Anwendungen reibungslos funktionieren, müssen einerseits deren Prozesse standardisiert aufgebaut sein und andererseits müssen sie homogene Dateien beinhalten. Nur so lassen sich möglichst viele Dateien mit denselben Automatismen verarbeiten. In vielen Fällen bedeutet das für Dokumente, dass RPA auf selbst erstellte Daten eingeschränkt wird. Aber warum nicht auch hier auf einen Standard setzen? Wo immer diese Prozesse auch mit Fremddaten agieren müssen, sprechen zahlreiche Argumente für das PDF-Format. Denn PDF ist der kleinste gemeinsame Nenner von nahezu allen im Büro verwendeten oder eingehenden Formaten. Office-Dateien, E-Mails oder auch Bilder lassen sich unkompliziert in PDF umwandeln, sodass RPA-Anwendungen eine einheitlich zu verarbeitende Basis zur Verfügung gestellt werden kann. Darüber hinaus ist PDF mit seinen zahlreichen gewachsenen Features das mächtigste Dokumenten-Format überhaupt. Dennoch bietet nicht jedes PDF gleich gute Voraussetzungen für die automatische Verarbeitung, die ja nicht auf einem zuverlässig darstellbaren Dokument, sondern auf den darin enthaltenen Daten aufsetzt.

So werden PDFs RPA-fähig

  • Einer der „einfachsten“ und doch mehr oder weniger unüberwindlichen Hemmschuhe für dokumentenbasiertes RPA sind – häufig unbedacht angebrachte – Passwortverschlüsselungen. Aus technischen und rechtlichen Gründen verbietet sich dann die Extraktion von Inhalten, sodass die Datei nur zurückgewiesen werden kann.
  • Damit sich PDF-Dateien automatisiert verarbeiten lassen, müssen sie einige Anforderungen erfüllen. So ist es in der Regel erforderlich, gescannte Dateien, die als PDF gespeichert sind, über OCR mit Volltext auszustatten und den ausgelesenen Inhalt Unicode-Zeichen zuzuordnen. Nur dann können RPA Prozesse die darin enthaltenen Texte auswerten. Auch digital erstellte PDFs bieten nicht immer vollständige Unicode-Unterstützung. Hier kommt es auf geeignete Werkzeuge zur Prüfung und ggf. Verbesserung an.
    Ein ganz konkretes Beispiel sind Druckdateien aus dem ERP-System, in denen Ausgangsrechnungen zusammengefasst sind. Anhand von Schlüssel- oder Trennwörtern spürt eine PDF-Software Textmarkierungen auf, um dann das gesamte PDF in Einzelrechnungen aufzusplitten. Das funktioniert natürlich nur, wenn die Software die Schlüsselwörter auch erkennen kann und das ist – ohne OCR – nur möglich, wenn die Texte bereits nach Unicode „übersetzt“ werden können.
  • Mit der Integration von Metadaten in PDFs können RPA-Anwendungen wegweisende Informationen erhalten, wie die jeweilige Datei zu verarbeiten ist. Hierbei kann es sinnvoll sein, die Informationen vor der Konvertierung zu extrahieren und im PDF einzufügen. Dazu folgendes Beispiel: Handelsunternehmen erhalten von ihren Lieferanten Produktbeschreibungen als PDF-Dateien. Sie könnten diese mit Eintragungen in den Metadaten versehen und so klassifizieren. Bei Kundenanfragen lassen sich diese Beschreibungen dann zu individuellen Produktkatalogen zusammenfügen und mit einem Inhaltsverzeichnis versehen.
  • Idealerweise sind die PDF-Dateien „getaggt“. Das heißt, dass nicht nur die Semantik von Textteilen per Unicode definiert ist, sondern auch Überschriften, Absätze, Bildbeschreibungen oder Tabellen als strukturierte Daten, ausgezeichnet („getagt“) sind. Über diese Tags „weiß“ die RPA-Anwendung, wie Textinhalte, vor allem bei mehrspaltigen Layouts, logisch aufgebaut sind, kann Überschriften extrahieren und Bilder dank der Beschreibung zuordnen. Da es sehr aufwendig ist, PDF-Dokumente im Nachhinein mit Tags auszuzeichnen, werden in der Regel KI-Ansätze verwendet, um beispielsweise Formulare bis auf Feldebene korrekt auszulesen. Umso wichtiger ist es, wie unter Punkt eins beschrieben, dass die PDF-Dateien volltextfähig sind.

Fazit:
Unternehmen, die ihre Prozesse so weit wie möglich automatisieren wollen, können und sollten zuvor die Voraussetzungen für reibungslos RPA-basierende Anwendungen schaffen. Hierzu gehört auch ein solides Fundament in Form von möglichst homogenen, normalisierten Daten. Qualitativ hochwertige PDFs als größtes gemeinsames Vielfaches der Office-Formate sind dafür eine gute Basis.

www.callassoftware.com 

 

Cookies erleichtern die Bereitstellung unserer Dienste. Klicken Sie auf OK, wenn Sie mit dem Einsatz von Cookies einverstanden sind.
Weitere Informationen