KI-Bilderkennung: Daten aus Bilddateien lesen und in e! extrahieren
Lerne, wie du die Bilderkennung in e! aktivierst, um Daten aus Bilddateien, gescannten Dokumenten und Fotos per KI zu extrahieren.
Bilderkennungsfunktion (File Upload Node)
Heute freuen wir uns, dir die Funktion „Recognize Image“ im File Upload Node auf unserer „e!“-Automatisierungsplattform vorzustellen. Lass uns gemeinsam herausfinden, wie dieses coole neue Tool funktioniert.
Zuerst einmal verarbeitet der File Upload Node zwei Arten von Dateien. Eine Art sind Textdateien wie Word-Dokumente, CSVs oder PDFs, die bereits für die Texterkennung (OCR) verarbeitet wurden. Aus diesen Dateien kannst du ganz einfach Text kopieren.
Auf der anderen Seite gibt es Dateien, die eher bildbasiert sind. Das können PDFs sein, die als Bilder gespeichert wurden, oder Dokumente mit Stempeln und handschriftlichen Notizen, bei denen du Text nicht so leicht auswählen kannst.
Genau hier kommt die Funktion „Recognize Image“ ins Spiel. Sie geht über die übliche Texterkennung hinaus. Anstatt nur nach Wörtern zu suchen, analysiert sie das gesamte Bild und gibt dir Informationen basierend auf dem, wonach du fragst. Je besser du beschreibst, was du wissen möchtest, desto bessere Antworten erhältst du von der KI.
Schauen wir uns nun an, wie du das in den Bots der „e!“-Plattform nutzen kannst:
Schritt 1: Füge den File Upload Node hinzu
Füge einen File Upload Node in deinem Bot über das „+“-Menü hinzu.

Schritt 2: Dateityp-Beschränkungen festlegen (optional)
Nachdem du den Feldnamen des File Upload Nodes für die interne Referenz geändert hast (beachte, dass dieser Feldname für den Benutzer im Frontend nicht sichtbar ist), wähle aus, ob du nur bestimmte Dateitypen zulassen möchtest oder ob es keine Beschränkungen für Dateitypen geben soll. (In diesem Tutorial erlauben wir alle Dateitypen).


Schritt 3: Verknüpfe die Datei mit einem AI Output Node
Um hochgeladene Dokumente in einem AI Output Node zu verwenden, musst du den Schalter „Use in AI Output“ aktivieren. Wähle aus dem Dropdown-Menü „Create or modify AI Settings“, um das Modal für die KI-Einstellungen zu öffnen. Gib im Modal zuerst den Namen ein, wähle dann den Anbieter, danach das KI-Modell – am wichtigsten ist die Auswahl von GPT4Turbo-Vision für die OCR-Lesefähigkeit des Bots – und schließlich den API Key. Sobald dies erledigt ist, klicke auf den „save“-Button und die KI-Einstellung wird erstellt.
Beachte, dass du dieselbe Einstellung im AI Output Node auswählen musst.

Schritt 4: Den Prompt einstellen
Aktiviere „Recognize Image“ und wähle „EDIT PROMPT“. In diesem Beispiel verwenden wir Folgendes als System- und Dynamic Prompt:
System Prompt:
Du bist ein Experte im Extrahieren von Informationen aus Dokumenten. Gib das Stempeldatum an.
Dynamic Prompt:
Zeige das Datum im Format TT/MM/JJJJ an

Schritt 5: AI Output Node einstellen
Um den AI Output Node mit dem File Upload Node zu verbinden:
- Wähle den File Upload Node aus dem Dropdown-Menü im AI Output Node aus.
- Gib einen identischen Prompt ein, um eine konsistente KI-Aktion sicherzustellen.
- Löse die KI über einen speziellen Button aus – unser Beispiel heißt passenderweise „Check Date“ – und wähle bei den Retrigger-Einstellungen „Never“.

Schritt 6: Text Field Node hinzufügen
Um die KI-Ausgabe im Frontend darzustellen, füge einen Text Field Node hinzu, der mit der AI Output Variable verknüpft ist.


Nachdem wir unsere Kreation im Vorschaumodus überprüft haben:
- Teste den File Upload Node mit einem als Bild gespeicherten PDF und beobachte die Upload-Zeiten, die von der Dateigröße abhängen.
- Nutze das Vorschau-Augensymbol, das nur in der Builder-Ansicht verfügbar ist, um den extrahierten Text genau zu prüfen.
