Zum Hauptinhalt springen

Dokumente vereinzeln

Was du nach diesem Kapitel kannst: Du verstehst, warum ein Workflow Dokumente einzeln verarbeiten muss und wie der JSON Split Agent eine Liste von Dokumenten in einzelne Nachrichten aufteilt — damit du Kategorisierung, Extraktion und Speicherung auf jedes Dokument einzeln anwenden kannst.


1. Das Problem: Mehrere Dokumente auf einmal

In den bisherigen Kapiteln hast du gelernt, wie man ein einzelnes Dokument kategorisiert, Daten daraus extrahiert und in der Datenbank speichert. In den Übungen hast du dafür den Web Form Agent genutzt, über den immer genau ein Dokument hochgeladen wird.

In der Praxis sieht es aber oft anders aus. Dokumente kommen selten einzeln an:

  • E-Mails können mehrere Anhänge enthalten — eine Rechnung, einen Lieferschein und dazu ein Logo aus der Signatur
  • Netzlaufwerke enthalten ganze Ordner voller Dateien, die auf einmal verarbeitet werden sollen
  • Schnittstellen zu anderen Systemen liefern mehrere Datensätze in einer Antwort

Alle Verarbeitungsschritte die du bisher kennengelernt hast — Kategorisierung, Extraktion, Speicherung — arbeiten mit einem einzelnen Dokument. Wenn eine Nachricht mehrere Dokumente enthält, muss der Workflow sie erst vereinzeln, bevor er jedes einzeln verarbeiten kann.


2. Wie das aussieht: Mehrere Dokumente in einer Nachricht

Stell dir vor, ein Workflow empfängt eine Nachricht die drei Dateien enthält. In der Nachricht sieht das vereinfacht so aus:

{
"quelle": "eingangsordner",
"dateien": [
{ "filename": "rechnung_042.pdf", "file_path": "/dokumente/rechnung_042.pdf" },
{ "filename": "lieferschein_042.pdf", "file_path": "/dokumente/lieferschein_042.pdf" },
{ "filename": "logo.png", "file_path": "/dokumente/logo.png" }
]
}

Alle drei Dateien stecken in einer einzigen Nachricht. Die Kategorisierung, die du im ersten Kapitel kennengelernt hast, kann aber immer nur ein Dokument auf einmal verarbeiten.


3. Die Lösung: Der JSON Split Agent

Der JSON Split Agent löst genau dieses Problem. Er nimmt eine Liste innerhalb einer Nachricht und erzeugt daraus eine eigene Nachricht pro Listeneintrag. Jede dieser Nachrichten durchläuft dann den Rest des Workflows einzeln.

Du konfigurierst den JSON Split Agent, indem du ihm sagst, welches Feld die Liste enthält — in unserem Beispiel dateien. Der Agent erzeugt dann drei separate Nachrichten:

Eingehende Nachricht (1 Nachricht mit 3 Dateien)

[JSON Split Agent] → splittet auf "dateien"

Nachricht 1: { "filename": "rechnung_042.pdf", "file_path": "/dokumente/rechnung_042.pdf" }
Nachricht 2: { "filename": "lieferschein_042.pdf", "file_path": "/dokumente/lieferschein_042.pdf" }
Nachricht 3: { "filename": "logo.png", "file_path": "/dokumente/logo.png" }

Ab diesem Punkt verarbeitet der Workflow jedes Dokument einzeln — und jeder nachfolgende Agent sieht immer nur ein Dokument. Die Kategorisierung, die Extraktion und die Speicherung funktionieren exakt so, wie du sie bereits kennst. Der JSON Split Agent sorgt nur dafür, dass sie für jedes Dokument einzeln durchlaufen werden.

📸 Screenshot: [Platzhalter — JSON Split Agent Konfiguration: Feld "dateien" als Split-Pfad]


4. Das Gesamtbild: Vom Dokumenteneingang bis zur Datenbank

Mit dem JSON Split Agent kannst du jetzt alle Bausteine aus den bisherigen Kapiteln zu einem vollständigen Workflow kombinieren:

[Dokumente empfangen]

[JSON Split Agent] → vereinzelt die Dateien

[Switch Agent — Dateiendung] → filtert irrelevante Formate heraus
├── .png / .jpg → ignorieren (z. B. eingebettete Bilder)
└── Alles andere → weiter zur Verarbeitung

[Read File Agent] → liest Dateiinhalt

[Generative AI Agent] → kategorisiert oder extrahiert Daten

[Internal Storage Agent] → speichert Ergebnis in der Datenbank

Jeder dieser Schritte funktioniert genau so, wie du ihn in den vorangegangenen Kapiteln gelernt hast. Der JSON Split Agent am Anfang sorgt nur dafür, dass der gesamte Ablauf pro Dokument einmal durchlaufen wird.


5. Wann brauchst du den JSON Split Agent?

Nicht immer. Wenn dein Workflow Dokumente einzeln empfängt — zum Beispiel über ein Web-Formular — ist kein Split nötig. Der JSON Split Agent wird dann relevant, wenn die Quelle mehrere Dokumente auf einmal liefert:

  • E-Mail-Anhänge — eine E-Mail kann beliebig viele Anhänge enthalten
  • Netzlaufwerke — ein Ordner-Scan liefert eine Liste aller gefundenen Dateien
  • Schnittstellen zu anderen Systemen — ein externer Dienst liefert mehrere Datensätze in einer Antwort

💡 Der JSON Split Agent verändert die Daten nicht — er verteilt sie nur. Jede erzeugte Nachricht enthält exakt die Informationen des jeweiligen Listeneintrags.


6. Zusammenfassung

SituationWas tun
Ein Dokument pro Nachricht (z. B. Web-Formular)Kein Split nötig — direkt kategorisieren, extrahieren, speichern
Mehrere Dokumente in einer Nachricht (z. B. E-Mail-Anhänge, Ordner-Scan)JSON Split Agent am Anfang einsetzen, dann wie gewohnt verarbeiten