Originale PDF-Textreihenfolge vergleichen

Diese Filteroption definiert, wie i-net PDFC mit PDF-Dokumenten umgehen wird. i-net PDFC versucht standardmäßig das Layout von Seiten und Dokumenten zu ermitteln, um so die originale Reihenfolge des Inhalts zu ermitteln. Dies ist notwendig, da viele PDF-Generatoren - besonders PDF Drucker - nicht in einer definierten Reihenfolge abspeichern. Die Reihenfolge kann zum Beispiel dadurch bestimmt werden, wann die Objekte in der Design-Application erzeugt wurden.

In manchen Fällen werden die Objekte im PDF jedoch auch genau in der Reihenfolge abgelegt, dass sie dem inhaltlichen Aufbau des Dokuments entsprechen. Ist das für beide Dokumente der Fall, kann diese Reihenfolge dazu verwendet werden, das Vergleichsergebnis zu optimieren.

Beispiel

Die Layout-Ermittlung von i-net PDFC und die entsprechenden Filter sind für die meisten seitenorientierten Dokumente hinreichend. Falls das Layout jedoch nicht eindeutig interpretierbar ist, kann es zu Fehlern kommen. Als Beispiel:

Dieser Text besteht aus einem einfachen Paragraphen im Blocksatz und einem Textrahmen. In diesem Fall kann i-net PDFC jedoch die Trennung zwischen beiden sowie die Verankerung nicht ermitteln. Der komplette Text würde zeilenweise verglichen werden.

Die meisten Textverarbeitungen exportieren jedoch erst den Paragraph und anschließend den Textrahmen:

Wenn das der Fall ist, kann diese Information verwendet werden, um die Vergleich zu unterstützen. Es würde dann erst der Text des roten Bereichs verglichen und anschließend der des blauen. Damit ist die beabsichtigte Reihenfolge wiederhergestellt.

Beschränkungen

Diese Option beeinflusst das Verhalten von Filtern, die zur Layouterkennung verwendet werden, wie zum Beipsiel für Tabellen oder Mehrspaltigkeit. Das Ergebnis der Filter kann vom erwarteten Verhalten abweichen.

PDF-Strukturdaten vergleichen

Mit dieser Option wird die logische Struktur der PDF Dokumente als Basis für die Reihenfolge des Vergleichs verwendet. Diese Struktur wird zum Beispiel für die Lesereihenfolge in barrierefreien PDFs verwendet und ist daher - wenn verfügbar - die optimale Gruppierung des Inhalts.

Da diese Struktur jedoch optional ist und speziell pro Dokument erzeugt werden muss, ist sie meist nicht vorhanden. In diesem Fall hat die Option "PDF-Strukturdaten vergleichen" keine Auswirkungen auf den Vergleich. Geprüft werden kann das Vorhandensein der Struktur durch die Aktivierung der Sichtbarkeit des Filters, welcher alle erkannten Tabellen, Zeichnungen und Paragraphen markiert.