Vergleichsprofile
Vergleichsprofile für PDFC enthalten Parameter und Einstellungen für den Vergleich von Dokumenten. Verschiedene Vergleichsprofile können zu stark unterschiedlichen Ergebnissen beim Vergleich führen. Daher kann es notwendig sein, diese für bestimmte Szenarien anzupassen bzw. zu optimieren.
Verwalten von Vergleichsprofilen
In der Fußleiste des Vergleichsprofil-Fensters haben Sie die Möglichkeit Profile zu verwalten. Dort kann das aktuell geöffnete Vergleichsprofil dupliziert, exportiert, veröffentlicht und gelöscht werden. Zusätzlich können Einstellungen eines Vergleichsprofiles importiert werden.
Hinweis: Auf diese Weise können beispielsweise Vergleichsprofile aus der i-net PDFC GUI exportiert und in den Server importiert werden. Dies funktioniert auch in die andere Richtung. Exportierte Vergleichsprofile können außerhalb der Anwendung bearbeitet werden, wenn z.B. Einstellungen benötigt werden, die sich nicht mit der Konfigurationsoberfläche einstellen lassen. Das können Kopf- und Fußzeilen sein, die über 100 Pixel hoch sind. Die möglichen Eigenschaften sind in den jeweiligen Tabellen zu finden.
Standardprofile und Freigaben
Die von i-net PDFC mitgelieferte Vergleichsprofile können in der Konfiguration unter Vergleich>Profile aktiviert bzw. deaktiviert werden.
Jeder Nutzer mit administrativen Rechten oder dem Recht "Benutzer und Gruppen verwalten" kann eigene Profile für alle Nutzer oder auch nur bestimmte Nutzer oder Gruppen freigeben. Freigegebene Profile erscheinen bei anderen Nutzern in der Liste der Standardprofile. Ob ein Profil freigegeben wurde, wird ebenso in dieser Liste angezeigt. Einzig für alle freigegebene Profile erscheinen für normale Nutzer ohne diese Markierung. Damit kann diese Art der Freigabe verwendet werden, um weitere Standardprofile für alle Nutzer zu erzeugen.
Die Freigabe eines Profils kann jederzeit durch einen Administrator oder einen Nutzer mit dem Recht "Benutzer und Gruppen verwalten geändert oder zurückgezogen werden. Verändert werden kann ein solches Profil allerdings nur vom Eigentümer oder einem Administrator.
Um ein freigegebenes oder ein Standardprofil zu ändern, muss mittels "Duplizieren" eine eigene Kopie davon erstellt werden.
Import und Export von Profilen
Jedes Profil kann als Datei im XML-Format heruntergeladen werden mittels der Aktion "Export". Diese Dateien können mit jeder Variante von i-net PDFC verwendet werden - also z.B. mit der Desktopanwendung, dem Kommandzeilen-Tool oder den verschiedenen APIs.
Um eine Profil im XML-Form zu importieren muss zuerst eine schreibbares Profil mit der Aktion "Duplizieren" erzeugt werden. Anschließend kann die Aktion "Importieren" verwendet werden. Alternativ kann die XML-Datei auch mittels Drag & Drop importiert werden.
Der Import ersetzt alle Einstellungen des aktuellen Profils durch die Einstellungen der XML-Datei.
Profiloptionen
Ein Profil beinhaltet Einstellungen für den Vergleichsmodus, die zu vergleichenden Elementtypen sowie zu verwendende Filter. Jeder Filter ober Typ kann noch eigene Optionen zum Fein-Tuning zur Verfügung stellen.
Vergleichsmodus
| Standard | Stenger Modus |
|---|---|
| Erkennt gleiche Elemente, auch wenn Einfügungen oder Entfernungen den Umbruch des Inhalts verändern. | Die Inhalte beider Dokumente müssen sich auf der jeweils gleichen Seite and ähnlicher Position befinden, um als gleich erkannt zu werden. Ergibt sich eine Verschiebung durch z.B. einen neuen Paragraphen, wird aller nachfolgender Inhalt als Unterschied markiert. |
| Das Augenmerk liegt hier auf dem fortlaufenden Text- und Inhaltsfluss. Das Layout wird als automatisch generiert und fließen angenommen. | Legt den Schwerpunkt auf die Ähnlichkeit des Gesamtbildes und ist daher auch zwingend seitenbezogen |
Filter und Optimierungen
Diese Filter können die Erkennung von Unterschieden verbessern oder ungewollte Falsch-Erkennung vermindern.
Unterschiede zusammenfassen
Große Textersetzungen können dazu führen, dass häufig vorkommende Wörter als gleich markiert werden, obwohl der Kontext unterschiedlich ist. Um diese Falsch-Negativen zu reduzieren, kann die Option "Große Textunterschiede zusammenfassen" verwendet werden.
Bereich ausschließen für den Vergleich
Mit diesem Filter können wiederholende Bereich(e) herausgefiltert werden. Die zu vergleichenden Bereich(e) werden durch Semikolon getrennt angegeben. Ist kein Wert angegeben, werden keine Elemente gefiltert. Alle Elemente die komplette innerhalb des Bereiches liegen, werden herausgefiltert.
Ein Bereich ist durch 4 Ganzzahlwerte definiert. (x, y, breite, höhe) Jeder Wert wird durch ein Komma getrennt. Leere Werte sind gleichbedeutend mit 0. Jeder Wert wird in px angegeben. Mit dem optionalen Werten ist es möglich, die Seitennummer sowie das Dokument anzugeben für die der Filter gilt. Mögliche Werte für Seitennummer sind 1- max. Dokumentseiten. Ist für die Seitennummer kein Wert angegeben, wird der Bereich auf allen Seiten ignoriert. Mögliche Werte für Seitennummer sind 'F' für erstes Dokument oder 'S' für das zweite Dokument. Ist für das Dokument kein Wert angeben, gilt es für beide Dokumente
Beispiele:
-
0,0,100,100
-
,,100,100
-
5,5,10,10;50,10,50,50 (zwei Bereiche)
-
0,0,100,100,1 (Bereich gilt nur für die erste Seite)
-
50,50,100,100,F (Bereich gilt für alle Seiten des ersten Dokuments)
-
100,10,200,200,3,S (Bereich gilt für die 3.Seite des zweiten Dokuments)
Seiten für den Vergleich
Dieser Filter ermöglicht es, Seiten und Seitenbereiche auszuwählen, die verglichen werden sollen. Mehrere Seiten können mit Hilfe einer durch Komma getrennten Liste ausgewählt werden. Wenn kein Wert angegeben ist, werden alle Seiten für den Vergleich verwendet.
Der Filter kann mit Hilfe der Felder "Vergleichsbereich Dokument 1" und "Vergleichsbereich Dokument 2" auf jedes Dokument angewendet werden.
Um Seiten vom Ende des Dokuments aus zu filtern, gibt es zwei zusätzliche Felder "Letzte Seite(n) Filter Dokument 1" und "Letzte Seite(n) Filter Dokument 2". Auch hier können mehrere Seiten und Bereiche ausgewählt werden. Es werden positive Zahlen verwendet, beginnend mit 1 als letzte Seite. Ein Wert von 0 (Voreinstellung) bedeutet: keine Filterung.
Beispiele für die Definition von Seiten und Seitenbereichen:
-
1 -
1-4 -
4-7,11-32 -
1,5,7-21
Optimierung einfacher Tabellen
Dieser Filter kann verwendet werden, um das Ergebnis für Tabellen mit sichtbaren Rändern zu optimieren. Für erkannte Tabellen wird damit der Inhalt so aufbereitet, dass die Tabelle zellenweise verglichen werden kann.
Voraussetzungen: Der Filter kann eine Tabelle nur erkennen, wenn
-
die Tabelle einen sichtbaren Rand besitzt
-
jede Zelle einen sichtbaren Rand besitzt
-
es keinen Abstand zwischen den Zellen gibt (kein Cell-Spacing)
-
die Tabelle mindestens zwei Zeilen und Spalten besitzt
Wiederholte Kopfzeilen filtern
Falls eine Tabelle nicht vollständig auf einer Seite Platz findet wird beim Umbruch meist der Tabellenkopf wiederholt. i-net PDFC markiert solch einen Tabellenkopf oft als Unterschied, da er nicht zum Inhalt der Tabelle passt. Mit dem Aktivieren dieser Filteroption wird der Filter sämtliche Tabellekopfzeilen vom Vergleich ausnehmen, die identisch zum Kopf der letzten Tabelle auf der vorhergehenden Seite sind.
Eigenschaft
| Name | Beschreibung |
|---|---|
Wiederholte Kopfzeilen filtern |
Aktiviert oder deaktiviert das Herausfiltern wiederholter Kopfzeilen. Der Standardwert ist deaktiviert |
Mehrspaltiges Layout
Dieser Filter sollte verwendet werden, wenn der Inhalt in mehreren Spalten angeordnet ist. Ein typisches Beispiel ist das Layout von Tageszeitungen.
Hinweis: Der Filter ist für Tabellen nicht geeignet.
Eigenschaft
| Name | Beschreibung |
|---|---|
Mehrspaltiges Layout |
Optimiert die Texterkennung für ein mehrspaltiges Layout. Der Standardwert ist false |
Kopf- und Fußzeilen
Dieser Filter kann verwendet werden, um Kopf- und Fußzeilen vom Vergleich auszuschließen, die zur Reduzierung von sich wiederholenden Unterschieden führen. Die automatische Erkennung ist nur im nicht strengen Modus möglich. Es stehen drei Optionen zur Verfügung.
-
Nicht erkennen Kopf- und Fußzeilen werden nicht erkannt
-
Automatisch erkennen Kopf- und Fußzeilen werden von i-net PDFC automatisch erkannt und behandelt
-
Manuell einstellen Kopf- und Fußzeilen lassen sich Pixel genau einstellen, falls die Bereiche nicht automatisch erkannt werden konnten.
Eigenschaft
| Name | Beschreibung |
|---|---|
Kopfzeilengröße |
Gibt die Größe der Kopfzeile in Pixeln an. Setzen Sie den Wert auf -1 zum automatischen Erkennen der Kopfzeile. Der Standardwert ist -1 |
Fußzeilengröße |
Gibt die Größe der Fußzeile in Pixeln an. Setzen Sie den Wert auf -1 zum automatischen Erkennen der Fußzeile. Der Standardwert ist -1 |
Inhalt gruppieren
PDFC Standard
Mit dieser Option wird das Layout von PDF-Dokumenten von i-net PDFC selbst ermittelt. Alle konfiguruerten Layout-Filter werden dabei angewendet.
Originale PDF-Textreihenfolge vergleichen
Mit dieser Option wird der Inhalt des PDFs in der Reihenfolge verglichen, wie er ins PDF Dokument geschrieben wurde. Dieser Ansatz geht davon aus, dass die Reihenfolge im PDF auch der Lesereihenfolge entspricht.
PDF-Strukturdaten verwenden
Diese Option priorisiert die optionalen Strukturdaten im PDF als Layout. Diese Strukturdaten beinhalten in der Regel den Aufbau von Paragraphen, Tabellen oder Abbildungen im Dokument. Falls die Daten vorhanden und exakt sind, kann damit das Vergleichsergebnis verbessert werden. Sollten keine Strukturdaten vorhanden sein, wird ersatzweise die originale PDF-Textreihenfolge verwendet.
Weitere Details und Beispiele finden Sie in der Hilfe zum PDF Parser.
CMAP Deaktivieren
Mit dieser Option wird der PDF-Parser die Zuordnung von Zeichennummern zu lesbarem Text aufheben. Dies löst oft Probleme mit absichtlich verschleierten PDF-Dateien, die von vornherein keine solche Zuordnung haben. Der Nachteil ist, dass die Lesbarkeit der Unterschiede dadurch schwieriger werden kann und nicht funktioniert, wenn die CMAPs der beiden Dokumente unterschiedlich ist. Es handelt sich also nicht um eine allgemeine Lösung, aber sie funktioniert oft für PDFs, die von derselben Anwendung erzeugt wurden.
Kombiniert werden kann diese Option zudem mit dem Filter Plugin "Textrekonstruktion per OCR". Dieser Filter verwendet eine optische Erkennung zur Wiederherstellung des lesbaren Textes. Standardmäßig wird diese Erkennung nur für Schriftarten durchgeführt, die keine Zeichenzuordnungstabelle besitzen. Mit der Option "CMAP deaktivieren" wird die Erkennung jedoch für alle Schriftarten im Dokument ausgeführt.
Inhalte herausfiltern
Es können Muster für den Inhaltsfilter angegeben werden. Es gibt zwei Arten von Filtern: Plain-Text-Filter und Reguläre Ausdrücke. Diese Muster können bei Bedarf deaktiviert werden, ohne sie aus der Konfiguration zu löschen.
Eigenschaft
| Name | Beschreibung |
|---|---|
Ganze Wörter filtern |
Gibt an, ob bei einem Muster-Treffer das komplette Wort herausgefiltert wird, oder nur die Buchstaben, welche vom Muster beschrieben werden. Standardeinstellung ist das Filtern ganzer Wörter |
Inhalte herausfiltern |
Definiert eine Liste von Mustern, z.B. <Muster oder Zeichenfolge>|(regexp|text)|(active|inactive) |
Texterkennung (OCR)
Dieser Filter nutzt das Texterkennungs-Plugin, um Text aus Bildern und Zeichnungen zu extrahieren. Voraussetzung hierfür sind ein aktiviertes OCR-Plugin und die benötigten Sprachdateien. Details hierzu finden Sie beim OCR-Plugin.
Fehlertoleranz
Computergestützte Texterkennung ist meist nicht völlig Fehlerfrei. Diese Fehler entstehen zum Beispiel durch zu kleine Schriftgrößen, ungerade gescannte Seiten, Hintergrundrauschen durch Bilder oder mehrdeutige Zeichen. Um diesem Problem zu begegnen kann die Fehlertoleranz für den Vergleich festgelegt werden.
-
Keine - vergleicht alle Zeichen wie sie erkannt wurde (nicht empfohlen)
-
Ähnliche Zeichen - toleriert Fehler bei Zeichen, die gleich aussehen. Ein Beispiel hierfür sind das lateinische 'a' und das russische 'а'. Ein vollständige Liste dieser Zeichen finden Sie hier http://www.unicode.org/reports/tr36/confusables.txt
-
Typische Erkennungsfehler - toleriert Fehler bei Zeichen die auf verrauschtem Hintergrund ähnlich aussehen. Diese Toleranz basiert auf Erfahrungen und Tests, da es hierfür keine öffentliche Empfehlung gibt. Ein Beispiel sind das deutsche Eszett 'ß' und das große 'B'.
-
Typische Erkennungsfehler in verzerrtem Text - identisch zu 'Typische Erkennungsfehler' allerdings mit Erweiterungen für leicht rotierten oder verzerrten Text. Solche Verzerrungen treten häufig beim Einscannen von Dokumenten auf.
Textrekonstruktion
In PDF Dateien kann es vorkommen, dass keine Zuordnungstabelle von sichtbaren Zeichen auf maschinenlesbare vorhanden ist. Teilweise wird dies auch bewusst genutzt, damit Dokumente nicht von Suchmaschinen indiziert werden können. Das Problem ist daran zu erkennen, dass i-net PDFC im Vergleich scheinbar korrupte Texte vergleicht obwohl die Dokumente korrekt dargestellt werden. Zudem führt das Kopieren aus solchen Dokumenten - auch mit anderen PDF Anwendungen - zu korrupten Texten.
Als Lösung verwendet dieses Plugin Texterkennung, um die Zuordnungstabelle selbst zu ermitteln. Die Genauigkeit der Erkennung hängt dabei von der Menge an Text ab - je mehr Text, desto exakter die Zuordnung.
Vergleichstypen
Textvergleich
Der Textvergleich vergleicht alle Textelemente wie Wörter, Zahlen, Satzzeichen und Listenelemente. Diese Elemente werden anhand der Regeln der aktuellen Systemsprache ermittelt. Verglichen werden damit immer ganze Elemente, nicht einzelne Zeichen. Das ist notwendig, da eine minimale Änderung an einem Textelement ein simpler Schreibfehler sein kann, aber auch den Sinn des Textes radikal ändern kann. i-net PDFC nimmt daher keine Gewichtung vor und markiert immer das ganze Wort.
i-net PDFC vergleicht Text immer in der natürlichen Leserichtung. Damit können Abweichungen von den Vorgaben des Dokuments entstehen. Diese Abweichungen sind jedoch beabsichtigt, da einige Generatoren - besonders bei PDF-Dokumenten - eine falsche oder zufällige Reihenfolge vorgeben.
Abweichungstoleranz für Texte
Die Abweichungstoleranz für Text legt den maximal zulässigen Y-Jitter für die Textzeilenidentifikation fest. Sie ist relativ zur Texthöhe der jeweiligen Zeile. Dieser Wert kann verwendet werden, um Rundungsfehler verschiedener PDF-Generatoren zu kompensieren.
Der Wert wird nur im strikten Vergleichsmodus angewandt.
Groß- und Kleinschreibung beachten
Ein Setzen dieser Eigenschaft auf false bewirkt, dass der Vergleich ohne Berücksichtigung der Groß- Kleinschreibung erfolgt. Dies führt zu einem langsameren Vergleich sowie höherem Speicherverbrauch, da jeglicher Text zunächst umgewandelt wird.
Der Standardwert ist true.
Schriftgröße prüfen
Stellt sicher, dass die Schriftgröße in beiden Dokumenten identisch ist.
Textfarbe prüfen
Stellt sicher, dass die Textfarbe in beiden Dokumenten identisch ist.
Schriftart vergleichen
Stellt sicher, dass die Schriftart in beiden Dokumenten identisch ist.
Schriftstile vergleichen
Stellt sicher, dass der Schriftstil in beiden Dokumenten identisch ist.
Nicht-semantische Leerzeichen prüfen
Vergleicht Leerzeichen und Umbrüche, die keine semantische Relevanz haben. Einfache Beispiele sind ein gelöschtes Leerzeichen zwischen einem Wort und dem folgenden Komma. Damit wird der Inhalt stilistische geändert, an der Aussage des Wortes ändert sich jedoch nichts. Der Angezeigte Unterschied wird daher auch der Kategorie " Formatierung geändert" zugeordnet.
Sprache
Wenn Sie einen optischen Zeichenerkennungsfilter wie "Text extrahieren" verwenden möchten, muss i-net PDFC die Sprache des Dokuments kennen. Wenn das Plugin "Sprachanalyse" verfügbar ist, können Sie "Automatisch erkennen" wählen, damit der Analyzer die Sprache automatisch erkennt. Gibt es jedoch kein solches Plugin oder sind keine muttersprachlichen Textelemente im Dokument vorhanden, müssen Sie die Sprache explizit festlegen. Wenn die ausgewählte oder erkannte Sprache nicht mit der Sprache des Dokuments übereinstimmt, ist die Texterkennungsrate sehr schlecht.
Wenn die Sprache des Dokuments in der Auswahl fehlt, installieren Sie diese Sprache bitte manuell. Weitere Details finden Sie auf der OCR Hilfeseite.
Rotierten Text ignorieren
Eigenschaft
Schließt rotierten Text vom Vergleich aus. Diese Einstellung eignet sich vor allem für Wasserzeichen und Druckmarkierungen.
| Name | Beschreibung |
|---|---|
Rotierten Text ignorieren |
Schließt rotierten Text vom Vergleich aus. Der Standardwert ist true |
Komplexe Zeichen vereinfachen
Aktivieren, um komplexe Zeichen wie Ligaturen oder spezielle Satzzeichen auf den Basiszeichensatz zu vereinfachen. Ein Komplexes Zeichen ist beispielsweise die "fi"-Ligatur, welche inhaltlich identisch zu "fi" ist. Ohne diesen Filter wird der Vergleich jedoch unterschiedliche Zeichen erkennen.
Texterkennungsfehler korrigieren
Aktivieren, um typische Fehlerkennungen durch OCR-Software zu kompensieren. Ein Beispiel für eine Ungenauigkeit bei Texterkennung ist die Verwechslung des Buchstaben "m" mit der Silbe "rn", welche je nach Druckqualität und Schriftart nahezu identisch aussehen. Der Filter korrigiert dies, indem gleich aussehende Zeichen oder Silben auch als gleich erkannt werden.
Unsichtbare Elemente ignorieren
Wenn dieser Filter aktiviert ist, werden für das menschliche Auge nicht sichtbare Elemente, wie weiße oder transparente Linien, nicht verglichen.
Eigenschaft
| Name | Beschreibung |
|---|---|
Unsichtbare Elemente ignorieren |
Potenziell nicht sichtbare Elemente, wie weiße oder transparente Linien, werden nicht verglichen. Der Standardwert ist true |
Linienvergleich
Der Linienvergleich enthält alle grafischen Elemente in einem Dokument außer Bildern. i-net PDFC zerlegt für den Vergleich als Normalisierung intern zuerst alle Zeichnungen in einzelne Linien und Kurven. Die Toleranzwerte gelten damit für jede einzelne dieser Linien und Kurven.
Abweichungstoleranz für Linien
Die Abweichungstoleranz kann mittels Slider zwischen Wenig und Viel eingestellt werden. Beeinflusst werden die Toleranzen für Farbe, Größe und Position (nur strenger Modus).
Bildvergleich
Der Bildvergleich vergleicht alle Bilder innerhalb des Dokuments entsprechend ihrer visuellen Erscheinung. Der Vergleich kann konfiguriert werden, um Farb- und Größenunterschiede zu tolerieren. Überlappende oder verbundene Bilder werden beim Vergleich jeweils als ein Bild betrachtet.
Abweichungstoleranz für Bilder
Die Abweichungstoleranz kann mittels Slider zwischen Wenig und Viel eingestellt werden. Beeinflusst werden die Toleranzen für Farbe, Größe und Position (nur strenger Modus).
| Eigenschaft | Beschreibung |
|---|---|
Bildmetadaten vergleichen |
Diese Eigenschaft vergleicht die Metadaten eines Bildes, sofern sie gelesen werden können. Zu den Bild-Metadaten gehören die DPI, das Bildformat (JPG, PNG usw.), das Farbmodell (RGB, Schwarz/Weiß, CMYK) und ob eine Alphamaske vorhanden ist. |
Detailvergleich |
Diese Einstellung vergleich die Bilder Blockweise und wenn der Unterschied der Bilder unter 50% liegt, werden die Unterschiedliche Bereich markiert. Diese Option benötigt einen erhöhten Speicherverbrauch. Standardmäßig ist diese Option deaktiviert. |
Kommentierungen
Kommentierungen - vor allem in PDF Dokumenten - sind ein optionaler Inhalt, der meist nicht zum eigentlichen Inhalt gehören. Sie werden daher standardmäßig nicht verglichen. Mit dieser Option können Sie Kommentierungen jedoch ebenfalls vergleichen lassen.
| Eigenschaft | Beschreibung |
|---|---|
Detailvergleich |
Unterschiede werden pro Kommentierung in eine einzige Markierung zusammengefasst. Mit dem Aktivieren dieser Option wird jeder einzelne Unterschied im Kommentierungen separat markiert und gezählt. |
Alternativtext vergleichen |
Ermittelt Unterschiede im Alternativtext von Elementen. Alternativtext wird meist im Kontext von barrierefreien Dokumenten wie PDF/UA verwendet. Diese Option ist unabhängig von Kommentierungen |
