PDF: Das (täuschend) einfache Format
Das Verständnis der internen PDF-Struktur ist entscheidend, um zu verstehen, wie Schwärzungen schiefgehen. Eine PDF-Datei ist kein einfaches flaches Bild – es ist ein mehrschichtiges Dokument, das Text, Bilder, Vektorgrafiken, Anmerkungen, Lesezeichen, Metadaten und mehr enthalten kann, die alle nebeneinander existieren können. Fehler bei der Schwärzung entstehen in der Regel dadurch, dass eine dieser Ebenen oder Komponenten intakt bleibt. Im Folgenden werden häufige Fehlerquellen aufgeschlüsselt:
Überdecken statt Entfernen (visuelle vs. echte Schwärzung)
Der häufigste Fehler bei der Schwärzung besteht darin, ein schwarzes Kästchen oder eine undurchsichtige Markierung über sensiblen Text zu legen, ohne diesen Text tatsächlich aus dem PDF zu löschen. Dies erzeugt eine falsche Schwärzung – der Inhalt sieht verborgen aus, ist aber immer noch in der Datei vorhanden. Da PDF-Viewer Inhalte in Ebenen rendern, kann eine Überlagerungsanmerkung oben sitzen, während die darunter liegende Textebene unberührt bleibt. Ein Angreifer kann einfach den “versteckten” Text auswählen und in ein anderes Dokument kopieren und einfügen, um ihn zu lesen.

Genau so haben Journalisten vertrauliche Details in den Gerichtsakten von Paul Manafort und anderen Fällen aufgedeckt – die Anwälte hatten schwarze Balken über den Text gelegt, aber ein schnelles Kopieren und Einfügen offenbarte alles darunter. Das Abflachen des PDF (Zusammenführen von Ebenen) nach dem Zeichnen schwarzer Kästchen mag wie eine Lösung klingen, kann aber selbst dann unzureichend sein, wenn es den darunter liegenden Text nicht entfernt. In einigen Fällen führt das Abflachen nur dazu, dass die schwarzen Formen in den Seiteninhalt eingefügt werden, aber die ursprünglichen Textdaten bleiben erhalten und können in der zusammengeführten Ebene kopiert werden. Das einzige Heilmittel ist hier die echte Entfernung: Der sensible Text muss aus dem Inhaltsstrom des PDF entfernt werden, nicht nur verborgen.
Versteckte Textebenen (OCR und unsichtbarer Text)
PDFs können versteckten Text enthalten, der für den Leser nicht sichtbar ist, aber für Such- oder Barrierefreiheitszwecke eingebettet ist. Ein häufiges Szenario sind gescannte Dokumente, die mit OCR verarbeitet wurden: Man sieht ein gescanntes Bild einer Seite, aber eine unsichtbare Textebene liegt dahinter, um die Textsuche zu ermöglichen. Wenn man ein solches Dokument schwärzt, indem man ein schwarzes Kästchen auf das Bild des Textes zeichnet, wird das Bild verdeckt – aber der unsichtbare OCR-Text darunter kann immer noch die Wörter enthalten. Sofern der Schwärzungsprozess diese Textebene nicht ebenfalls entfernt oder aktualisiert, können die angeblich geschwärzten Informationen immer noch über die Suche oder das Kopieren extrahiert werden.
Geeignete Schwärzungswerkzeuge sind sich dessen bewusst; sie sollten sowohl sichtbare Inhalte als auch versteckten OCR-Text in diesem Bereich schwärzen. Ein weiteres Beispiel für versteckten Text sind Inhalte, die über PDF-Formularfelder oder Skripte verborgen sind (z. B. ein Formularfeld mit Text, der nicht sichtbar ist). Wenn er nicht bereinigt wird, bleibt dieser Text erhalten. Fazit: Die Schwärzung muss alle Textebenen berücksichtigen. Das Versäumnis, eine OCR-Ebene oder nicht sichtbaren Text zu entfernen, führt zu einem Schwärzungsfehler.
Anmerkungen und Kommentare
PDF-Anmerkungen (Kommentare, Haftnotizen, Markierungen) können versehentlich sensible Daten enthalten. Manchmal versuchen Menschen, eine Schwärzung durchzuführen, indem sie einen Kommentar oder eine Notiz hinzufügen (z. B. “[GESCHWÄRZT]” als Notiz schreiben) oder sie verwenden eine Schwärzungsanmerkungsfunktion, wenden sie aber nie an. Schwärzungsanmerkungen in Tools wie Acrobat sind im Wesentlichen Zeiger, die sagen “entferne diesen Inhalt” – aber bis man sie anwendet, könnten sie selbst den zu entfernenden Text speichern. Wenn sie nicht angewendet werden, könnten diese Anmerkungen extrahiert werden.

Es gab Fälle, in denen die unsachgemäße Verwendung der Acrobat-Schwärzung Metadaten oder “Haftnotizen” an der Stelle zurückließ, an der sich das schwarze Kästchen befand, die immer noch den Text oder einen Verweis darauf enthielten. Darüber hinaus könnten Standard-PDF-Kommentare die sensiblen Informationen erwähnen (z. B. ein Redakteur, der eine Notiz hinterlässt wie “Dieser Absatz erwähnt John Doe, schwärze seinen Namen”). Wenn diese nicht gelöscht werden, kann jemand, der das PDF untersucht, sie finden. Stellen Sie immer sicher, dass jede bei der Schwärzung verwendete Anmerkung abgeflacht und entfernt wird – in Acrobat bedeutet dies, die Schwärzungsoperation zu bestätigen, damit das Tool den Bereich durch ein schwarzes Kästchen ersetzt und den zugrunde liegenden Inhalt und das Anmerkungsmarkup entfernt.
Dokumenten-Metadaten
Metadaten sind Daten über das Dokument (oder Elemente darin), die nicht im Hauptinhalt angezeigt werden. PDF-Metadaten können den Autor des Dokuments, Titel, Betreff, Schlüsselwörter, Erstellungs- und Bearbeitungsdaten, die verwendete Software und mehr enthalten. Entscheidend ist, dass Metadatenfelder versehentlich sensible Informationen enthalten können – beispielsweise könnte das Feld “Titel” eine kopierte Zeile eines internen Memos sein, das einen Namen oder eine Aktennummer enthält, oder Bild-XMP-Metadaten könnten eine Bildunterschrift oder eine Notiz des Fotografen enthalten, die nicht öffentlich sein sollte.
Selbst wenn Sie sichtbaren Text perfekt schwärzen, könnten Sie Informationen preisgeben, wenn Sie vergessen, Metadaten zu löschen. Suchmaschinen und PDF-Tools können diese Informationen leicht lesen. Schlimmer noch, PDFs können zuvor gelöschte Inhalte oder Revisionshistorien in Metadatenströmen oder als Teil eingebetteter Objektdaten speichern. Es gab Fälle, in denen “gelöschter” Text aus einem früheren Entwurf noch in den Metadaten der Datei oder in der inkrementellen Aktualisierungshistorie eingebettet war.
Wenn ein Angreifer die Metadaten des PDF untersucht (mit einem Tool wie ExifTool oder sogar Adobes Dialog “Dokumenteigenschaften”), könnte er Namen, Dokument-IDs oder versteckten Text entdecken, der hätte geschwärzt werden sollen. Daher ist das Versäumnis, Metadaten zu bereinigen, ein häufiger Schwärzungsfehler. Die Abhilfe besteht darin, nach der Schwärzung eine Bereinigungs- oder “versteckte Informationen entfernen”-Funktion für das PDF zu verwenden, die Metadaten und andere nicht sichtbare Daten bereinigt.
Lesezeichen, Links und Verweise
PDF-Lesezeichen (das navigierende Inhaltsverzeichnis, das oft in einer Seitenleiste angezeigt wird) und Hyperlinks können ebenfalls Inhalte enthalten, die im Haupttext möglicherweise nicht offensichtlich sichtbar sind. Ein berühmtes Beispiel ereignete sich bei einem öffentlich veröffentlichten Vertrag zwischen der EU und AstraZeneca: Das Dokument war im Hauptteil ordnungsgemäß geschwärzt, aber die Lesezeichen des PDF (die Abschnittstitel auflisteten) enthielten immer noch die geschwärzten Begriffe – in diesem Fall war eine finanzielle Zahl, die auf den Seiten verdeckt worden war, im Titel eines Lesezeichens deutlich sichtbar. Diese Übersicht bedeutete, dass jeder auf die Lesezeichen klicken oder sie untersuchen konnte, um die “versteckte” Zahl zu sehen.
Hyperlinks sind ein weiteres Risiko: Ein Hyperlink hat zwei Teile – den Text, den Sie sehen, und die darunter verborgene URL oder das Ziel. Wenn der sichtbare Text eines Hyperlinks geschwärzt wird, seine URL aber immer noch sensible Informationen enthält (z. B. eine URL mit dem Namen einer Person oder einer Kontonummer), bleiben diese Informationen in der Datei. Oder ein Link könnte zu einem Dateipfad auf einem lokalen Laufwerk führen, der den Namen einer Person oder einen Projektcode offenbart. Schwärzungsprozesse müssen dies berücksichtigen, indem sie entweder Lesezeichen und Hyperlinks entfernen oder aktualisieren, die auf entfernte Inhalte verweisen. Wenn nicht, werden Angreifer diese Abschnitte des PDF auf verräterischen Text überprüfen.
Eingebettete Dateien und Bilder
PDFs können Anhänge oder Dateien einbetten (wie eine Excel-Tabelle oder eine Textdatei, die im PDF enthalten ist) und können Bilder enthalten, die ihre eigenen Metadaten haben. Wenn Sie einfach die Seiten des PDF schwärzen, aber eingebettete Anhänge nicht entfernen, überreichen Sie einem Angreifer möglicherweise die Rohdaten auf einem Silbertablett. Angenommen, ein PDF hat eine eingebettete Excel-Datei als Referenz, und Sie haben eine Tabelle im PDF verdeckt. Wenn die Excel-Datei noch angehängt ist und die vollständigen Daten enthält, wird die Schwärzung durch einfaches Extrahieren dieses Anhangs zunichte gemacht.

Ebenso können Bilder in PDFs Metadaten (EXIF- oder XMP-Tags) tragen, die beschreibenden Text enthalten könnten. Vielleicht haben Sie das Gesicht einer Person in einem PDF-Bild geschwärzt, aber die Metadaten des Bildes benennen sie immer noch als Subjekt oder haben einen Kommentar wie “Foto von [Name]”. Das ist eine versteckte Datenebene, die eine Bereinigung benötigt. Entfernen oder untersuchen Sie immer Anhänge und bereinigen Sie Bild-Metadaten beim Schwärzen. Viele Schwärzungs-/Bereinigungswerkzeuge listen eingebettete Dateien auf und entfernen sie, aber es muss explizit durchgeführt werden.
Inkrementelle Speicherungen und zwischengespeicherte Daten
Das PDF-Format unterstützt inkrementelle Updates – das heißt, wenn Sie Bearbeitungen speichern, könnte ein PDF-Editor die Änderungen an die Datei anhängen und den ursprünglichen Inhalt an Ort und Stelle belassen (nur als alt markiert). Dies ist effizient für die Bearbeitung, aber gefährlich für die Schwärzung. Wenn Sie beispielsweise einen PDF-Editor verwenden, um einen Absatz zu löschen und ein schwarzes Kästchen hinzuzufügen, und dann inkrementell speichern, kann das PDF tatsächlich sowohl den alten Inhalt als auch die neue Version enthalten. Ein versierter Angreifer könnte die PDF-Objekte betrachten, die nicht aktiv sind, und den entfernten Text finden, der noch in den Daten der Datei lauert.
Eine unsachgemäße Schwärzung, die die Datei nicht von Grund auf neu schreibt (oder “speichern unter”), kann somit durch Durchsuchen der Dateistruktur rückgängig gemacht werden. Der richtige Ansatz besteht darin, eine vollständige Speicherung durchzuführen (manchmal als Optimieren oder Bereinigen bezeichnet), sodass keine Überreste früherer Inhalte verbleiben. Die “Versteckte Informationen entfernen”-Funktionen vieler Tools eliminieren solche verwaisten Daten, oder man kann die PDF-Optimierung verwenden, um gelöschte Inhalte zu verwerfen. Wenn dies nicht geschieht, bedeutet dies, dass der “gelöschte” Text mit etwas PDF-Forensik wiederherstellbar ist.
Teilweise Schwärzung oder übersehene Elemente
Die Schwärzung wird manchmal in Eile oder über Suchskripte durchgeführt, und es ist leicht, Dinge zu übersehen. Wenn nur das erste Vorkommen eines sensiblen Begriffs geschwärzt wird, er aber an anderer Stelle erscheint (sogar in einer Bildunterschrift oder einer Fußnote) und belassen wird, ist das ein Fehler. Häufig übersehene Elemente umfassen Seitenkopf-/-fußzeilen, die Wiederholungen eines Namens oder einer ID enthalten können, Dateinamen, die auf einer Seite gedruckt sind, oder sogar automatisch generierte Indizes.
Beispielsweise könnte ein generierter Index oder ein Autoritätsverzeichnis in einem juristischen Schriftsatz einen Fallnamen auflisten, den Sie im Haupttext geschwärzt haben. Wenn Sie den Index nicht aktualisieren oder entfernen, könnte der Name dort immer noch lesbar sein. Dies ist weniger ein technisches Versagen als ein menschlicher Fehler, unterstreicht aber die Bedeutung einer gründlichen Überprüfung – die Sicherheit der Schwärzung ist nur so stark wie das schwächste übersehene Detail. Überprüfen Sie immer alle Teile des PDF (Überschriften, Fußzeilen, Seitenzahlen, Indizes usw.) auf die Daten, die Sie schwärzen möchten.
Informationslecks durch Schwärzungsmarkierungen
Selbst wenn Inhalte ordnungsgemäß entfernt werden, können die Schwärzungsmarkierungen selbst einige Informationen preisgeben, wenn sie nicht sorgfältig durchgeführt werden. Wenn Sie beispielsweise ein schwarzes Kästchen haben, das genau ein Wort abdeckt, gibt die Länge dieses schwarzen Kästchens einen Hinweis auf die Länge des Wortes (und möglicherweise seine Identität). In einem Fall stellten Forscher fest, dass geschwärzte Namen erraten wurden, indem die Zeichenbreitenmuster des geschwärzten Bereichs abgeglichen wurden. Wenn eine proportionale Schriftart verwendet wurde, kann die Gesamtbreite eines Namens (sagen wir “John” vs. “Paul”) unterschiedlich sein, und ein Angreifer mit einer Liste von Kandidaten könnte per Brute-Force ermitteln, welcher Name in den geschwärzten Raum passt.
Fortgeschrittene Angriffe nutzen sogar Glyphenabstände: Eine Studie fand heraus, dass winzige Subpixel-Positionsverschiebungen von Zeichen in PDFs Buchstaben von geschwärztem Text preisgeben können, wenn diese Verschiebungen nach der Schwärzung verbleiben. Im Wesentlichen können, selbst wenn Text entfernt wird, Spuren wie die genaue Größe des geschwärzten Bereichs oder Formatierungsartefakte Hinweise geben. Um dies zu mildern, ist Vorsicht geboten: Einige Schwärzungswerkzeuge randomisieren oder standardisieren absichtlich die Größe von Schwärzungsblöcken oder verwenden eine Schriftart mit fester Breite für Platzhaltertext, um Breitenlecks zu vermeiden.
In den meisten typischen Szenarien ist diese Art von Angriff selten, aber es ist ein bekanntes Risiko. Wichtiger Punkt: Eine perfekt sichere Schwärzung entfernt den Inhalt und alle vorhersehbaren Hinweise darauf. Wenn die bloße Anwesenheit einer geschwärzten Lücke von 5 Zeichen Länge problematisch wäre, erwägen Sie, Text durch eine generische Länge zu ersetzen (z. B. “XXXXX”) anstelle eines engen Kastens, oder verschleiern Sie anderweitig die genaue Länge. Für extrem sensible Fälle kann die Umwandlung in ein Bild (Rasterisierung) helfen, da die genauen Textmetriken verloren gehen – obwohl, wie bereits erwähnt, auch Rasterbilder Lecks aufweisen können, wenn die Formen von Buchstaben erkennbar sind. In der Praxis sind jedoch die größeren Fehler das Belassen tatsächlicher Texte oder Daten in der Datei, die wir oben behandelt haben.
Zusammenfassung
Zusammenfassend lässt sich sagen, dass die PDF-Schwärzung fehlschlägt, wenn irgendeine Instanz der sensiblen Informationen (oder Verweise darauf) in den sichtbaren oder versteckten Daten des Dokuments verbleibt. Dies kann durch Benutzerfehler (Verwendung der falschen Methode) oder durch Nichtberücksichtigung der vielen Datencontainer von PDF (Textebenen, Metadaten usw.) geschehen. Als Nächstes werden wir sehen, wie Angreifer oder neugierige Leser diese Fehler ausnutzen können, um angeblich geschwärzte Daten abzurufen.
Suchen Sie nach einer Schwärzungslösung?
Probieren Sie redactpdf.io aus, unser dediziertes Schwärzungstool, das die Schwärzung sicher und mühelos macht, mit integrierten KI-Funktionen zur Identifizierung personenbezogener Daten.
