TB 43: Aus dem IT-Labor

Kernpunkte:

Large Language Models und Reproduzierbarkeit
Maßnahmen gegen Spam- und Phishing-E-Mails
Schwärzen von Dokumenten

10 Aus dem IT-Labor

In unserem IT-Labor beschäftigt sich unser Team mit neuen technischen Entwicklungen, damit wir uns mit Chancen und Risiken sowie mit den Möglichkeiten zur Risikobeherrschung vertraut machen können. Dies ermöglicht es uns, Empfehlungen zu erarbeiten und an Verantwortliche oder Auftragsverarbeiter weiterzugeben. Wo es passt, verwenden wir die gewonnenen Erkenntnisse in den Kursen der DATENSCHUTZAKADEMIE (siehe Kapitel 13) oder in der Beratung.

Im Berichtsjahr gehörten KI-Systeme wie LLMs (Tz. 10.1), Möglichkeiten zur Abwehr von Spam-E-Mails (Tz. 10.2) und das Problem des sicheren Schwärzens in Dokumenten (Tz. 10.3) zu den Schwerpunkten unserer Untersuchungen.

10.1 Large Language Models: Herausforderung der Reproduzierbarkeit

Beim Einsatz von KI-Systemen müssen – selbstverständlich – die Anforderungen des Datenschutzrechts berücksichtigt werden (Tz. 6.2.5 und Tz. 6.2.6). In diesem Beitrag in der Rubrik „Aus dem IT-Labor“ konzentrieren wir uns auf den Aspekt der Reproduzierbarkeit von Ergebnissen, der wesentlich ist für die Entscheidung, ob man für seine Zwecke der Verarbeitung von Daten ein probabilistisch (d. h. wahrscheinlichkeitsbasiert) arbeitendes KI-System oder ein deterministisches algorithmisches IT-System auswählen soll. Dies betrifft insbesondere generative KI-Systeme wie Large Language Models (LLMs).

Stellt man einem LLM fünfmal dieselbe Frage, erhält man im Allgemeinen fünf verschiedene Antworten. Im Normalfall sind die Unterschiede rein sprachlicher Natur; abhängig von verschiedenen Faktoren können sich die Antworten jedoch auch inhaltlich unterscheiden. Das macht die Reproduzierbarkeit solcher Ausgaben äußerst schwer. Die Angabe, ein Text sei „mit der KI XY erstellt“, ist in dieser Hinsicht wenig hilfreich.

Die Variabilität der Ergebnisse hat ihre Wurzeln bereits in der technischen Infrastruktur der LLMs. Abhängig vom Status der Nutzenden stellen die Anbieter verschiedene Modellversionen bereit, die unterschiedlich leistungsfähig sind: Zahlende Nutzende erhalten oft Zugang zu leistungsstärkeren Modellen, während in den Nutzerkonten ohne Geldzahlung mitunter ältere Versionen zur Verfügung gestellt werden, deren Antworten sich dementsprechend unterscheiden. Auch die aktuelle Systemlast beeinflusst die Modellauswahl: Bei hoher Auslastung greifen Anbieter häufig auf ressourcensparende, aber weniger leistungsfähige Modellvarianten zurück.

Eine besondere Rolle spielt dabei das Kontextfenster, d. h. die maximale Textmenge, die ein LLM bei der Verarbeitung gleichzeitig berücksichtigen kann. Bei hoher Systemlast reduzieren Anbieter bisweilen die Größe dieses Kontextfensters, wodurch das KI-System frühere Teile der Konversation nicht mehr einbeziehen kann. Diese dynamischen Anpassungen erfolgen für Nutzende meist unmerklich, da sich die Benutzungsoberfläche nicht verändert. Sie haben jedoch erheblichen Einfluss auf die Qualität und Konsistenz der Antworten.

Parameter
Bei Entwicklung und Nutzung von LLMs unterscheidet man verschiedene Gruppen von Parametern, mit denen sich das LLM steuern lässt:
Hyperparameter: Diese werden vor dem Training festgelegt, um das Lernverfahren selbst zu konfigurieren (z. B. Lernrate, Netzarchitektur oder Anzahl der Schichten in einem neuronalen Netz).
Inferenzparameter: Diese Parameter beeinflussen, wie ein trainiertes Modell während der Inferenzphase (Vorhersagephase) arbeitet. Sie werden nicht während des Trainings optimiert, sondern steuern das Verhalten des Modells bei der Anwendung auf neue Daten (z. B. Temperatur oder Begrenzung der Auswahl der nächsten Tokens auf die wahrscheinlichsten Kandidaten (Top-k-/Top-p-Sampling)).

Neben diesen systembedingten Faktoren sind die sogenannten Inferenzparameter entscheidend. Im Unterschied zu den grundlegenden Modellparametern, die während des Trainings festgelegt werden, sind Inferenzparameter Steuerungsgrößen, die zur Laufzeit angepasst werden können. Ein besonders wichtiger Inferenzparameter ist die „Temperatur“. Sie bestimmt, wie das Modell Wahrscheinlichkeiten bei der Wortwahl gewichtet: Hohe Temperaturwerte führen zu einer breiten Streuung möglicher Antworten und damit zu kreativeren, aber auch weniger vorhersehbaren Ergebnissen. Niedrige Temperaturwerte hingegen erzeugen konstantere, dafür weniger variable Ausgaben.

Diese technischen Charakteristika prägen fundamental die Einsatzmöglichkeiten von LLMs. Im Gegensatz zu klassischen Suchmaschinen, die auf existierende Datenbestände zugreifen und ihre Quellen transparent ausweisen, generieren LLMs neue Texte auf Basis statistischer Muster, die sie während ihres Trainings gelernt haben. Diese grundlegend verschiedene Funktionsweise führt zu zwei separaten Herausforderungen: Zum einen fehlt die Nachvollziehbarkeit der Quellen, da LLMs ihre Ausgaben nicht mit Referenzen verknüpfen. Zum anderen neigen sie zu sogenannten „Halluzinationen“, d. h., sie produzieren mitunter Aussagen, die zwar sprachlich und kontextuell plausibel erscheinen, aber inhaltlich falsch sind. Dieser Effekt entsteht nicht durch die fehlende Referenzierung, sondern ist eine direkte Folge ihres probabilistischen Funktionsprinzips.

Diese Eigenschaften führen zu einem grundlegenden Spannungsverhältnis in der Anwendung von LLMs: Je mehr man ihre kreativen Fähigkeiten zur Texterstellung nutzt – etwa durch höhere Temperaturwerte oder komplexere Aufgabenstellungen –, desto größer wird das Risiko von Halluzinationen und unvorhersehbaren Ergebnissen. Umgekehrt führt das Streben nach maximaler Konsistenz und Verlässlichkeit zu einer deutlichen Einschränkung ihrer oft gewollten Variabilität.

Probabilistisches Funktionsprinzip
Das probabilistische Funktionsprinzip basiert darauf, dass LLMs Wahrscheinlichkeitsverteilungen über Token-Sequenzen lernen und nutzen, um Text zu generieren oder zu verarbeiten.
Dazu wird der Eingabetext in kleinere Einheiten (Tokens) zerlegt, z. B. Wörter, Teile von Wörtern oder Zeichen. Das Modell berechnet für jedes mögliche nächste Token eine Wahrscheinlichkeitsverteilung basierend auf dem bisherigen Kontext (d. h. den vorherigen Tokens) und wählt dann das nächste Token basierend auf der gelernten Wahrscheinlichkeitsverteilung aus. Auf diese Weise setzt es Token zu Ausgabetexten zusammen.

Für Nutzende ergibt sich aus diesen technischen Charakteristika die Handlungsempfehlung, genau zu überlegen, wann (datenschutzgerechte) generative KI-Systeme zur Verarbeitung von Daten eingesetzt werden sollen: LLMs mögen sich als Unterstützung bei kreativen Prozessen eignen, etwa beim Brainstorming zu Argumentationslinien oder bei der Erstellung erster Textentwürfe. Für diese Anwendungen kann die inhärente Variabilität der Systeme vorteilhaft sein. Bei der Recherche von Fakten, der Analyse von Rechtsprechung oder der Überprüfung rechtlicher Sachverhalte sollten reine LLMs hingegen nicht als hauptsächliches, sondern allenfalls als ergänzendes Werkzeug verwendet werden. Ihre Ausgaben müssen in diesen Fällen stets durch klassische, quellenbasierte Recherche verifiziert werden. Ohnehin sollte man nicht davon ausgehen, dass KI-Systeme die menschliche Kontrolle überflüssig machen.

Was ist zu tun?
Kommt es auf Reproduzierbarkeit von Ergebnissen an, sind generative KI-Systeme zumeist nicht das Mittel der Wahl. Abhängig von verschiedenen Faktoren, die teilweise außerhalb des Einflusses der Nutzenden liegen, können Ergebnisse häufig nicht exakt wiederholt werden. So muss generell Wert auf die Kontrolle der produzierten Ausgaben gelegt werden. Wer diese Tätigkeit übernimmt, muss selbst den nötigen Sachverstand haben; Sorgfalt und ausreichend Zeit zum Prüfen sind essenziell.

10.2 E-Mail: Maßnahmen gegen Spam und Phishing

Unverlangte Werbung per E-Mail, die sogenannte Spammail, ist seit Jahren ein fester Bestandteil des Arbeitsalltags. Nutzerinnen und Nutzer sind der E-Mail-Flut nahezu unentrinnbar ausgesetzt. Dabei ist es wichtig zu verstehen, wie die Masse an Spamnachrichten zustande kommt, um langfristige Strategien dagegen zu entwickeln.

Um es vorwegzunehmen: Ist das Kind erst einmal in den Brunnen gefallen und die eigene E-Mail-Adresse kursiert unkontrolliert im Netz, besteht wenig Aussicht, den Erhalt von Spam wieder zu stoppen. Verfügt man jedoch über eine bislang nicht belastete E-Mail-Adresse, gibt es Maßnahmen, damit das so bleibt.

Eine E-Mail-Adresse wird üblicherweise im Laufe der Zeit an zahlreiche Stellen weitergegeben: an Freundinnen und Freunde, Bekannte, Kolleginnen und Kollegen, Onlinedienste, Shopping-Plattformen und Spiele-Anbieter. Kurz gesagt: Die eigene E-Mail-Adresse macht eine weite Reise und ist mit der Zeit in den Adressbüchern vieler Menschen und Organisationen zu finden. Einige Anbieter erheben Adressdaten direkt zum Zweck und mit dem Ziel der Weitergabe – Gewinnspiele haben diese Klausel oft im Kleingedruckten. Aber auch Schadsoftware kann E‑Mail-Adressen aus einem E-Mail-Programm entwenden. E-Mail-Adressen können bei Hackerangriffen auf E-Mail-Konten oder Server „erbeutet“ werden. So gibt es viele Wege, über die eine E-Mail-Adresse in die Hände von Spamversendern gelangen kann. Außerdem besteht die Möglichkeit, dass bei einem Angriff gleich fremde Infrastrukturen verwendet werden, um Spamnachrichten zu versenden.

Am besten wäre es daher, die eigene E-Mail-Adresse geheim zu halten, was naturgemäß nicht sonderlich kommunikativ wäre. Aber es gibt weniger drastische Methoden:

Parallele E-Mail-Konten: Ein E-Mail-Konto kann man sich bei verschiedenen Anbietern leicht anlegen. Eine effektive Strategie besteht daher in der Nutzung mehrerer E-Mail-Adressen für unterschiedliche Zwecke, z. B.:

´ eine Adresse für private Kommunikation mit Freunden und Bekannten,
´ eine separate Adresse für Online-Einkäufe und
´ eine weitere für Anmeldungen in sozialen Netzwerken.

Sollte eine dieser Adressen von Spam betroffen sein, lässt sie sich ohne Konsequenzen für die anderen Kommunikationsbereiche stilllegen.

Weiterleitungsdienste: Es gibt verschiedene sogenannte Relay-Dienste, bei denen man sich eine bestimmte Zahl an Alternativadressen für die eigene E-Mail-Adresse erzeugen kann. All diese Alternativadressen werden dann auf das eigene Konto umgeleitet. So kann man beispielsweise für Onlinehändler einen separaten Alias einrichten und alle dorthin gesandten E-Mails bequem im echten Konto empfangen. Im Falle der Spamzusendung kann die betroffene Alternativadresse gelöscht und eine neue erzeugt werden. Auch hier müssen Kommunikationspartner informiert und gegebenenfalls Einträge in den eigenen Konten geändert werden.

Catch-all-Accounts: Wer eine eigene Domain besitzt, kann – sofern der Provider dies anbietet – einen Catch-all-Account aktivieren. Dabei werden dann sämtliche Adressbestandteile vor dem @-Zeichen einem einzigen Konto zugeordnet. Besitzt man etwa die Domain „beispiel.de“ und legt sich ein Konto bei einem Onlinedienst an, nutzt man dann einfach die Adresse „onlinedienst@beispiel.de“. Der Telefonanbieter bekommt „telefon@beispiel.de“ und der Fußballverein „fussball@beispiel.de“. Da alle diese Adressen intern im selben Konto landen, kann man weiterhin bequem alle E-Mails lesen, ohne verschiedene Konten bedienen zu müssen. Das Elegante an dieser Methode: Sollte auf einer der Adressen Spam eintreffen, kann man diese Adresse ohne Kollateralschäden für andere Kontakte stilllegen, etwa indem man eingehende Spamnachrichten dann automatisiert filtert. Zusätzlich hat man in diesen Fällen ein starkes Indiz für die Information, an welcher Stelle die Adresse in fremde Hände geraten ist, da jede Adresse genau einem Kommunikationspartner zugeordnet ist.

Auch Phishing-E-Mails sind so einfacher zu erkennen: Eine vermeintliche Nachricht der Bank an die Adresse, die ausschließlich der Fußballverein verwendet? Ertappt!

Ein weiterer Vorteil besteht darin, dass sich auf diese Weise nicht nur E-Mail-Adressen, sondern auch Nutzerkonten unterscheiden. Viele Onlinedienste verlangen als Nutzername eine gültige E‑Mail-Adresse. Aus technischer Sicht ist dies praktisch: Da E-Mail-Adressen weltweit eindeutig sind, müssen sich Anbieter nicht darum kümmern, eine doppelte Vergabe von Nutzernamen auszuschließen. Wenn für alle Onlinedienste nur eine einzige E-Mail-Adresse genutzt wird, können Anbieter leicht Aktivitäten auf verschiedenen eigenen Plattformen zusammenführen.

Auch Angriffe auf Onlinedienste bergen eine weitere Gefahr, wenn nur eine einzelne Adresse verwendet wird: Wurden beispielsweise E-Mail-Adressen und Passwörter bei einem Angriff auf einen Onlinedienst erbeutet, kann ein Angreifer die gleichen Zugangsdaten bei weiteren Onlinediensten ausprobierten. Leider funktioniert dies häufig, denn Menschen neigen dazu, Passwörter wiederzuverwenden.

Verwendet man hingegen für verschiedene Onlinedienste verschiedene E-Mail-Adressen als Nutzernamen, so erschwert man zum einen die Nachverfolgung über verschiedene Onlinedienste hinweg. Gleichzeitig kann sich ein Angreifer mit einer erbeuteten Kombination von Nutzername und Passwort nicht bei den anderen Onlinediensten anmelden, selbst wenn das Passwort gleich sein sollte.

Ein vollständiger Schutz vor unerwünschten E‑Mails ist heutzutage unrealistisch. Sobald eine Adresse einmal in Umlauf geraten ist, lässt sich der Spamversand kaum noch eindämmen. Vorbeugende Maßnahmen bleiben daher der effektivste Ansatz zum Schutz der digitalen Kommunikation. Die beschriebenen Strategien erfordern zwar anfänglichen Aufwand, bieten langfristig jedoch deutlich mehr Kontrolle über die eigene E-Mail-Kommunikation und sind letztlich dem nachträglichen Spamsortieren per Hand im Posteingang deutlich überlegen.

Was ist zu tun?
Im Alltag sollte mehr als nur eine einzige E-Mail-Adresse zum Einsatz kommen. Verschiedene Konzepte ermöglichen dabei unterschiedliche Stufen des Komforts. Da über unverlangte E-Mails nicht nur Werbung, sondern auch Phishing-Versuche versendet werden, sind Maßnahmen dagegen auch ein Sicherheitsgewinn.

10.3 Update: Schwärzen in Dokumenten

Das Thema „Schwärzen in Dokumenten“ ist nicht zum ersten Mal Gegenstand des Tätigkeitsberichts (36. TB, Tz. 10.4; 39. TB, Tz. 10.3; 40. TB, Tz. 10.1), sondern spielt als Dauerbrenner sowohl in der Beratung als auch bei Meldungen nach Artikel 33 DSGVO über Datenschutzverletzungen eine wichtige Rolle. Daher lohnt es sich, sich bewusst zu machen, wie sich ein sicheres Schwärzen nach aktuellem Stand erreichen lässt.

Sollen Informationen aus Dokumenten nur in Teilen weitergegeben werden, so werden typsicherweise in (Original-)Dokumenten diejenigen Textteile geschwärzt, die nicht weitergegeben werden sollen oder dürfen. Dies ist schon in Papierform nicht einfach: Ein schwarzer Stift mag zwar Schrift überdecken, doch im Gegenlicht, auf einem Foto, unter einem Scanner oder auf einer Kopie sind manche Buchstaben dennoch zu erkennen, weil das Papier an diesen Stellen die Farbe anders aufnimmt.

Bei elektronisch vorliegenden Daten, z. B. Bild- oder PDF-Dateien, ist diese Aufgabe noch komplexer: Was vordergründig wie eine Abbildung aussieht, ist technisch meist nicht nur eine Grafik, sondern eine Datenstruktur, die auch Inhalte (Buchstaben bei Texten), Schichten (übereinandergelegte Grafikelemente) und Überarbeitungsmarkierungen enthalten kann. Sollen aus einer solchen Datei Informationen rückstandsfrei gelöscht werden, so sind alle Informationen zu erfassen.

Die beliebte Methode, ein schwarzes Rechteck auf den zu löschenden Textteil zu zeichnen und die Datei abzuspeichern, reicht nicht: Auf der Empfangsseite kann das Rechteck wieder entfernt werden. Nötig ist stattdessen, alle grafischen Elemente zu verschmelzen und die an dieser Stelle intern gespeicherte Information, z. B. Buchstaben, zu entfernen.

Zwar bieten zahlreiche Programme zur PDF-Bearbeitung mittlerweile die Funktion „Schwärzung“ an, doch funktioniert diese nicht immer zuverlässig: Der erste Teil der Aufgabe – zu löschenden Text mit schwarzem Block überdecken – wird gelöst. Hier würde eine Fehlfunktion auch sofort auffallen. Ob der zweite Teil der Aufgabe, die Löschung der nicht sichtbaren Informationen in der Datei, tatsächlich erledigt ist, lässt sich nicht mit einem Blick feststellen.

So etwas kann sich auch je nach Version der Software ändern: Für eine frühe Version eines Programms zur PDF-Bearbeitung wurde beispielsweise erkannt, dass noch Restinformationen in der Datei vorhanden waren; in einer Folgeversion der Software korrigierte der Hersteller diesen Fehler. Besonders ärgerlich: Einige Versionen später trat der Fehler erneut auf. Zwar ist er mittlerweile – für die aktuelle Version – korrigiert, verlassen möchte man sich auf diese Funktion aber nicht mehr.

Was kann man tun? Das Optimum besteht darin, Dokumente nicht nachträglich zu schwärzen, sondern aus editierbaren Quelldateien, z. B. einer Textdatei, die fraglichen Informationen zu entfernen und dann ein neues Ausgabedokument (PDF-Datei, Ausdruck) zu erstellen. Dass und an welchen Stellen Informationen entfernt wurden, sollte kenntlich gemacht werden, z. B. durch einen schwarzen Balken; bei barrierefreien Dokumenten ist dies noch zu ergänzen. Auch Software, die Texte analysiert und automatisiert Schwärzungsvorschläge erstellt (z. B. durch die Erkennung von Geburtsdaten, Namen, Kontonummern, Adressen usw.), arbeitet am einfachsten mit Textdateien.

Muss oder will man eine PDF-Datei schwärzen, so sollte man nach der Schwärzung die Datei als neue Datei abspeichern und auf alle Fälle mit einem PDF-Leseprogramm kontrollieren, ob sich schwärzende Rechtecke beiseiteschieben oder die gelöschten Texte oder Buchstaben aus der Datei in editierbarer Form entnehmen lassen.

Wer ganz sichergehen will (oder muss), dass in der PDF-Datei wirklich keine versteckten Informationen mehr enthalten sind, muss den optischen Weg gehen: Ausdruck der digital geschwärzten Datei und erneuter Scan. Dies mutet zugegebenermaßen absurd an, ist aber eine Lösung für die Fälle, in denen man der eingesetzten Software nicht vertraut.

Was ist zu tun?
Schwärzungen und Anonymisierungen in Dokumenten erfolgen vorzugsweise mithilfe der zugrunde liegenden Originaltexte.

Unabhängiges Landeszentrum für Datenschutz Schleswig-Holstein

Kernpunkte:

10 Aus dem IT-Labor

10.1 Large Language Models: Herausforderung der Reproduzierbarkeit

10.2 E-Mail: Maßnahmen gegen Spam und Phishing

10.3 Update: Schwärzen in Dokumenten

Seitennavigation

ULD

Themen

Veröffentlichungen

Kernpunkte:

10 Aus dem IT-Labor

10.1 Large Language Models: Herausforderung der Reproduzierbarkeit

10.2 E-Mail: Maßnahmen gegen Spam und Phishing

10.3 Update: Schwärzen in Dokumenten

Seitennavigation

ULD

Themen

Veröffent­lichungen

Veröffentlichungen