eHealth und Datenschutz: "Erschreckend, wie wenig IT-Sicherheit mitgedacht wird"

Beschlagnahmeverbote von Gesundheitsdaten und Zertifizierungspflichten für digitale Gesundheitssysteme fordert die Datenschutzbeauftragte Marit Hansen.

In Pocket speichern vorlesen Druckansicht 48 Kommentare lesen
Abstract,Health,Medical,Science,Consist,Doctor,Digital,Wireframe,Concept,Modern

(Bild: Tex vector/Shutterstock.com/Bearbeitung: heise online)

Lesezeit: 16 Min.
Von
  • Christiane Schulzki-Haddouti
Inhaltsverzeichnis

Marit Hansen ist Datenschutzbeauftragte des Landes Schleswig-Holstein und Vorsitzende der Datenschutzkonferenz

(Bild:  Markus Hansen/ULD)

Nachbesserungen von der Politik für die Digitalisierungsvorhaben im Gesundheitsbereich fordert Marit Hansen, Vorsitzende der Datenschutzkonferenz von Bund und Ländern (DSK) und schleswig-holsteinische Landesdatenschutzbeauftragte, im Gespräch mit heise online. Die Informatikerin befasst sich seit Ende der 1990er Jahren im Rahmen von nationalen und internationalen Forschungsprojekten mit technischen Konzepten für "Datenschutz by Design", die jetzt im Mittelpunkt der europäischen und deutschen Regulierungspläne stehen. Sie gehört zu den wenigen Fachleuten, die den aktuellen Stand der Technik von Pseudonymisierungs- und Anonymisierungstechniken realistisch einschätzen können.

heise online: Der Regelungsentwurf für den europäischen Gesundheitsdatenraum EHDS setzt auf den technischen Schutz der Gesundheitsdaten. Wie gut können sich Patienten und Patientinnen auf Pseudonymisierung und Anonymisierung verlassen?

Marit Hansen: Wenn Anonymisierung oder Pseudonymisierung gesetzlich vorgeschrieben sind, dann muss der Verantwortliche – also zum Beispiel ein Krankenhaus oder ein Datenbank-Betreiber – dafür sorgen, dass geeignete Verfahren auf geeignete Weise zum Einsatz kommen. Es gibt inzwischen gute Lösungen, doch diese werden oft nicht oder nicht richtig umgesetzt. Wichtig ist aber zu verstehen: Anonymisierung ist stets mit einem Verlust an Informationen verbunden, ein typischer Einsatzbereich sind Trendanalysen oder Statistiken. Im Gegensatz dazu passt eine Pseudonymisierung beispielsweise für solche Fälle, in denen man Daten zu einer Patientin übereinen längeren Behandlungsverlauf auswerten will, denn dafür müssen die Datensätze derselben Person zugeordnet werden können.

heise online: Im Moment verlässt sich die geplante Regulierung für den Europäischen Gesundheitsdatenraum EHDS auf eine gute technische Umsetzung. Wie sehen Sie das als Informatikerin und Datenschützerin?

Hansen: Schön, dass es endlich mal einen klaren Anreiz für technische Lösungen gibt, die einen hohen Schutz garantieren. Problematisch ist jedoch, dass in den Regulierungsentwürfen von Kommission und Parlament nicht viel zu den Anforderungen an solche technischen Lösungen gesagt wird. In Hochrisikobereichen wäre eine Zertifizierungspflicht angemessen, um von unabhängiger Seite zu bestätigen, dass die Verfahren den Anforderungen genügen und sie außerdem korrekt implementiert sind. Hier steht nicht allein die Technik im Fokus:, die geplanten technischen Lösungen müssen immer mit Blick auf die konkrete Organisation, die Architektur und den rechtlichen Rahmenbedingungen bewertet werden.

Inwieweit sind denn Zertifizierungen nach DSGVO bereits möglich?

Die allerersten Zertifizierungsanbieter sind jetzt an den Start gegangen, in einigen Monaten wird es weitere Zertifizierungsmöglichkeiten geben. Wichtig ist dabei, dass man ein System so aufbaut, dass es zertifizierbar ist. Wer eine Zertifizierung plant, sollte schon jetzt dafür sorgen, dass die Konzepte und ihre Umsetzungen vorbildlich dokumentiert sind – und natürlich nicht nur aus Sicherheitssicht, sondern einschließlich der Anforderung "Datenschutz by Design".

Sollte die Zertifizierung freiwillig bleiben oder sollte hier der Gesetzgeber die Zertifizierung einfordern?

Immer wieder werden Fälle im Bereich der digitalen Gesundheitsdienste bekannt, die deutlich machen, wie wenig der Hersteller IT-Sicherheit mitgedacht hat: Wie kann man überhaupt ein System oder eine Anwendung ohne das ausreichende Schutzniveau ausliefern? Daher sollte die Gesetzgebung im Hochrisikobereich auf alle Fälle Vorgaben zu unabhängigen Überprüfungen machen. Das betrifft sowohl IT-Sicherheitszertifizierungen als auch Datenschutzzertifizierungen. Beides muss dabei Hand in Hand gehen.

Gibt es denn bereits einen Standard für Anonymisierungsverfahren oder kann sich tatsächlich jeder Betreiber oder Verantwortliche ein beliebiges Verfahren aussuchen?

Manche stellen sich vor, dass Anonymisierung ganz simpel ist: einfach die Namen aus den Datensätzen löschen – fertig. Aber das stimmt nicht: In vielen Fällen kann man die Datensätze auch ohne Kenntnis der Namen einzelnen Personen zuordnen, wenn man sich die übrigen Datenfelder anschaut oder Informationen aus dem Kontext hinzunimmt. Namenlöschen reicht also nicht. Es reicht natürlich auch nicht, nur Text in einer Datenbank zu betrachten. Bei medizinischen Aufnahmen in bildgebenden Verfahren wie der Computer- oder Magnetresonanztomographie ist fraglich, ob eine Anonymisierung, die ja mit Informationsverlust verbunden ist, zu sinnvollen Ergebnissen führt.

Wie kann man die Qualität von Anonymisierung beurteilen?

Standardisiert sind bestimmte Anonymitäts-Metriken, die als Zielvorgabe der gewünschten Qualität dienen können, zum Beispiel die sogenannte k-Anonymität: "k" ist dabei eine Zahl, die besagt, wie genau aus den Datensätzen eine Identifizierung anhand der enthaltenen Merkmale möglich ist. 5-Anonymität würde also bedeuten, dass bei all diesen Versuchen der Identifizierung mindestens 5 Datensätze in Bezug auf die Merkmale ununterscheidbar sind. Eine eindeutige Identifizierung gelingt dann nicht. Abgesehen davon, dass k-Anonymität nicht perfekt ist und weitere Absicherungen eingebaut werden müssten, gibt es auch keine exakten rechtlichen Vorgaben, dass man einen bestimmten Parameter in dieser Metrik erreichen muss.

Es gibt also keinen technischen Standard, der eine bestimmte Herangehensweise festlegen würde?

Es gibt verschiedene etablierte Verfahren, bei denen Daten zum Beispiel gelöscht, verkürzt, kategorisiert, verwürfelt oder verrauscht werden. Doch es ist ganz klar: "one size fits all" funktioniert hier nicht. Häufig hängt der Grad, mit dem der Personenbezug reduziert wird, von der Beschaffenheit der Daten, vom Kontext ab – und nicht jedes Verfahren passt für alles. Standards gibt es auch im Bereich der Statistikämter, damit mit korrekten Übersichten arbeiten zu können, ohne auf einzelne Individuen oder Haushalte zurückschließen zu können. Im U.S. Census Bureau kommen beispielsweise seit einigen Jahren Verfahren der Differential Privacy zum Einsatz.

Stimmt es denn, dass synthetische oder verrauschte Daten für die Forschung nicht brauchbar sind, wie etwa das Deutsche Netzwerk Versorgungsforschung (DNVF) behauptet?

Das ist mir etwas zu pauschal. Richtig ist aber, dass Verrauschen und auch synthetische Daten nicht für alle Forschungszwecke geeignet sind. Wenn man pro Patient exakte Daten benötigt, führt eine Anonymisierung nicht weiter. Das kann auch synthetische Daten betreffen, die bestimmte Merkmale und Strukturen der echten Daten aufweisen sollen, aber eben künstlich produziert werden. Meines Erachtens sind sie aber ein wertvoller Ansatzpunkt und unter bestimmten Bedingungen durchaus einsetzbar.

Wo wären denn die synthetischen Daten nicht einsetzbar?

Gerade wenn es um Gesundheitsdaten geht und man die Daten über einen Zeitraum hinweg verknüpfen will, wird man sich nicht auf synthetische Daten verlassen, sondern braucht die Daten von echten Menschen. Es wäre auch nichts gewonnen, wenn man die Daten mehrerer Personen mischen würde. Dafür sieht die DSGVO das Instrument der Pseudonymisierung vor. Das bedeutet auch: Man bleibt im Anwendungsbereich des Datenschutzrechts.

Was verlangt denn die DSGVO von Pseudonymisierungsverfahren?

Pseudonymisierung ist anders als Anonymisierung oder synthetische Daten unmittelbar in der DSGVO definiert. Die Definition enthält eine Zielvorgabe: Die pseudonymisierten Daten können nicht mehr einer spezifischen betroffenen Person zugeordnet werden, ohne dass auf zusätzliche Informationen, zum Beispiel eine Zuordnungstabelle oder mathematische Funktionen, zugegriffen wird. So könnten also Forschende mit pseudonymisierten Daten arbeiten, ohne dass sie die Klarnamen zuordnen könnten.

Es reicht also, Klarnamen durch Zahlen zu ersetzen?

Bei der Pseudonymisierung ist besonders wichtig, dass sie nicht einfach so rückgängig gemacht werden kann. Daher müssen die Informationen wie eine Zuordnungstabelle oder eine mathematische Funktion besonders gegen unbefugte Zugriffe gesichert werden. Und es reicht auch nicht aus, nur die Klarnamen zu ersetzen: Identifizierungen sind nicht nur über Namen, Adressen oder IDs möglich, sondern können auch über weitere Daten geschehen.

Gibt es standardisierte Pseudonymisierungsverfahren, die die Datenschutzkonferenz von Bund und Ländern empfehlen würde?

Aktuell arbeiten wir auf europäischer Ebene – gemeinsam mit allen europäischen Mitgliedstaaten – an Leitlinien zu Pseudonymisierung. Es reicht ja nicht, Ergebnisse speziell für Deutschland zu entwickeln. Generell muss man bei den Pseudonymisierungsverfahren die identifizierenden Daten erkennen, sie umwandeln und die Informationen zur Re-Identifizierung besonders schützen. Bei der Umwandlung können zum Beispiel Hashfunktionen zum Einsatz kommen. Aber auch da kann man viel falsch machen: Wenn man zum Beispiel Telefonnummern hasht, ist der Wertebereich zu klein für einen umfassenden Schutz. Mit Kenntnis der Hashfunktion könnte man alle infrage kommenden Werte umwandeln und die Ergebnisse mit den pseudonymisierten Daten abgleichen.

Was bedeutet das in der Praxis?

Eine generelle Aussage: Je sensibler die Daten, desto mehr Garantien zum Schutz sind erforderlich. Oder salopp formuliert: bei höherem Schutzbedarf muss noch eine Schippe an technischen und organisatorischen Maßnahmen draufgelegt werden. Achtung: Natürlich geht es nicht um die Zahl der Maßnahmen, sondern um die Verlässlichkeit der Risikobeherrschung in ihrer Gesamtschau.

Man kann sich also kein Pseudonymisierungsverfahren von der Stange aussuchen, sondern man muss sich eigentlich gezielt beraten lassen?

Das empfiehlt sich. Man kann dazu seine behördlichen oder betrieblichen Datenschutzbeauftragten zurate ziehen, aber dabei darf das spezifische Domänenwissen, zum Beispiel im Gesundheitsbereich, nicht außer Acht gelassen werden. Sonst lässt sich nicht vollständig beurteilen, wo noch ein Personenbezug drinstecken könnte oder sich Identifizierungsmöglichkeiten ergeben. Hilfreich ist auch, wenn man veröffentlichte Fragen und Kriterien nimmt und für seinen eigenen Fall anwendet. Es ist jedenfalls nicht so, dass man einfach sagt: Ich werfe das in eine Datenbank, drücke auf "Pseudonymisieren" und dann es ist fertig. So geht es nicht.

Die Artikel-29-Datenschutzgruppe, die Vorgängerorganisation zum Europäischen Datenschutzausschuss, hat vor fast zehn Jahren eine Stellungnahme zu Anonymisierungstechniken (PDF) veröffentlicht. Wann ist hier mit einer Aktualisierung zu rechnen?

Nach meiner Kenntnis wird es noch in diesem Jahr eine neue Fassung geben, die die Anonymisierung in den Mittelpunkt stellt. 2014 bestand das Problem, dass die Datenschutzgesetze in den europäischen Mitgliedstaaten nicht so vereinheitlicht waren, wie es nun die DSGVO erreicht hat. Daher konzentrierte man sich weniger auf Begriffe als auf sogenannte Anonymisierungstechniken – auch wenn diese Techniken nicht zuverlässig zu einer Anonymisierung oder Pseudonymisierung führten. Mit der DSGVO kann und muss nun exakter formuliert werden, aber im Prinzip kann man auch mit der alten Fassung noch arbeiten.

Was lässt sich heute noch aus dem Papier als Orientierung übernehmen?

Generell ist eine Anonymisierung dann erreicht, wenn eine Identifizierung der Person nicht mehr möglich ist; dafür gelten immer noch die Anforderungen aus der Stellungnahme der Artikel-29-Datenschutzgruppe von 2014, die sich an den Angriffsmöglichkeiten orientiert. Das ist ein bewährtes Vorgehen in der Informatik: zu überlegen, wie sich ein System angreifen lässt, und Verfahren zum Schutz gegen diese Angriffe zu entwickeln.

Um welche Angriffsmöglichkeiten geht es hier?

Die erste ist das "Herausgreifen", oder auf Englisch: "Singling out": Ist es möglich, eine Person aus dem entstandenen Datensatz oder aus der Datenbank herauszugreifen. In der Schulklasse könnte das die eine Person mit dem rosa Hoodie sein. Auch wenn man den Namen nicht kennt, ist doch allen in der Klasse klar, wer gemeint ist.

Die zweite Angriffsmöglichkeit, das "Verknüpfen" oder "Linkage", besteht darin, die einer Person zugehörigen Datensätze zu verknüpfen – etwa über die Zeit. Mit der Anreicherung der Daten wird auch das Bild über die betroffene Person immer klarer.

Die dritte Angriffsmöglichkeit ist zu schauen, ob sich über "Inferenzen" aus den Daten oder auch aus dem Kontext Informationen ableiten lassen. Das könnten auch bestimmte Zeiten, Umstände oder Diagnosen sein.

Wenn diese Angriffe funktionieren, dann ist das mit der Irreversibilität sehr fraglich.

Inwieweit funktioniert denn Anonymisierung überhaupt bei seltensten Krankheiten?

Man kann zwar anonymisieren, aber bei seltenen Krankheiten kommen nur wenige Personen infrage, sodass bei Ausschluss einer Identifizierung die Besonderheiten, die erforscht werden sollen, verloren gehen würden. Daten, die notwendig sind, um Betroffene zu behandeln oder mit bestimmten Forschungsansätzen weiterzukommen, will man häufig nicht anonymisieren. Wichtig ist dann, dass die Betroffenen nicht schutzlos sind, zum Beispiel, dass man die Daten besonders absichert und nicht gerade im Internet veröffentlicht.

Wie sieht das bei Genomdaten aus?

Gewisse Datenreduktionen sind zwar möglich. Bei genomischen Daten könnten beispielsweise bestimmte Gensequenzen herausgenommen werden. Im Prinzip sind hier viele Fragestellungen ähnlich zu betrachten wie beim individuellen Fingerabdruck. Insgesamt bedeutet dies: Wenn Anonymisierung nicht möglich ist, bleibt man im Anwendungsbereich der DSGVO. Und das heißt insbesondere: Für eine Verarbeitung dieser Daten benötigt man eine Rechtsgrundlage.

Gibt es denn auch entsprechende Schutzrechte wie zum Beispiel Beschlagnahmeverbote?

In der Tat könnten solche Informationen auch für die Strafverfolgung interessant sein. Es werden immer wieder Theorien diskutiert, ob in den genomischen Daten drinsteckt, ob jemand besonders schnell aggressiv wird …

… was für gerichtliche Gutachten interessant sein könnte.

In der Tat ist eine Beschlagnahme dieser Daten zurzeit im Forschungsbereich nicht ausgeschlossen. Rechtlich könnte man im Falle einer Durchsuchung und Beschlagnahmung besondere Schutzverpflichtungen im Bereich der Geheimnisträger auch im Forschungsbereich festlegen.

Wie realistisch ist es denn, dass diese Daten beschlagnahmt werden?

Ich fürchte, es ist keine unrealistische Diskussion. Es gab schon Fälle von Beschlagnahmen. Wo Daten sind, muss man mit Zugriffen zu weiteren Zwecken rechnen, auch durch die Strafverfolgungsbehörden. So wurden beispielsweise während der Corona-Pandemie Kontaktdaten in Restaurants gesammelt, die dazu dienten, nur im Infektionsfall über die Gesundheitsämter diejenigen zu informieren, die sich möglicherweise angesteckt haben könnten. Obwohl hier der Präventionsgedanke als einziger Zweck klargestellt wurde, wurden dennoch in einigen Bundesländern von der Polizei genau diese Daten verwendet, um Zeugen zu ermitteln.

Das 2019 gesetzlich eingerichtete Forschungsdatenzentrum FDZ soll Gesundheitsdaten im Klartext einsammeln und dann selbst pseudonymisieren – nach einem technischen Verfahren, über das bis heute nichts bekannt ist. Es ist noch nicht im Betrieb, doch wie attraktiv könnte es denn für die Strafverfolgungsbehörden sein?

Ich halte es für ein mögliches Szenario. Meines Wissens gibt es noch keine Regelung, die eine Durchsuchung und Beschlagnahme verhindern würde.

Müsste da also nicht rechtlich nachgebessert werden?

Primär müsste man rechtlich mal klarstellen, dass die erhobenen Gesundheitsdaten nur für Forschungszwecke verwendet werden. Es braucht also einen rechtlichen Beschlagnahmeschutz und besonders hohe Bedingungen auch an die Mitarbeitenden, damit diese nicht sozusagen aus Privatinitiative irgendwie darauf zugreifen, etwa um mal nach den Nachbarn oder den Freunden ihrer Kinder zu schauen. Datenzugriffe müssen also gut protokolliert werden, und Zugriffe müssen nachvollziehbar sein.

Die Daten werden ja im FDZ im Klartext angeliefert: Ist das sinnvoll oder sollte die Pseudonymisierung nicht schon einen Schritt vorher stattfinden?

Wenn man erst alle Daten sammelt, um dann zu pseudonymisieren, ist dieser zentrale Sammlungsort der interessanteste Angriffspunkt. Insofern besteht ein sehr viel geringeres Risiko, wenn eine vorgelagerte Pseudonymisierung durchgeführt wird, die dann natürlich standardisiert ablaufen muss. Denn es hilft ja auch nichts, wenn diese mit einer unsicheren Software auf unsichere Arten an den dezentralen Punkten realisiert würde.

Aktuell wird noch an der Entwicklung der Pseudonymisierungsverfahren für das FDZ gearbeitet – reichen denn die dafür vorgesehenen Mannmonate überhaupt für ein sicheres Verfahren aus?

Ich habe keinen unmittelbaren Einblick in die FDZ-Pseudonymisierung und die Ressourcenplanung. Wenn auf den Kontext zugeschnittene und möglichst standardisierte Pseudonymisierungsverfahren entwickelt werden sollten, könnten die Anforderungen recht umfassend sein. Das ist erst recht dann der Fall, wenn neue Verfahren erforscht werden sollen, wenn es um heterogene multimediale Datenformate geht oder auch dezentrale oder föderale Architekturen unterstützt werden sollen. Auf der anderen Seite gibt es viele "Bits &Pieces", man startet nicht bei null.

(mack)