1 Einleitung

Die Darstellung der gesundheitlichen Lage der Bevölkerung ist ein wichtiges Fundament der Gesundheitspolitik und Versorgungsforschung. Insbesondere die Erfassung kleinräumiger Gesundheitsdisparitäten ist von großer Bedeutung, etwa für die ärztliche Bedarfsplanung oder für Präventionsangebote von Krankenkassen. In Deutschland werden entsprechende Zahlen zur gesundheitlichen Lage der Bevölkerung selten in Registern erfasst und müssen deshalb geschätzt werden. Dies erfolgt in der Regel auf Basis nationaler Gesundheitserhebungen, wie etwa Gesundheit in Deutschland aktuell (GEDA) (Robert Koch-Institut 2014) oder der Studie zur Gesundheit von Kindern und Jugendlichen in Deutschland (KiGGS) (Robert Koch-Institut 2017a). Doch aufgrund begrenzter Ressourcen und des enormen Befragungsaufwandes können im Rahmen solcher Erhebungen lediglich Stichproben gezogen werden, welche regionsspezifisch gegebenenfalls nur wenige Beobachtungen enthalten. Wird auf dieser Basis eine kleinräumige Schätzung der Krankheitshäufigkeit (Prävalenz) durchgeführt, beispielsweise auf Ebene der Landkreise, so sind die Ergebnisse mit einer inakzeptabel hohen Unsicherheit verbunden, da die entsprechenden Standardfehler zu groß sind. Folglich können lediglich Schätzwerte für größere Aggregate, etwa für Bundesländer, verlässlich ausgewiesen werden. Etwaige systematische Gesundheitsdisparitäten in den Aggregaten bleiben dann unberücksichtigt.

An dieser Stelle repräsentieren Krankenkassendaten eine wichtige Alternative. Der Versichertenstamm der meisten (gesetzlichen) Krankenkassen ist um ein Vielfaches größer als die Anzahl der Personen, welche im Rahmen einer Gesundheitserhebung befragt werden. Dies stellt einen Vorteil in der Beobachtungszahl dar, welcher insbesondere bei der Gesundheitsmessung auf regionalen Ebenen hilfreich ist. Darüber hinaus handelt es sich bei Krankenkassendaten um Routinedaten. Sie werden in versicherungsrelevanten Fällen automatisch erfasst und müssen nicht in zeit- bzw. kostenintensiven Interviews erhoben werden. Zusätzlich kann die Angabe entsprechender Daten nicht wie in Gesundheitserhebungen verweigert werden, da die vollständige Datenerfassung zu Abrechnungszwecken notwendig ist.

Bei der Schätzung kleinräumiger Krankheitshäufigkeiten anhand von Krankenkassendaten muss jedoch beachtet werden, dass der Versichertenstamm einer Krankenkasse nicht das Resultat einer zufallsbasierten Stichprobenziehung darstellt. Er ist somit keine zufällige Teilpopulation der Gesamtbevölkerung. Aufgrund verschiedener Eigenschaften des deutschen Gesundheitssystems, welche in Abschn. 2 genauer erläutert werden, kann die Kassenzugehörigkeit einer Person informativFootnote 1 für ihre Morbidität hinsichtlich verschiedener Krankheiten sein. Folglich liefert die Verallgemeinerung der Morbiditätsstruktur einer beliebigen Krankenkasse gegebenenfalls verzerrte Ergebnisse für die Gesamtbevölkerung. Da diese Problematik seit einiger Zeit bekannt ist, werden in der Praxis kassenspezifische Krankheitshäufigkeiten oft auf Alter und Geschlecht bedingt (Standardisierung). Dieser Ansatz ist häufig jedoch nicht ausreichend, und die systematischen Gesundheitsdisparitäten zwischen verschiedenen Versichertenstämmen bleiben auch nach der Standardisierung bestehen. Dies wurde mehrfach in empirischen Studien nachgewiesen, etwa von Hoffmann und Icks (2011, 2012) oder Hoffmann und Koller (2017).

Um regionale Krankheitshäufigkeiten der Gesamtbevölkerung auf Basis der Routinedaten einer Krankenkasse zu schätzen, muss aufgrund der informativen Kassenzugehörigkeit eine Bias-Korrektur vorgenommen werden. Im Rahmen des Projekts Gesundheitsatlas, welches vom Wissenschaftlichen Institut der AOK (WIdO) mit dem Kooperationspartner der Universität Trier durchgeführt wird, konnte eine Schätzmethodik entwickelt werden, welche diese Problematik auf Basis einer Multi-Source-Schätzung behandelt. Unter Verwendung multivariater Analyseverfahren (Feinstein 1996) und modellbasierter Inferenz werden Routinedaten der AOK und stationäre Behandlungshäufigkeiten aus der Fallpauschalenbezogenen Krankenhausstatistik (DRG-Statistik nach § 21 KHEntgG) kombiniert, um den Bias zu korrigieren und stabile Schätzungen von alters- und geschlechtsreferenzierten Krankheitshäufigkeiten auf Kreisebene durchzuführen. Hierbei wird innerhalb der AOK-Daten der bedingte Erwartungswert der kleinräumigen Krankheitshäufigkeiten gegeben regionaler Demographie sowie der stationären Behandlungshäufigkeiten verwandter Diagnosen anhand (gemischter) linearer Modelle (West et al. 2007) quantifiziert. Da regionale Unterschiede sowohl in der Krankheitshäufigkeit und als auch in der Versorgung a priori bekannt sind, erfolgt die dafür notwendige Schätzung der Modellparameter ebenfalls regionsspezifisch.

Der eben genannte bedingte Erwartungswert wird mit verschiedenen Modellspezifikationen geschätzt, da gängige Verfahren zur Bestimmung einer optimalen Spezifikation, wie etwa Analysis of Variance (ANOVA) (Gelman 2005) oder Informationskriterien (Burnham und Anderson 2004), aufgrund der fehlenden Stichprobenziehung nicht valide angewendet werden können. Stattdessen wird die Prädiktionskraft der einzelnen Modelle durch eine Bootstrap-basierte \(k\)-fold Cross Validation als Modifikation des Ansatzes von Efron und Tibshirani (1997) evaluiert, wobei instabile Modelle aussortiert werden. Anschließend werden pro Kreis für jede verbleibende Modellspezifikation alters- und geschlechtsreferenzierte Prädiktionen der Gesamtprävalenz erzeugt. Hierbei dienen die stationären Behandlungshäufigkeiten der Gesamtbevölkerung als Benchmarks, um den kassenspezifischen Bias zu korrigieren und kleinräumige Prädiktionen hinsichtlich der Krankheitshäufigkeiten zu erzeugen. Die hieraus erhaltenen Ergebnisse bilden dann eine Prädiktionsverteilung über die regionale Gesamtprävalenz, von welcher dann ein plausibelster Schätzwert und ein plausibler Bereich abgeleitet werden.

Die Gliederung des Beitrags stellt sich wie folgt dar. Zunächst werden in Abschn. 2 die Bedeutung kleinräumiger Messwerte zur Krankheitsprävalenz und die Erfassung regionaler Gesundheitsdisparitäten thematisiert. Dann wird in Abschn. 3 die Schätzmethodik, anhand welcher auf Basis der Routinedaten der AOK kleinräumige Krankheitshäufigkeiten geschätzt werden, ausführlich beschrieben. In Abschn. 4 wird die Methodik anschließend angewendet, um anhand des Versichertenstamms der AOK von 2016 alters- und geschlechtsreferenzierte Krankheitshäufigkeiten für Diabetes Mellitus Typ 2 (im Folgenden Typ-2-Diabetes) für die deutsche Bevölkerung zu schätzen. Abschn. 5 schließt mit einem Fazit und einem Ausblick.

2 Hintergrund

2.1 Regionale Variation in der Gesundheit

Regionale Disparitäten sind in wohl allen gesellschaftlichen Feldern und Raumeinheiten feststellbar (Frankenfeld 2005). Auch im Gesundheitssektor sind sie offenkundig: So unterscheiden sich Regionen hinsichtlich ihrer Ausstattung mit Krankenhäusern, in der (Fach‑) Arztdichte und Erreichbarkeit wie auch in der Verfügbarkeit weiterer Leistungserbringer, zum Beispiel Physiotherapeuten oder Apotheken. Darüber hinaus sind regional vor allem auch Unterschiede bei der Häufigkeit von Erkrankungen sowie der Inanspruchnahme von Leistungen erkennbar (Günster et al. 2019; Hecken 2018; Klauber et al. 2016; Bertelsmann Stiftung 2015). Um diese Disparitäten genauer beleuchten und Ursachen erhöhter Erkrankungsraten untersuchen zu können, bedarf es zunächst adäquater Analyseeinheiten. So sind geeignete Raumeinheiten und Datengrundlagen zu wählen, die es ermöglichen Indikatoren zu bestimmen, auf deren Basis genauere Untersuchungen erfolgen können (Frankenfeld 2005).

Der größte analytische Mehrwert von Gesundheitsdaten ergibt sich somit bei kleinräumiger und zugleich möglichst umfassender, also bundesweiter Betrachtungsweise. Denn erst im Vergleich können überhaupt regionale Variationen auffallen, und erst im Vergleich kann ein bestimmter Status quo einer Region als positiv oder negativ bewertet werden. Wird zum Beispiel ein westfälischer Landkreis hinsichtlich des Gesundheitszustandes von Kindern untersucht, so ist eine Bewertung für diese Region nur bedingt möglich, selbst wenn umfassende Gesundheitsindikatoren vorliegen. Fehlen Vergleichsinformationen zu ähnlichen oder auch andersartigen Regionen, so fehlt eine geeignete Bewertungsskala zur Einordnung des Gesundheitszustandes. Und selbst die Daten sämtlicher Landkreise des zugehörigen Bundeslandes Nordrhein-Westfalen sind für eine umfängliche Bewertung nicht hinreichend. Es fehlen überregionale Vergleiche, beispielsweise mit den Kindern in sächsischen Landkreisen, wo sich die Situation möglicherweise deutlich anders darstellt. Unterschiedliche Versorgungsstrukturen, Präventionsangebote oder aber Einflussfaktoren auf die Gesundheit wie der soziökonomische Status können hier eine Rolle spielen. Die Darstellung von Unterschieden ermöglichen einen Ansatzpunkt die Ursachen zu prüfen.

Bundesweite Gesundheitsinformationen auf kleinräumiger Ebene werden jedoch in Deutschland bisher kaum bereitgestellt. Das bedeutet, dass bei gesundheitsrelevanten Entscheidungen in der Politik und in den Kassen auf Kennzahlen zurückgegriffen wird, die den Durchschnitt für ein größeres geographisches Kollektiv mit inhomogener siedlungs- und infrastruktureller Prägung bilden (zum Beispiel für eine Kassenärztliche Vereinigung). Auf diese Weise wird der durchschnittliche Gesundheitszustand einer sehr großen Population dargestellt, die gegebenenfalls unter sehr heterogenen strukturellen Bedingungen lebt. Die darunterliegenden räumlichen Disparitäten führen letztlich dazu, dass es möglicherweise zu regionalen Fehlsteuerungen der Versorgung und damit einer suboptimalen Versorgung kommt.

2.2 Vom Nutzen einer öffentlichen Gesundheitsberichterstattung

Zunächst stellt sich die Frage, warum es überhaupt eine (öffentliche) Berichterstattung zur Gesundheit gibt. Zahlreiche Versicherungs‑, Versorgungs- und Fürsorgeinstitutionen begründen sich über die Leitidee, dass es eine gesamtgesellschaftliche Aufgabe sei, für die Würde des Einzelnen und das Recht auf körperliche Unversehrtheit einzutreten. Humanität und Solidarität sind Werte, die in Deutschland nach erbitterten Kämpfen zwischen den verschiedenen gesellschaftlichen Kräften im 19. Jahrhundert zum Sozialstaatsprinzip und zu zahlreichen Systemen der sozialen Sicherheit geführt haben. Dieser Umstand mündete schließlich im Jahr 1883 im Gesetz betreffend der Krankenversicherung der Arbeiter und auch in der Gründung der Allgemeinen Ortskrankenkassen (Tennstedt 1997; Reiners 2008).

Das deutsche Sozialstaatsprinzip und die gesetzlichen Krankenkassen sind seither unauflöslich miteinander verbunden. Obwohl im Grundgesetz ein Recht auf Gesundheit nicht explizit aufgeführt wird, erfüllt dieses nicht verbriefte Recht die Prinzipien unseres Sozialstaates. Gleichzeitig wird dem breiten gesellschaftlichen Konsens entsprochen, der hinter Institutionen wie dem Kranken- und Pflegeversicherungssystem steht (Pestalozza 2007). Somit geht die Gesundheitsberichterstattung des Bundes und der Länder wie auch die Armuts- und Sozialberichterstattung auf die Wohlfahrtsfürsorge des Staates zurück. Möglich wird das Recht auf Wohlfahrt und Gesundheit jedoch nur, wenn der Gesundheitszustand der Bevölkerung bekannt ist. Nur mit einer Erfassung des Gesundheitszustands, bei welcher auch die regionalen Morbiditätsunterschiede in der Bevölkerung berücksichtigt werden, ist eine angemessene flächendeckende Gesundheitsversorgung realisierbar.

Im Mittelpunkt der Gesundheitsberichterstattung der Bundesländer in Deutschland steht die Beschreibung der gesundheitlichen Lage der Bevölkerung.Footnote 2 Im Zusammenhang mit der demographischen, sozialen und ökonomischen Entwicklung werden die Inanspruchnahme von Leistungen der Gesundheitsversorgung, die personellen Ressourcen sowie die Ausgaben dargestellt und interpretiert. In der aktuell gültigen Fassung von 2003 wurde durch die Arbeitsgemeinschaft der Obersten Landesgesundheitsbehörden (AOLG) ein IndikatorensatzFootnote 3 abgestimmt, der in der Gesundheitsberichterstattung der Länder, soweit es die entsprechende Datenlage ermöglicht, zur Anwendung kommen kann. Über einen Satz von Kernindikatoren, der von allen Bundesländern vorgehalten werden sollte, ist eine Vergleichbarkeit der Bundesländer gewährleistet. Zudem ist angestrebt, dass diese Kernindikatoren kompatibel zu Indikatoren der Europäischen Union sind. Sofern keine Länderdaten zur Verfügung stehen, werden für die Gesundheitsberichterstattung des Bundes vom Statistischen Bundesamt und dem Robert Koch Institut sowie weiteren Datenhaltern Bundesindikatoren berechnet. Die Gesundheitsberichterstattung (GBE) des BundesFootnote 4 wurde in den 1990er ins Leben gerufen und ist seitdem gemeinsame Aufgabe des Robert Koch-Instituts und des Statistischen Bundesamts. In der Gesundheitsberichterstattung des Bundes fließen im Wesentlichen Daten aus Befragungsstudien, Registerdaten und Daten des statistischen Bundesamtes ein. Das Leibnitz-Institut für Sozialwissenschaften (GESIS) hat einen Indikatorsatz entwickelt, der beim Aufbau der Berichterstattung des Bundes zum Einsatz kam (Brecht 1990). Die gewonnenen Daten werden über das Informationssystem der Gesundheitsberichterstattung des Bundes zur Verfügung gestellt bzw. über die Journals of Health Monitoring des Robert Koch-Instituts sowie in Berichten zu Schwerpunktthemen angeboten. Zur Vergleichbarkeit sowohl auf Länderebene als auch mit Daten der Europäischen Union wird in der Regel in entsprechenden Publikationen auf eine definierte Europapopulation standardisiert (Zapf 1974, 1975, 1977; Robert Koch-Institut 2017b). Ein zunehmendes Interesse der Bundesländer die gesundheitliche Ebene auch regional abzubilden führt zur Entwicklung von Indikatoren auf kommunaler Ebene. Es werden Gesundheitsberichte entwickelt, die es erlauben die gesundheitliche Lage der Bevölkerung auf kommunaler Ebene zu bewerten und Handlungsfelder zu identifizierenFootnote 5.

In das Forschungsspektrum rückten seit den 1990er Jahren im Zuge der Sozialberichterstattung vermehrt auch die Ungleichheiten beim Krankheits- und Sterberisiko, die sich auf die soziale Lage oder Schicht sowie das Geschlecht zurückführen lassen (Mielck 2008). Gesundheitliche Disparität, bedingt durch den soziokulturellen Status, ist grundsätzlich mit den Prinzipien des Sozialstaates nicht vereinbar. Insofern nutzt die öffentliche Gesundheitsberichterstattung Indikatoren, die (wenn auch nur implizit) gesundheitliche Ungleichheit aufgrund der sozioökonomischen Lage beschreiben. Die Anforderungen an jegliche Berichtssysteme umfassen deshalb auch Hinweise auf gesundheitspolitische Stellschrauben zur Nivellierung hochrelevanter Unstimmigkeiten. Die Deskription regionaler Unterschiede soll diejenigen Krankheiten und Risikofaktoren identifizieren, bei denen die gesundheitlichen Ungleichheiten am größten sind (Kunst 2009).

2.3 Nutzen kleinräumiger Darstellungen des Gesundheitszustandes

Wie bereits erwähnt, bildet die Darstellung der gesundheitlichen Lage auf regionaler Ebene das Fundament für verschiedene relevante Handlungsfelder wie Gesundheitspolitik, Versorgungsforschung und die ärztliche Bedarfsplanung. Auch Präventionsangebote oder Selektivverträge von Krankenkassen können mit regionalisierten Daten deutlich zielgerichteter ausgestaltet werden, wovon schließlich die Versicherten profitieren. Unabdingbar dafür sind jedoch valide Kennziffern zur Häufigkeit von Krankheiten auf kleinräumiger Ebene (Mangiapane 2014; Nolting 2015; Klauber et al. 2012). Die so gewonnenen Informationen können beispielsweise für folgende Zwecke genutzt werden:

  • Analyse und Bewertung der (infra-)strukturellen Rahmenbedingungen im Kontext von Krankheits- und Sterberisiko (Morbidität und Mortalität),

  • Aufzeigen und Analysieren von Gründen für regionale Ausgabenunterschiede

  • Identifikation von Regionen mit verbesserungswürdiger Versorgungsqualität oder

  • erhöhten Versorgungsbedarfen,

  • Entwicklung maßgeschneiderter indikationsspezifischer und regionalisierter Präventions‑, Früherkennungs- und Versorgungsangebote,

  • gezielte Steuerung der Versorgung anstelle des „Gießkannenprinzips“.

In einem ersten Schritt müssen also die regionalen Variationen des Gesundheitszustandes sichtbar gemacht und Zusammenhänge aufgezeigt werden. Basierend darauf können Unterschiede bewertet werden. Initiativen und Präventionsprogramme können anschließend problemorientiert und zielgerichtet hinsichtlich relevanter Risikogruppen oder spezifischer Risikogebiete eingesetzt werden (Altgeld 2008).

Die Anreicherung von regionalisierten Gesundheitsinformationen um kleinräumige sozioökonomische sowie weitere externe Datenquellen ermöglicht die tiefergehende Untersuchung des Zusammenhangs von Gesundheitsparametern mit der (medizinischen) Infrastruktur, den Umwelt- und Arbeitsbedingungen, sozioökonomischen Faktoren oder den kulturellen Mustern, die das gesundheitsbezogene Verhalten von Patienten und Ärzten beeinflussen. Einige deutsche Studien haben den Zusammenhang zwischen dem Wohnort (angereichert um einen regionalbasierten sozioökonomischen Index) und dem Gesundheitszustand der Bevölkerung kleinräumig analysiert. Beispielhaft seien hier Untersuchungen zum Einfluss von Umweltbedingungen, regionaler Deprivation, der Versorgungsstruktur und der Präferenzen von Patienten oder Ärzten erwähnt (Behrens und Noll 2006; Mielck 2008; Maier et al. 2012, 2013; Sundmacher und Busse 2012; Burgdorf und Sundmacher 2014; Kroll et al. 2016; Storz-Pfennig 2012).

Deutschland folgt damit auch einem internationalen Trend: Einige europäische Länder, etwa Großbritannien, Spanien oder die Niederlande, stellen seit Jahren im Internet den nationalen Gesundheitszustand in Form von Karten und Abbildungen zu speziellen Indikatoren dar. Dabei werden unter anderem die Säuglingssterblichkeit, die Prävalenz weitverbreiteter Krankheiten oder spezifische Eingriffshäufigkeiten abgebildet. In Anlehnung an die erste kleinräumige und kartografische Darstellung gesundheitsrelevanter Merkmale, den Dartmouth Atlas of Health, werden bei diesen Projekten landesweite kleinräumige Analysen in einem Gesundheitsatlas zusammengestellt. Der Ansatz, der bei den angewendeten Kennzahlen verfolgt wird, ist immer raumorientiert (Wennberg und Gittelsohn 1973; Wennberg 20102014). Adressaten sind zum Beispiel Fachjournalisten, politische Entscheidungsträger oder Wissenschaftler (Jong 2008; van den Berg et al. 2010; Klemperer und Robra 2014; Mangiapane 2014; Böcken et al. 2015). Durch die Darstellung der Ergebnisse, bei der die Vorteile der visuellen Kommunikation genutzt werden, wird neben Akteuren des Gesundheitssystems aber auch die interessierte Öffentlichkeit erreicht. Somit wird eine umfassende, grundlegende Informationsbasis zur gesundheitlichen Lage einer Population zur Verfügung gestellt.

2.4 Limitierungen bestehender regionaler Darstellungen: mangelnde Kleinräumigkeit oder mangelnde Repräsentativität

Prinzipiell existiert bereits eine Vielzahl verschiedener Datenquellen und Gesundheitsinformationen, die Aussagen über den Gesundheitszustand der Bevölkerung zulassen. Ganz besonders hervorzuheben ist hier die Gesundheitsberichterstattung des Robert Koch-Instituts. Datenquellen zu ausgewählten Erkrankungen stehen zum Beispiel in Form von Befragungen oder Untersuchungserhebungen (Rommel 2016) oder Registerdaten zur Verfügung (Radespiel-Tröger und Meyer 2017). Jedoch erlaubt deren Stichprobenumfang häufig nur eine Darstellung auf Bundeslandebene, aber keine kleinräumigere regionale Gliederung (Kroll und Lampert 2011). Für eine Darstellung von Gesundheitsindikatoren bis auf Ebene der Kreise wurden Schätzverfahren unter Nutzung von Hilfsinformationen untersucht (Kroll et al. 2017). In der Regel fokussieren vorhandene Erhebungs- oder Registerdaten zudem auf nur wenige oder einzelne Krankheiten, sodass kein umfassendes Bild über verschiedene Krankheiten oder Gesundheitszustände erhoben werden kann. Weitere Limitierungen bei Befragungen mit freiwilliger Teilnahme ergeben sich aus den bekannten Problemen des Nonresponse-Bias (Cheung et al. 2017).

Aufgrund der genannten Einschränkungen der Befragungsdaten werden in den letzten Jahren auch vermehrt Routinedaten der gesetzlichen Krankenkassen (GKV) zur Erforschung des Gesundheitszustands verwendet. Über einen anonymisierten Versichertenbezug ist es möglich sektorübergreifende Kontakte des Versicherten mit dem Gesundheitswesen abzubilden. Hierrüber sind sowohl Quer- als auch Längsschnittanalysen möglich (Lange et al. 2014). So werden diese Daten zum Beispiel für die Diabetes-Surveillance des Robert Koch-Instituts (Schmidt et al. 2017), der regionalisierten Krankheitslastberechnung (Rommel et al. 2018) oder für regionalisierte Darstellungen des Versorgungsgeschehens (Mangiapane 2014) genutzt. In den Routinedaten der Krankenkassen sind neben den krankheitsbezogenen Informationen auch Angaben zum Wohnort der Versicherten enthalten, sodass kleinräumig sehr differenzierte Auswertungen möglich sind (Kauhl et al. 2016). Sofern eine Krankenkasse bundesweit flächendeckend tätig ist, können mit deren Routinedaten also kleinräumige Untersuchungen zum Gesundheitszustand durchgeführt werden.

Auch die Routinedaten der gesetzlichen Krankenkassen unterliegen jedoch wichtigen Limitierungen – am bedeutsamsten ist hier die Einschränkung, dass nur Informationen in den Daten enthalten sind, die kosten- oder erstattungsrelevant sind. Bei den Diagnose- und Leistungsdaten sind zudem Verzerrungen durch Rechtfertigungs- oder Abrechnungsstrategien zu berücksichtigen oder durch systembedingte Veränderungen (Glaeske 2010; Ohlmeier et al. 2014). Die auf Basis von Routinedaten gewonnenen Krankheitshäufigkeiten werden daher mit dokumentierter bzw. administrativer Prävalenz bezeichnet. Aus epidemiologischer Sicht fehlen zudem wichtige klinische Angaben, Labor- und Messwerte sowie Informationen zum Gesundheitsverhalten – wie zum Beispiel Blutdruckwerte, Körpergewicht oder sportliche Aktivität. Trotz dieser Limitierungen lassen sich mit Routinedaten Krankheitshäufigkeiten über Jahre und Regionen hinweg gut darstellen (Swart et al. 2008). Ein weiterer Vorteil in der Nutzung von Routinedaten ist die relativ kostengünstige Verfügbarkeit, da diese Daten für administrative Zwecke erhoben werden und der Datenanalyse somit leicht zugänglich sind. Zudem ist in Deutschland ein Großteil der Einwohner gesetzlich krankenversichert,Footnote 6 sodass Verzerrungen durch Interviewer-Effekte, Recall-Bias oder den Ausschluss von Personengruppen, die in Befragungsdaten schwer erreichbar sind, ebenfalls nicht bestehen (Gerste et al. 2016). Somit stellen Routinedaten eine sinnvolle Ergänzung zu Primärdaten aus epidemiologischen Studien hinsichtlich einer vollständigen Erfassung von Gesundheitsindikatoren dar.

Das große Potenzial für Analysen anhand der Routinedaten der gesetzlichen Krankenkassen hat auch der Gesetzgeber mit der Datentransparenzverordnung (DaTraV) im Jahr 2012 anerkannt. Diese Verordnung ermöglicht es, die im Rahmen des Risikostrukturausgleichs an das Bundesversicherungsamt übermittelten Krankenkassendaten beim DIMDI (Deutsches Institut für Medizinische Dokumentation und Information) bereitzustellen. Nutzungsberechtigte Institutionen können für fest definierte Auswertungszwecke Daten in aggregierter Form anfordern. Mit der Aktualisierung des SGB V § 303b im Jahr 2014 sind Angaben zum Regionalkennzeichen (Postleitzahl) enthalten. Somit sind auf diesem Datenbestand regionalisierte Auswertungen zu den mehr als 72,8 Mio. gesetzlich krankenversicherten Personen in Deutschland im Jahre 2018 möglich. Allerdings liegen Regionalkennungen derzeit nur für die Berichtsjahre 2009 und 2010 vor und werden voraussichtlich erst ab 2020 wiederum ab dem Berichtsjahr 2016 angeboten (DIMDI 2018). Nach einer zweijährigen Erprobungsphase wurde entsprechend der Datentransparenzverordnung das Informationssystem Versorgungsdaten 2015/2016 einer ersten Evaluation unterzogen. Die Einschätzungen vom DIMDI wie auch die der Nutzer aus den nutzungsberechtigten Institutionen zeigen zahlreiche Handlungsfelder: So scheint unter anderem eine Optimierung des Datenangebots hinsichtlich Umfang, Aktualität, Struktur und Qualität aber auch die Optimierung des Antragsverfahrens zur Reduzierung des Aufwands und der Bearbeitungsdauer notwendig zu sein (DIMDI 2016a). Die für die Nutzung der DaTraV-Daten zu bewältigenden hohen Aufwände sind einer explorativen Nutzung der Daten zur Generierung neuer Methoden nicht zuträglich. Darüber hinaus kann die Wahrung des Identitätsschutzes der Versicherten ggf. eine Datenbereitstellung von granularen regionalen Daten zu Forschungszwecken verhindern.

Bundesweit regionalisierte Analysen sind auch im Wissenschaftlichen Institut der AOK (WIdO) anhand der anonymisierten Routinedaten von mehr als 26,5 Mio. AOK-Versicherten in 2018 möglich. Diese Daten werden für sektorenspezifische Analysen wie beispielsweise im Arzneiverordnungs-Report (Schwabe et al. 2018), Krankenhaus-Report (Klauber et al. 2019), Fehlzeiten-Report (Badura et al. 2018), Pflege-Report (Jacobs et al. 2018) oder Heilmittelbericht (Waltersbacher 2018) wie auch sektorenübergreifend im Versorgungs-Report (Günster et al. 2019) genutzt. Doch darüber hinaus können systematisch Erkrankungshäufigkeiten zu verschiedenen Krankheiten regional nach Kreisen und kreisfreien Städten ausgewertet werden. Hierüber können gezielt Regionen mit Handlungsbedarf detektiert werden und vertiefende zielgerichtete Analysen und Maßnahmen erfolgen. Diese Daten sind, im Vergleich zu den DaTraV-Daten, mit geringerem Zeitverzug nutzbar. Zudem liegen – über den DaTraV-Datensatz hinaus – weitere relevante Leistungsdaten wie etwa zu Krankenhausambulanzen, Heil- und Hilfsmittelverordnungen sowie Operationen bzw. Prozeduren vor (Nimptsch et al. 2014).

Die wesentliche Limitierung in der Nutzung von Routinedaten der gesetzlichen Krankenkassen ist jedoch die Tatsache, dass die Versichertenstruktur keine Zufallsstichprobe der deutschen Bevölkerung darstellt. Gesetzlich krankenversicherte Personen unterscheiden sich systematisch von privat versicherten Personen, da die private Krankenversicherung nur für spezielle Berufsgruppen oder bei einem die Versicherungspflichtgrenze überschreitenden, höheren Einkommen möglich ist (Sozialgesetzbuch SGB V, §§ 5 und 6). In vielen Untersuchungen wurden gesundheitliche Unterschiede zwischen privat und gesetzlich krankenversicherten Personen sowie zwischen verschiedenen gesetzlichen Krankenkassen gezeigt (Huber et al. 2010; Kriwy und Mielck 2006; Hoffmann und Icks 2012), wobei GKV-Versicherte in der Regel kränker waren – auch nach Kontrolle für demographische Faktoren. Diese Ergebnisse stehen im Einklang mit Untersuchungen, die einen Zusammenhang zwischen sozialem Status und Gesundheitszustand zeigen (Lampert et al. 2016). Dementsprechend ist davon auszugehen, dass neben rein demographischen Faktoren wie Alter und Geschlecht auch sozioökonomische Einflüsse wie Bildung, Einkommen und berufliche Stellung mit Morbiditätsunterschieden assoziiert sind – und gleichzeitig sind diese sozialen Faktoren des Einkommens und des Berufs mit der Zugehörigkeit zur gesetzlichen oder zur privaten Krankenversicherung assoziiert.

Die Mitgliedschaft einer Person bei einer Krankenkasse (hier: AOK – Die Gesundheitskasse) kann demnach statistisch informativ für ihr Risiko hinsichtlich bestimmter Krankheiten sein. Dies führt zu Verzerrungen, wenn (regionale) Krankheitshäufigkeiten (Prävalenzen) der Gesamtbevölkerung auf Basis der Versicherten einer spezifischen Krankenkasse geschätzt werden. Um regionale Prävalenzschätzungen für die Gesamtbevölkerung auf Basis der Mitglieder einer Krankenkasse durchzuführen, muss demnach die Informativität der Kassenzugehörigkeit hinsichtlich der Morbidität berücksichtigt werden. Die kassenspezifische Krankheitshäufigkeit nur nach Alter und Geschlecht zu adjustieren ist hierfür nicht ausreichend, da Morbiditätsunterschiede auch nach einer Alters- und Geschlechtsstandardisierung bestehen bleiben können, wie in Abschn. 1 bereits erwähnt wurde.

3 Methodik

3.1 Daten

3.1.1 Datenquellen

Die AOK-Gemeinschaft, bestehend aus elf regionalen AOKs, versicherte im Jahr 2016 rund 25 Mio. Personen. Dies entsprach knapp 35 % aller gesetzlich Krankenversicherten (KM6-Statistik 2016) und knapp 31 % der Bevölkerung Deutschlands. Im Wissenschaftlichen Institut der AOK (WIdO) liegen zu diesem Versichertenkollektiv anonymisierte Routinedaten zu Diagnosen, Prozeduren, Arznei- und Heilmittelverordnungen sowohl aus dem ambulanten wie auch dem stationären Versorgungsbereich im Längsschnitt vor (Nimptsch et al. 2014). Auf Basis dieser Daten können Krankheitshäufigkeiten (Prävalenzen und Inzidenzen) abgebildet werden. Die Datenverfügbarkeit, die über die Strukturen des Datensatzes entsprechend der Datentransparenzverordnung (DaTraV) hinausgeht, ermöglicht zudem umfangreichere Plausibilisierungen der verwendeten Daten zur Definition von Morbidität (Swart et al. 2014). Versichertenbezogene Informationen zu Alter, Geschlecht und Regionalkennzeichen des Wohnorts erlauben, die Alters- und Geschlechtsstruktur sowie die regionale Zuordnung zu Landkreisen und kreisfreien Städte abzubilden. Zur Alters- und Geschlechtsstruktur der Bevölkerung sind korrespondierende Referenzinformationen über das Statistische Bundesamt regional verfügbar (Statistisches Bundesamt 2018). Somit können strukturelle Unterschiede der AOK-Versicherten zur Bevölkerung hinsichtlich Alter und Geschlecht innerhalb der Regionen über eine Standardisierung ausgeglichen werden.

Als Datenquelle, die auch Morbiditätsaspekte enthält, stellt das Statistische Bundesamt die fallpauschalenbezogene Krankenhausstatistik (DRG-Statistik nach § 21 KHEntgG) zur Verfügung (Statistisches Bundesamt 2017). Diese Statistik umfasst jährlich die dokumentierten Diagnosen, Operationen und Prozeduren aller stationären Fälle in deutschen Krankenhäusern für die gesamte deutsche Bevölkerung (GKV, PKV, Touristen aus dem Ausland). Diese Daten nach dem Wohnort des Patienten regionalisiert bis auf Ebene der Kreise und kreisfreien Städte wurden dem WIdO durch eine entsprechende Datenbereitstellung durch das statistische Bundesamt bereitgestellt. Weiterhin sind die Diagnoseangaben bis auf Ebene des dreistelligen ICD-10-Codes vorhanden und werden nach Alters- und Geschlechtsgruppen differenziert ausgewiesen. Es werden sowohl die den Krankenhausaufenthalt bedingenden Diagnosen als auch relevante Nebendiagnosen übermittelt. Für die AOK-Versicherten können aus den AOK-eigenen Routinedaten analoge Statistiken erstellt werden. Die Daten der Bevölkerungsstatistik und der DRG-Statistik stellen somit eine geeignete Hilfsinformation dar, um strukturelle Informationen hinsichtlich der Morbidität sowohl nach Alter und Geschlecht als auch nach Kreisen und kreisfreien Städte abzubilden.

Für die Anwendung der Methodik im Rahmen des vorliegenden Beitrags werden dokumentierte Krankheitsprävalenzen für Typ-2-DiabetesFootnote 7 betrachtet, wobei die Prävalenzen für die Wohnbevölkerung ausgehend von den AOK-Krankheitshäufigkeiten unter Nutzung der Daten zu stationären Behandlungshäufigkeiten und der Bevölkerungsdemographie geschätzt werden. Die dokumentierten AOK-Krankheitshäufigkeiten für Patienten mit Typ-2-Diabetes werden anhand der AOK-Leistungsdaten nach einem hierarchischen Algorithmus erfasst. Dieser umfasst eine interne Diagnosevalidierung. Es werden die relevanten Diagnosen für Typ-2-Diabetes sowohl in der stationären als auch in der ambulanten Versorgung geprüft. Die dokumentierten Diagnosen werden mitunter durch Berücksichtigung spezifischer Arzneimittelverordnungen sowie der Teilnahme im Disease Management Programm zu Typ-2-Diabetes zusätzlich validiert.

Datengrundlage zur Ermittlung der dokumentierten Prävalenz des Typ-2-Diabetes sind die in einem Jahr dokumentierten Diagnosen zu Diabetes (ICD: E10–E14 der ICD-10-GM Klassifikation (DIMDI 2016b)). Hierbei werden ausschließlich ambulante Diagnosen mit dem Zusatzkennzeichen „gesichert“, stationäre Haupt- und Nebendiagnosen sowie Diagnosen aus dem ambulanten Krankenhausbereich (wie zum Beispiel der ambulanten spezialfachärztlichen Versorgung im Krankenhaus oder der ambulanten integrierten Versorgung) berücksichtigt. Da davon auszugehen ist, dass die Diagnosen teilweise inkonsistent dokumentiert werden (bspw. gleichzeitig Diagnosen vom Typ 1 und Typ 2; Tamayo et al. 2016), erfolgt eine Einteilung in Typ-1- und Typ-2-Diabetes nach in einem mehrstufigen Prozess. Im ersten Schritt werden Patienten ohne Insulinverordnungen oder Patienten mit Verordnungen von oralen Antidiabetika (außer Metformin) dem Typ-2-Diabetes zugewiesen. So werden knapp 85 % der initial ermittelten Diabetes-Patienten dem Typ-2-Diabetes zugewiesen. Für die verbleibenden Patienten wird geprüft, ob ausschließlich eindeutige stationäre Hauptdiagnosen zu E11 „Nicht primär insulinabhängiger Diabetes mellitus [Typ-2-Diabetes]“ dokumentiert wurden. Auch hier kann von einer korrekten Dokumentation des Typ-2-Diabetes ausgegangen werden. Im nachfolgenden Schritt wird für die noch nicht zugewiesenen Patienten geprüft, ob eine eindeutige Einschreibung im Disease-Management-Programm (DMP) zu Typ-2-Diabetes vorliegt. Für die restlichen Patienten erfolgt die Zuweisung in Typ-2-Diabetes, wenn die ambulanten Diagnosen bzw. stationären Nebendiagnosen oder die ambulanten Krankenhausdiagnosen eindeutig einen Typ-2-Diabetes dokumentieren. Die nun verbleibende Patientengruppe wird über die relativen Häufigkeiten der dokumentierten Diabetesdiagnosen dem entsprechenden Diabetes zugewiesen, indem mindestens zwei Behandlungsfälle mehr mit einer Typ-2-Diagnose (ICD E11) als mit einer Typ-1-Diagnose (ICD E10) oder sonstigen spezifischen Diabetes-Diagnose (ICD E13) vorgelegen haben müssen. Über diesen Zuordnungsalgorithmus wurden im Jahr 2016 96,7 % der Diabetiker in der AOK dem Typ-2-Diabetes zugeordnet, 2,8 % dem Typ 1 und 0,5 % der Diabetiker konnten keinem dieser beiden Diabetestypen zugeordnet werden.

Es sei nochmals darauf hingewiesen, dass es sich hierbei um die dokumentierte Prävalenz des Typ-2-Diabetes handelt, die näherungsweise die tatsächliche Typ-2-Diabetes-Prävalenz beschreibt. Unentdeckter bzw. nicht diagnostizierter Diabetes kann auf Basis dieser Daten nicht erfasst werden. Dies führt möglicherweise zu einer Unterschätzung tatsächlicher Typ-2-Diabetes-Prävalenz.

In den AOK-Diagnosedaten werden Diagnosen der Neugeborenen häufig über die Krankenversichertenkarte der Mutter dokumentiert. Da in den Daten der DRG-Statistik (§ 21) des Statistischen Bundesamtes zu erwarten ist, dass derartige Diagnosen dem Alter und Geschlecht des Kindes zugeordnet sind, werden sie aus allen Datenkörpern entfernt. Die Versichertenzählung der AOK erfolgt über Versichertenjahre (Versichertendauer/Anzahl Tage im Berichtsjahr), da es sich bei den AOK-Versicherten um eine offene Kohorte handelt, sodass Versicherte unterjährig die Kassen verlassen oder neu hinzukommen können. Somit wird die durchschnittliche Versichertenanzahl innerhalb eines Jahres berechnet. Die Zählung der Bevölkerung erfolgt ebenfalls über die durchschnittliche Bevölkerungsanzahl mit Stand zum 31.12. des Berichtsjahres und des Vorjahres.

3.1.2 Regionale Gliederung und Altersgruppeneinteilung

Wie in Abschn. 1 bereits erwähnt, erfolgt die Schätzung der regionalen Krankheitshäufigkeiten anhand linearer Modelle mit regionaler Parameterschätzung. Somit ist es erforderlich, die Zellen (Kreise und kreisfreie Städte, Altersklasse, Geschlecht) zu übergeordneten Einheiten zusammenzufassen. Dazu wurden zunächst die Kreise und kreisfreien Städte nach Regionen der Kassenärztlichen Vereinigungen (KV-Regionen)Footnote 8 zusammengefasst. KV-Regionen sind administrative Gebiete, in denen das Vertragsgeschehen der Leistungserbringer mit den Kassen geregelt ist. So gibt es beispielsweise spezielle Arzneimittelvereinbarungen oder das Vergütungssystem der ambulanten kollektiven Versorgung auf Ebene der KV-Regionen. Die 401 Kreise und kreisfreie Städte des Jahres 2016 verteilen sich auf insgesamt 17 KV-Regionen. Die Stadtstaaten Berlin, Hamburg sowie Bremen/Bremerhaven stellen jeweils eine eigene KV-Region dar, wenngleich diese auch nur aus jeweils einem bzw. zwei Kreisen bestehen. Um eine ausreichende Beobachtungsanzahl auch in diesen KV-Regionen mit singulären Kreisen zu gewährleisten, wurden die Stadtstaaten zusammengefasst. In einer ersten Variante werden alle drei Stadtstaaten zu einer Region zusammengefasst. Aufgrund der Heterogenität der Städte wird zudem eine zweite Variante gewählt, bei der Bremen und Bremerhaven der benachbarten Region Niedersachsen zugeordnet werden. Die vier größten Kreise bzw. kreisfreien Städte Berlin, Hamburg, München und die Region Hannover werden zu einem großstädtischen Regionstyp zusammengefasst.

Ein dritter Ansatz ist es, die Daten nicht nach administrativen Gebieten, sondern nach siedlungsstrukturellen Typen zusammenzufassen. Dies soll der Tatsache Rechnung tragen, dass Unterschiede betreffend Risikofaktoren und Gesundheitszustand der Bevölkerung zwischen ländlichen und städtischen Regionen beschrieben wurden, beispielsweise für das Rauchverhalten sowie für Depressionen (Völzke et al. 2006; Busch 2013). In dieser Variante werden die Kreise und kreisfreien Städte nach ihren siedlungsstrukturellen Kreistypen und Regionstypen entsprechend der Klassifikation des Bundesinstituts für Bau‑, Stadt- und Raumforschung (BBSR) zusammengefasst (BBSR 2015). Aus der Kombination von drei verschiedenen Raumordnungstypen (städtische Regionen, Regionen mit Verstädterungsansätzen, ländliche Regionen) mit vier verschiedenen Kreistypen (Großstädte, städtische Kreise, ländliche Kreise mit Verdichtungsansätzen, dünn besiedelte ländliche Kreise) ergeben sich zunächst zwölf Gruppen, wobei jedoch die Kombination „dünn besiedelter ländlicher Kreis“ in „städtischer Region“ nur zweimal auftrat. Um eine ausreichende Anzahl an Beobachtungen zu gewährleisten, wurde diese Kombination der Gruppe „dünn besiedelter ländlicher Kreis“ in „Regionen mit Verstädterungsansätzen“ zugewiesen, sodass elf verschiedene Kombinationen resultieren, die jeweils mindestens vier Kreise umfassen. Zusammenfassend liegen also drei verschiedene regionale Einteilungstypen vor, die in die verschiedenen Schätzungen eingehen.

Die Altersgruppeneinteilung basiert auf 19 Altersgruppen (0–4, 5–9, 10–14, …, 80–85, ≥90 Jahre). Je nach Krankheit, welche im Zuge des Projekts bearbeitet wird, sind bestimmte Altersgruppenzellen wenig oder nahezu gar nicht besetzt. So erscheint es zum Beispiel wenig sinnvoll, für Patienten mit Demenz die Altersgruppen der Kinder zu betrachten. Daher wird aus sachlogischen Vorüberlegungen und aufgrund der Häufigkeitsverteilung der Patientenraten eine Altersgruppeneinteilung vorgenommen. Ziel ist, eine Altersklasseneinteilung zu wählen, die die empirische Verteilung der Prävalenzraten nahezu normalverteilt abbildet. Hierzu werden die Häufigkeitsverteilungen (Histogramm und Kerndichteschätzer) geprüft und Altersgruppen entsprechend zusammengefasst. Die Altersklasseneinteilung ist somit krankheitsspezifisch. Je nach Krankheit werden zwischen vier und zehn Altersgruppen berücksichtigt. Die Altersgruppeneinteilung für Typ-2-Diabetes in diesem Beitrag ist: bis 54 Jahre (AK 1), 55–59 Jahre (AK 2), 60–64 Jahre (AK 3), 65–69 Jahre (AK 4), 70–74 Jahre (AK 5), 75–79 Jahre (AK 6), 80–84 Jahre (AK 7), 85–89 Jahre (AK 8), 89 Jahre und älter (AK 9).

3.2 Statistische Grundlagen

Zunächst wird der Inferenzschluss, welcher dem Schätzverfahren zugrunde liegt, skizziert. Ausgangspunkt ist der Versichertenstamm der AOK-Gemeinschaft inklusive seiner gesundheitsbezogenen Informationen. Hierfür wird der statistische Rahmen von Burgard et al. (2019) verwendet. Es sei \(U\) die Gesamtbevölkerung bestehend aus \(N\) Individuen, deren Krankheitshäufigkeiten einer relevanten Diagnose kleinräumig und referenziert nach Alter und Geschlecht geschätzt werden sollen. Die Gesamtbevölkerung \(U\) kann als die Vereinigung von Mitgliedern \(\tilde{U}\) und Nicht-Mitgliedern \(U \backslash \tilde{U}\) der AOK ausgedrückt werden. Zusätzlich wird \(U\) hinsichtlich seiner Geographie in drei hierarchische Aggregationsebenen unterteilt:

  • Ebene 1: Regionen \(r\) der Größe \(N_{r}\) mit \(r=1,\ldots ,R\)

  • Ebene 2: Kreise \(d\) der Größe \(N_{rd}\) mit \(d=1, \ldots , D_{r}\)

  • Ebene 3: Zellen \(c\) der Größe \(N_{rd}^{c}\) mit \(c=1,\ldots ,C\), die Alters- und Geschlechtskombinationen darstellen.

Dabei ist zu beachten, dass die Anzahl der Regionen \(R\) von der in Abschn. 3.1.2 dargestellten Einteilung abhängt. Zusätzlich wird die Anzahl der Zellen \(C\) innerhalb eines Kreises von der Einteilung der Alters- und Geschlechtskombinationen determiniert, welche auch in Abschn. 3.1.2 festgesetzt wurde. Die Zellgrößen \(N_{rd}^{c}\) und der Anteil an Mitgliedern innerhalb einer Zelle \(\tilde{N}_{rd}^{c}/N_{rd}^{c}\) sind aus den Krankenkassendaten und der Bevölkerungsstatistik bekannt. Darüber hinaus wird aus Gründen der Einfachheit zunächst angenommen, dass jede Zelle eine nicht-leere Teilmenge an Mitgliedern hat (\(\tilde{N}_{rd}^{c}>0\forall r,d,c\)). Das Ziel ist nun die zellspezifischen Krankheitshäufigkeiten der relevanten Diagnose in der Gesamtbevölkerung \(U\) zu schätzen. Es sei \(y_{rd}^{c}\) die unbekannte Krankheitshäufigkeit der Gesamtbevölkerung in Zelle \(c\) des Kreises \(d\), welcher sich in Region \(r\) befindet. Aus den Krankenkassendaten ist die kassenspezifische Krankheitshäufigkeit \(\tilde{y}_{rd}^{c}\leq y_{rd}^{c}\) für jede Zelle bekannt. Aufgrund der Informativität der Kassenzugehörigkeit für die Morbidität erhält man mit einer einfachen Skalierung der kassenspezifischen Krankheitshäufigkeiten durch Bedingung auf regionale Demographie eine verzerrte Schätzung der Zellprävalenz:

$$E\left(\tilde{y}_{rd}^{c}\right| \tilde{N}_{rd}^{c})\neq E\left(y_{rd}^{c}\right| N_{rd}^{c})\rightarrow E\left(\frac{N_{rd}^{c}}{\tilde{N}_{rd}^{c}} \tilde{y}_{rd}^{c}\right)\neq y_{rd}^{c}\forall r,d,c,$$
(1)

wobei \(N_{rd}^{c}/\tilde{N}_{rd}^{c}\) den demographischen Skalierungsfaktor darstellt. Folglich gibt es systematische Unterschiede in den Krankheitshäufigkeiten zwischen dem Versichertenstamm der AOK und der Gesamtbevölkerung auf der Zellebene, welche sich nicht durch Alter und Geschlecht erklären lassen. Die Idee ist nun zusätzliche Daten zu verwenden, welche die Morbiditätsunterschiede zwischen den Populationen besser erklären. Wie zuvor bereits beschrieben, werden hierfür stationäre Behandlungshäufigkeiten der DRG-Statistik herangezogen. Die Auswahl der für die Morbiditätsadjustierung geeigneten Diagnosen innerhalb der DRG-Statistik erfolgt auf Basis multivariater Analyseverfahren, welche in Abschn. 3.3 beschrieben werden. Zunächst wird davon ausgegangen, dass entsprechende Diagnosen im Vorfeld bekannt sind. Es sei \(\boldsymbol{X}\) eine \([(C\cdot \sum _{r}D_{r})\times p]\)-Matrix mit Häufigkeiten ausgewählter Diagnosen auf der Zellebene, welche sich auf die Gesamtbevölkerung beziehen. Daran anknüpfend sei \(\tilde{\boldsymbol{X}}\) die gleiche Matrix, welche sich ausschließlich auf die AOK-Versicherten bezieht. Diese kann auf Basis der AOK-Routinedaten in Analogie zur DRG-Statistik erzeugt werden. Für die Häufigkeit in einer gegebenen Zelle werden \(\boldsymbol{x}_{rd}^{c}, \tilde{\boldsymbol{x}}_{rd}^{c}\) als \((1\times p)\)-Vektoren notiert. Wenn diese Hilfsinformationen über eine hinreichend große Prädiktivkraft hinsichtlich der zellspezifischen Krankheitshäufigkeiten verfügen, dann können die systematischen Morbiditätsunterschiede zwischen den Populationen durch sie erklärt werden und es gilt

$$E\left[y_{rd}^{c}\right| N_{rd}^{c},\boldsymbol{x}_{rd}^{c}=(x_{rd}^{c1},\ldots ,x_{rd}^{cp})]=E[\tilde{y}_{rd}^{c}|\tilde{N}_{rd}^{c},\tilde{\boldsymbol{x}}_{rd}^{c}=\left(\tilde{x}_{rd}^{c1},\ldots , \tilde{x}_{rd}^{cp}\right)].$$
(2)

Dies impliziert, dass nach der Bedingung auf Alter und Geschlecht sowie den stationären Behandlungshäufigkeiten keine systematischen Unterschiede in zellspezifischen Krankheitshäufigkeiten zwischen AOK-Versichertenstamm und Gesamtbevölkerung mehr existieren. Wenn diese Annahme hält, dann kann der Vorteil hinsichtlich der regionalen Beobachtungszahlen der Krankenkassendaten für eine modellbasierte und korrigierte Quantifizierung von \(y_{rd}^{c}\) im Lichte der in Gl. 1 dargestellten Verzerrung mit großer Präzision verwendet werden. Der Inferenzschluss wird in Abb. 1 nochmals vereinfacht dargestellt.

Abb. 1
figure 1

Skizze des Inferenzschlusses

Zunächst werden die kleinräumigen Morbiditätsstrukturen des AOK-Versichertenstammes auf AOK-Demographie sowie ausgewählte AOK-Routinedaten, welche analog zur DRG-Statistik erzeugt wurden, bedingt. Die Bedingung erfolgt dabei anhand von geeigneten statistischen Modellen. Anschließend werden die Daten der Bevölkerungsstatistik sowie der DRG-Statistik als Benchmarks verwendet, um die bedingten AOK-Morbiditätsstrukturen kleinräumig zu adjustieren. Auf dieser Basis können dann angepasste Prädiktionen der Morbiditätsstrukturen auf regionaler Ebene in der Gesamtbevölkerung erzeugt werden. Die Prädiktion erfolgt dabei auf Basis der statistischen Modelle, welche zuvor für die Bedingung der AOK-Morbiditätsstruktur verwendet wurden. Im Zuge dieses Verfahrens stellt Gl. 2 eine zentrale Annahme dar, deren Validität sorgfältig geprüft werden muss. Im Wesentlichen werden zwei Bedingungen für den Inferenzschluss benötigt. Erstens muss die Schätzung von regionalen Krankheitshäufigkeiten auf Basis von stationären Behandlungshäufigkeiten möglich sein. Zweitens muss die AOK-Morbidität nach der Adjustierung auf die Gesamtbevölkerung übertragbar sein. Diese Bedingungen wurden im Vorfeld der Studie durch Pretests in Form von multivariaten Analyseverfahren sowie verschiedener Simulationen, in welchen die Selektivität zwischen AOK-Versichertenstamm und Gesamtbevölkerung imitiert wurde, überprüft. Dabei konnte einerseits verifiziert werden, dass die stationären Behandlungshäufigkeiten über einen hinreichend großen Erklärungsgehalt hinsichtlich der regionalen Krankheitshäufigkeiten verfügen. Darüber hinaus konnte gezeigt werden, dass auch unter Selektivität die Extrapolation der adjustierten Morbiditätsstruktur anhand der stationären Behandlungshäufigkeiten valide Ergebnisse liefert. Als zusätzliches Kontrollmittel um den Erklärungsgehalt der Modelle zu testen wird in Abschn. 3.4 noch eine Bootstrap-basierte Kreuzvalidierung durchgeführt, in welcher Spezifikationen mit unzureichender Vorhersagekraft aussortiert werden.

3.3 Variablenselektion

Im Folgenden wird beschrieben, wie Diagnosen innerhalb der DRG-Statistik ausgewählt werden, welche anschließend dann als Hilfsinformationen zur Morbiditätsadjustierung und zur Schätzung von \(y_{rd}^{c}\) verwendet werden. Die Variablenselektion erfolgt dabei regionsspezifisch, das heißt für jedes \(r=1,\ldots ,R\) wird ein eigenes Set bestehend aus zehn Diagnosen ausgewählt. Es werden zwei Verfahren der multivariaten Analyse (Feinstein 1996) eingesetzt: Korrelationsanalyse und Hauptkomponentenanalyse. Zunächst wird die Auswahl anhand der Korrelationsanalyse beschrieben. Als Korrelationskriterium wird der Korrelationskoeffizient nach Bravais-Pearson verwendet, welcher gegeben ist durch

$$\rho \left(y_{rd}^{c}, x_{rd}^{cj}\right)=\frac{Cov\left(y_{rd}^{c},x_{rd}^{cj}\right)}{\sqrt{Var\left(y_{rd}^{c}\right)\cdot Var\left(x_{rd}^{cj}\right)}} ,$$
(3)

wobei \(x_{rd}^{cj}\in \boldsymbol{x}_{rd}^{c}\). Dabei ist zu beachten, dass für die Bestimmung des Koeffizienten sowohl die Behandlungshäufigkeiten der DRG-Statistik als auch die Krankheitshäufigkeiten der zu schätzenden Krankheit auf Zellebene beobachtet sein müssen. Da aber \(y_{rd}^{c}\) unbekannt ist, lässt sich dies nicht auf den Gesamtbevölkerungsdaten umsetzen. Folglich muss die Korrelationsanalyse ausschließlich auf Basis der AOK-Routinedaten erfolgen. Die hier ausgewählten Diagnosen werden anschließend in der DRG-Statistik für die Gesamtbevölkerung extrahiert. Unter Annahme der Gleichheit der bedingten Erwartungswerte (Gl. 2) ist dies für die angestrebte modellbasierte Inferenz jedoch ausreichend. Die Korrelationsanalyse eignet sich besonders für die Auswahl der Diagnosen zur Morbiditätsadjustierung, wenn die zu schätzende Krankheit starke Prädiktoren innerhalb der DRG-Statistik hat. Dies ist entweder der Fall, wenn die betrachtete Krankheit hauptsächlich stationär behandelt wirdFootnote 9, oder wenn sie spezifische Komorbiditäten hat, welche typischer Weise gemeinsam mit ihr auftretenFootnote 10.

Ist dies nicht gegeben, so können die benötigten Informationen zur Erklärung der Morbiditätsunterschiede auch als latente Variable in den stationären Behandlungshäufigkeiten enthalten sein. Für diesen Fall eignet sich dann eine Variablenselektion auf Basis einer Hauptkomponentenanalyse. Dabei wird eine Hauptachsentransformation der regionsspezifischen Matrix der stationären Behandlungshäufigkeiten \(\boldsymbol{X}_{r}\) derart durchgeführt, dass die entsprechende Kovarianzmatrix der Daten diagonalisiert wird. Dabei werden die zellspezifischen Behandlungshäufigkeiten aller Diagnosen in Linearkombinationen zusammengefasst. Im Zuge der Variablenselektion werden dann nicht mehr zehn tatsächliche Diagnosen aus der DRG-Statistik ausgewählt. Stattdessen werden jene zehn Linearkombinationen isoliert, welche den größten Anteil der Gesamtvarianz von \(\boldsymbol{X}_{r}\) erklären. Diese stellen dann eine Approximation der gesamten Information dar, welche in der Matrix vorhanden ist. Für die angestrebte Morbiditätsadjustierung und kleinräumige Prävalenzschätzung ist dabei entscheidend, dass \(\boldsymbol{X}_{r}\) und \(\tilde{\boldsymbol{X}}_{r}\) exakt gleich rotiert werden. Für mehr technische Details über Hauptkomponentenanalyse, siehe Hastie et al. (2017).

Im Folgenden werden jene zehn Diagnosen aufgeführt, deren stationäre Behandlungshäufigkeiten innerhalb der AOK-Routinedaten am häufigsten auf Basis der Korrelationsanalyse regional in das Set der Prädiktoren aufgenommen wurden. Die Darstellung erfolgt tabellarisch in alphabetischer Reihenfolge nach dem ICD-3-Code. Dabei wird zwischen Haupt- und Nebendiagnose unterschieden (Tab. 1).

Tab. 1 Zehn häufigsten Diagnosen zur Adjustierung

3.4 Modelle

Nach der Auswahl der Variablen erfolgt die Beschreibung der Modelle, anhand welcher der bedingte Erwartungswert \(E[\tilde{y}_{rd}^{c}| \tilde{N}_{rd}^{c}, \tilde{\boldsymbol{x}}_{rd}^{c}=\left(\tilde{x}_{rd}^{c1},\ldots , \tilde{x}_{rd}^{cp}\right)]\) quantifiziert wird. Diese Modelle werden wiederum zur Prädiktion von \(y_{rd}^{c}\) verwendet. Hierbei kommen Verfahren der Regressionsanalyse zum Einsatz. Es werden drei verschiedene lineare Modelltypen verwendet, welche sich hinsichtlich ihrer Effektstruktur und ihrer hierarchischen Aggregationsebene unterscheiden: regionale lineare Modelle, regionale gemischte lineare Modelle und nationale gemischte lineare Modelle. Bei den regionalen Modellen erfolgt die Schätzung der Modellparameter regionsspezifisch, wobei die Anzahl der Zellen (Kreis × Geschlecht × Altersklasse), welche pro Region verfügbar sind, zwischen 72 (kleinste Region) und 1728 (größte Region) liegt. Bei den nationalen Modellen werden alle Zellen Deutschlands simultan berücksichtigt, insgesamt 7218. Die gleichzeitige Verwendung regionaler und nationaler Modelle ist insbesondere vor dem Hintergrund kleiner Regionen, welche nicht viele Zellen enthalten, als besonders wichtig hervorzuheben. In kleinen Regionen kann die Verwendung komplexer Modellspezifikationen gegebenenfalls zu einer vergleichsweise großen Varianz bei der Schätzung der Modellparameter führen. Dies ist auf die reduzierte Anzahl von Freiheitsgraden zurückzuführen. Die nationalen Modelle werden aufgrund der großen Anzahl an Zellen am stabilsten geschätzt, können jedoch weniger regionale Heterogenität abbilden. Hier ist also ein Trade-Off zwischen der Berücksichtigung regionaler Heterogenität und der Stabilität der Prädiktionen zu beachten, welcher die Verwendung beider Modelltypen nahelegt.

Für jeden Modelltyp werden zusätzlich verschiedene Modellspezifikationen berücksichtigt. Durch die Berechnung des bedingten Erwartungswerts auf Basis verschiedener Modelltypen/-spezifikationen auf verschiedenen Ebenen wird mögliche Unsicherheit beim modellbasierten Inferenzschluss antizipiert. Denn a priori ist weder absehbar, für welches Modell Annahme (Gl. 2) am ehesten erfüllt ist, noch ob der entsprechende Modellzusammenhang innerhalb der Gesamtbevölkerung bzw. eines Aggregats derselben homogen ist. Die in Abschn. 2 thematisierten regionalen Gesundheitsdisparitäten legen nahe, dass an dieser Stelle eher mit Heterogenität zu rechnen ist. Deswegen ist die Berücksichtigung verschiedener Modelltypen und Spezifikationen sinnvoll, um zu analysieren, inwiefern sie gleiche Implikationen hinsichtlich der Krankheitshäufigkeiten liefern. Zusätzlich wird parametrisches Bootstrapping (Shang und Cavanaugh 2008) verwendet, um eine Bootstrap-basierte Verteilung für jede Prädiktion einer zellspezifischen Krankheitshäufigkeit der Gesamtbevölkerung zu erzeugen und damit den zugrundeliegenden Inferenzschluss weiter zu verbessern. Darüber hinaus gibt das Bootstrapping einen wichtigen Überblick hinsichtlich der Unsicherheit der Modellparameterschätzung und der Stabilität der Prädiktionen.

3.4.1 Modelltyp 1: Regionale lineare Modelle

Der erste Modelltyp sind gängige multiple Regressionsmodelle, welche für jede Region zellspezifisch auf den AOK-Daten spezifiziert werden. Sie enthalten regionsspezifische Fixed Effects und haben die Form

$$\tilde{y}_{rd}^{c}=\tilde{\boldsymbol{x}}_{rd}^{c}\boldsymbol{\beta} _{r}+e_{rd}^{c}\forall r,d,c,$$
(4)

wobei \(\boldsymbol{\beta} _{r}=\left(\beta _{r}^{1},\ldots , \beta _{r}^{p}\right)^{t}\) der Vektor der Fixed Effect-Koeffizienten ist und \(t\) den Transpositions-Operator notiert. Der Term \(e_{rd}^{c}\sim N\left(0, \sigma _{r}^{2}\right)\) ist ein stochastischer Fehler mit Erwartungswert 0 und regionalem Varianzparameter \(\sigma _{r}^{2}\). Innerhalb einer gegebenen Region \(r\) kann Gl. 4 in multivariater Form ausgedrückt werden:

$$\tilde{\boldsymbol{y}}_{r}=\tilde{\boldsymbol{X}}_{r}\boldsymbol{\beta}_{r}+\boldsymbol{e}_{r}\forall r,d,$$
(5)

wobei \(\tilde{\boldsymbol{y}}_{r}=\left(\tilde{y}_{r1}^{1}, \ldots , \tilde{y}_{rD_{r}}^{C}\right)^{t}\) den Vektor aller kassenspezifischen Krankheitshäufigkeiten auf Zellebene in Region \(r\) darstellt. Analog dazu sind \(\tilde{\boldsymbol{X}}_{r}=\left(\tilde{\boldsymbol{x}}_{r1}^{1}, \ldots , \tilde{\boldsymbol{x}}_{rD_{r}}^{C}\right)^{t}\) und \(\boldsymbol{e}_{r}\sim MVN(\mathbf{0},\sigma _{r}^{2}\boldsymbol{I}_{C\cdot {D_{r}}})\), wobei \(\boldsymbol{I}\) die Einheitsmatrix notiert. Die Fixed Effect-Koeffizienten werden durch Ordinary Least Squares (OLS) anhand folgender Formel geschätzt:

$$\hat{\boldsymbol{\beta }}_{r}= \left(\tilde{\boldsymbol{X}}_{r}^{t}\tilde{\boldsymbol{X}}_{r}\right)^{-1}\tilde{\boldsymbol{X}}_{r}^{t}\tilde{\boldsymbol{y}}_{r} \forall r.$$
(6)

Die Prädiktion der zellspezifischen Krankheitshäufigkeit der Gesamtbevölkerung erfolgt dann durch die Kombination der Regressionskoeffizienten, welche auf Basis der AOK-Daten berechnet wurden, und den stationären Behandlungshäufigkeiten der Gesamtbevölkerung aus der DRG-Statistik: \(\hat{y}_{rd}^{c}=\boldsymbol{x}_{rd}^{c}\hat{\boldsymbol{\beta }}_{r}\). Zusätzlich zur direkten Prädiktion auf Basis des Modells (Gl. 5) wird noch eine Prädiktive Verteilung für \(\hat{y}_{rd}^{c}\) auf Basis eines parametrischen Bootstraps erzeugt. Hierzu werden zunächst \(\tilde{y}_{rd}^{c*}\colon = \tilde{\boldsymbol{x}}_{rd}^{c}\hat{\boldsymbol{\beta }}_{r}\) und die Residualvarianz \(\sigma _{r}^{e2}\) definiert. Dann wird für alle Zellen in Region \(r\) eine Zufallszahl aus der Verteilung \(\tilde{y}_{rd}^{cb}\sim N(\tilde{y}_{rd}^{c*}, \sigma _{r}^{e2})\) gezogen und anschließend \(\hat{\boldsymbol{\beta }}_{r}^{*}\) anhand von Gl. 6 berechnet, wobei \(\tilde{\boldsymbol{y}}_{r}\) durch \(\tilde{\boldsymbol{y}}_{r}^{*}=\left(\tilde{y}_{r1}^{1*}, \ldots , \tilde{y}_{rD_{r}}^{C*}\right)^{t}\) ersetzt wird. Mithilfe von \(\hat{\boldsymbol{\beta }}_{r}^{*}\) wird dann eine Bootstrap-Prädiktion \(\hat{y}_{rd}^{c*}=\boldsymbol{x}_{rd}^{c}\hat{\boldsymbol{\beta }}_{r}^{*}\) erzeugt. Diese Prozedur wird \(B=1000\) mal wiederholt und man erhält eine Bootstrap-Verteilung für \(\hat{y}_{rd}^{c}\).

3.4.2 Modelltyp 2: Regionale gemischte lineare Modelle

Der zweite Modelltyp sind gemischte lineare Regressionsmodelle, welche für jede Region zellspezifisch auf den AOK-Daten spezifiziert werden. Sie enthalten regionsspezifische Fixed Effects sowie kreisspezifische Random Effects und haben die Form

$$\tilde{\boldsymbol{y}}_{rd}=\tilde{\boldsymbol{X}}_{rd}\boldsymbol{\beta} _{r}+\boldsymbol{Z}_{rd}\boldsymbol{b}_{rd}+\boldsymbol{e}_{rd}\forall r,d,$$
(7)

mit \(\tilde{\boldsymbol{y}}_{rd}=\left(\tilde{y}_{rd}^{1}, \ldots , \tilde{y}_{rd}^{C}\right)^{t}, \tilde{\boldsymbol{X}}_{rd}=\left(\tilde{\boldsymbol{x}}_{rd}^{1}, \ldots , \tilde{\boldsymbol{x}}_{rd}^{C}\right)^{t},\)\(\boldsymbol{e}_{rd}=\left(e_{rd}^{1},\ldots , e_{rd}^{C}\right)^{t}\) und \(e_{rd}^{c}\sim N\left(0, \sigma _{r}^{2}\right)\) wie in Modelltyp 1. Dabei ist \(\boldsymbol{Z}_{rd}=\left(\boldsymbol{z}_{rd}^{1}, \ldots , \boldsymbol{z}_{rd}^{q}\right)^{t}\) die Matrix der Random Effect-Kovariaten. \(\boldsymbol{b}_{rd}\sim MVN(\mathbf{0},\boldsymbol{\Psi }_{r})\) notiert den Vektor der kreisspezifischen Random Effect-Koeffizienten mit regionsspezifischer \(\left(q\times q\right)\)-Kovarianzmatrix \(\boldsymbol{\Psi }_{r }\), welche durch einen regionsspezifischen Vektor \(\boldsymbol{\psi} _{r}\in R^{q}\) parametrisiert wird. Innerhalb einer gegebenen Region \(r\) kann Gl. 7 in multivariater Form ausgedrückt werden:

$$\tilde{\boldsymbol{y}}_{r}=\tilde{\boldsymbol{X}}_{r}\boldsymbol{\beta} _{r}+\boldsymbol{Z}_{r}\boldsymbol{b}_{r}+\boldsymbol{e}_{r} \forall r,$$
(8)

wobei \(\tilde{\boldsymbol{y}}_{r}=\left(\tilde{\boldsymbol{y}}_{r1}, \ldots , \tilde{\boldsymbol{y}}_{r{D_{r}}}\right)^{t}\), \(\tilde{\boldsymbol{X}}_{r}=\left(\tilde{\boldsymbol{X}}_{r1}, \ldots , \tilde{\boldsymbol{X}}_{r{D_{r}}}\right)^{t}\), \(\boldsymbol{Z}_{r}=\mathrm{diag}\left(\boldsymbol{Z}_{r1},\ldots , \boldsymbol{Z}_{r{D_{r}}}\right)\), \(\boldsymbol{b}_{r}=\left(\boldsymbol{b}_{r1},\ldots , \boldsymbol{b}_{r{D_{r}}}\right)^{t}\) und \(\boldsymbol{e}_{r}=\left(\boldsymbol{e}_{r1}, \ldots , \boldsymbol{e}_{r{D_{r}}}\right)^{t}\). Die Fixed Effect-Koeffizienten werden über Weighted Least Squares geschätzt:

$$\hat{\boldsymbol{\beta }}_{r}= \left(\tilde{\boldsymbol{X}}_{r}^{t} \hat{\boldsymbol{V}}_{r}^{-1}\tilde{\boldsymbol{X}}_{r}\right)^{-1}\tilde{\boldsymbol{X}}_{r}^{t}\hat{\boldsymbol{V}}_{r}^{-1}\tilde{\boldsymbol{y}}_{r} \forall r,$$
(9)

wobei \(\hat{\boldsymbol{V}}_{r}= \hat{\boldsymbol{V}}_{r}\left(\hat{\boldsymbol{\psi }}_{r}, \hat{\sigma }_{r}\right)\) ein Schätzer für \(\boldsymbol{V}_{r}=\boldsymbol{V}_{r}\left(\sigma _{r}^{2}, \boldsymbol{\psi} _{r}\right)=\boldsymbol{Z}_{r}\boldsymbol{\Psi }_{r}\boldsymbol{Z}_{r}^{t}+\sigma _{r}^{2}\boldsymbol{I}_{C\cdot {D_{r}}}\) ist. Die notwendigen regionalen Varianzparameter \(\sigma _{r}^{2}, \boldsymbol{\psi} _{r}\) werden mit Restricted Maximum Likelihood berechnet (REML; Rao und Molina 2015). Die Random Effects werden durch den Empirical Best Linear Unbiased Predictor geschätzt (EBLUP; West et al. 2007):

$$\hat{\boldsymbol{b}}_{r}= \hat{\mathbf{\Psi }}_{r}\boldsymbol{Z}_{r}^{t} \hat{\boldsymbol{V}}_{r}^{-1}\left(\tilde{\boldsymbol{y}}_{r}-\tilde{\boldsymbol{X}}_{r} \hat{\boldsymbol{\beta }}_{r}\right) \forall r.$$
(10)

Die Prädiktion der zellspezifischen Krankheitshäufigkeiten der Gesamtbevölkerung erfolgt dann analog zu Abschn. 3.4.1, jedoch zusätzlich unter Berücksichtigung der geschätzten Random Effects: \(\hat{y}_{rd}^{c}=\boldsymbol{x}_{rd}^{c}\hat{\boldsymbol{\beta }}_{r}+\boldsymbol{z}_{rd}^{c} \hat{\boldsymbol{b}}_{rd}\). Für den anschließenden parametrischen Bootstrap wird zunächst \(\tilde{\boldsymbol{y}}_{rd}^{*}\colon = \tilde{\boldsymbol{X}}_{rd}\hat{\boldsymbol{\beta }}_{r}+\boldsymbol{Z}_{rd}\boldsymbol{b}_{rd}^{*}+\boldsymbol{e}_{rd}^{*}\) definiert, wobei \(\hat{\boldsymbol{\beta }}_{r}\) aus Gl. 9 stammt. Die Varianzparameter werden aus den durch Restricted Maximum Likelihood geschätzten Verteilungen gezogen, nämlich \(\boldsymbol{b}_{rd}^{*}\sim MVN(\mathbf{0},\hat{\mathbf{\Psi }}_{r})\) sowie \(\boldsymbol{e}_{rd}^{*}\sim MVN(\mathbf{0},\hat{\sigma }_{r}^{2}\boldsymbol{I}_{C})\). Anschließend werden alle Parameter des Modells (Gl. 7) erneut geschätzt, wobei \(\tilde{\boldsymbol{y}}_{rd}\) durch \(\tilde{\boldsymbol{y}}_{rd}^{*}\) ersetzt wird. Die neu geschätzten Modellparameter werden dann zur Erzeugung von Bootstrap-Prädiktionen erzeugt: \(\hat{y}_{rd}^{c*}=\boldsymbol{x}_{rd}^{c}\hat{\boldsymbol{\beta }}_{r}^{*}+\boldsymbol{z}_{rd}^{c} \hat{\boldsymbol{b}}_{rd}^{*}\). Diese Prozedur wird \(B=1000\) mal wiederholt und man erhält eine Bootstrap-Verteilung für \(\hat{y}_{rd}^{c}\).

3.4.3 Modelltyp 3: Nationale gemischte lineare Modelle

Der dritte Modelltyp sind gemischte lineare Regressionsmodelle, welche nicht wie in Abschn. 3.4.2 für jede Region einzeln spezifiziert werden, sondern über alle Regionen gleichzeitig. Es kann (zunächst auf Kreisebene) wie folgt formuliert werden:

$$\tilde{\boldsymbol{y}}_{rd}=\tilde{\boldsymbol{X}}_{rd}\boldsymbol{\beta }+\boldsymbol{Z}_{rd}\boldsymbol{b}_{rd}+\boldsymbol{e}_{rd}\forall r,d,$$
(11)

wobei \(\tilde{\boldsymbol{y}}_{rd}\), \(\tilde{\boldsymbol{X}}_{rd}\), \(\boldsymbol{Z}_{rd}\) wie in Abschn. 3.4.2 definiert. Es gilt jedoch \(\boldsymbol{e}_{rd}=\left(e_{rd}^{1},\ldots , e_{rd}^{C}\right)^{t}\) mit \(e_{rd}^{c}\sim N\left(0, \sigma ^{2}\right)\), und \(\boldsymbol{b}_{rd}\sim MVN(\mathbf{0},\mathbf{\Psi })\), wobei \(\mathbf{\Psi }\) durch \(\boldsymbol{\psi }\in\)\(R^{q}\) parametrisiert wird. Es ist zu beachten, dass im Gegensatz zu Modelltyp 2 die Fixed Effect-Koeffizienten und die Varianzparameter hier nicht mehr regionalisiert sind. Spezifiziert man das Modell über die Kreise aller \(R\) Regionen, so erhält man

$$\tilde{\boldsymbol{y}}=\tilde{\boldsymbol{X}}\boldsymbol{\beta }+\tilde{\boldsymbol{Z}}\boldsymbol{b}+\tilde{\boldsymbol{e}},$$
(12)

mit \(\tilde{\boldsymbol{y}}=\left(\tilde{\boldsymbol{y}}_{11}, \ldots , \tilde{\boldsymbol{y}}_{R{D_{R}}}\right)^{t}\), \(\tilde{\boldsymbol{X}}=\left(\tilde{\boldsymbol{X}}_{11}, \ldots , \tilde{\boldsymbol{X}}_{R{D_{R}}}\right)^{t}\), \(\boldsymbol{Z}=\mathrm{diag}\left(\boldsymbol{Z}_{11},\ldots , \boldsymbol{Z}_{R{D_{R}}}\right),\boldsymbol{b}=\left(\boldsymbol{b}_{11},\ldots , \boldsymbol{b}_{R{D_{R}}}\right)^{t}\) und \(\boldsymbol{e}=\left(\boldsymbol{e}_{11}, \ldots , \boldsymbol{e}_{R{D_{R}}}\right)^{t}\). Definiert man nun \(\boldsymbol{V}=\boldsymbol{V}\left(\sigma ^{2},\boldsymbol{\psi }\right)=\boldsymbol{Z}\mathbf{\Psi }\boldsymbol{Z}^{t}+\sigma ^{2}\boldsymbol{I}_{C\cdot {\sum _{r}}{D_{r}}}\), so werden die Fixed Effect-Koeffizienten über Weighted Least Squares anhand folgender Formel geschätzt:

$$\hat{\boldsymbol{\beta }}=\left(\tilde{\boldsymbol{X}}^{t} \hat{\boldsymbol{V}}^{-1} \tilde{\boldsymbol{X}}\right)^{-1}\tilde{\boldsymbol{X}}^{t}\hat{\boldsymbol{V}}^{-1}\tilde{\boldsymbol{y}},$$
(13)

wobei \(\hat{\boldsymbol{V}}\left(\hat{\psi }, \hat{\sigma }^{2}\right)\) ein Schätzer für \(\boldsymbol{V}\left(\sigma ^{2},\boldsymbol{\psi }\right)\) ist. Die Varianzparameter werden analog zu Abschn. 3.4.2 über REML ermittelt. Die Random Effects werden, wie zuvor, anhand des EBLUP geschätzt:

$$\hat{\boldsymbol{b}}=\hat{\mathbf{\Psi }}\boldsymbol{Z}^{t}\hat{V}^{-1}\left(\tilde{\boldsymbol{y}}- \tilde{\boldsymbol{X}}\hat{\boldsymbol{\beta }}\right).$$
(14)

Die Prädiktion der zellspezifischen Krankheitshäufigkeit erfolgt durch \(\hat{y}_{rd}^{c}= \boldsymbol{x}_{rd}^{c} \hat{\boldsymbol{\beta }}+\boldsymbol{z}_{rd}^{c} \hat{\boldsymbol{b}}_{rd}\). Für den parametrischen Bootstrap wird \(\tilde{\boldsymbol{y}}_{rd}^{*}\colon = \tilde{\boldsymbol{X}}_{rd}\hat{\boldsymbol{\beta }}+\boldsymbol{Z}_{rd}\boldsymbol{b}_{rd}^{*}+\boldsymbol{e}_{rd}^{*}\) definiert, mit \(\hat{\boldsymbol{\beta }}\) aus Gl. 13. Die Varianzparameter werden aus ihren geschätzten Verteilungen gezogen: \(\boldsymbol{b}_{rd}^{*}\sim MVN(\mathbf{0},\hat{\mathbf{\Psi }})\) sowie \(\boldsymbol{e}_{rd}^{*}\sim MVN(\mathbf{0},\hat{\sigma }^{2}\boldsymbol{I}_{C})\). Die Parameter des Modells (Gl. 11) werden anschließend neu geschätzt, wobei \(\tilde{\boldsymbol{y}}_{rd}\) durch \(\tilde{\boldsymbol{y}}_{rd}^{*}\) ersetzt wird. Analog zu Abschn. 3.4.2 werden die Modellparameter dann zur Erzeugung von Bootstrap-Prädiktionen erzeugt: \(\hat{y}_{rd}^{c*}=\boldsymbol{x}_{rd}^{c} \hat{\boldsymbol{\beta }}^{*}+\boldsymbol{z}_{rd}^{c} \hat{\boldsymbol{b}}_{rd}^{*}\). Die Prozedur wird \(B=1000\) mal zur Erzeugung der Bootstrap-Verteilung für \(\hat{y}_{rd}^{c}\) wiederholt.

3.5 Plausibelster Schätzwert und plausibler Bereich

Aus Abschn. 3.4 geht hervor, dass nicht jeweils ein einziges Modell zur Prädiktion einer zellspezifischen Krankheitshäufigkeit berücksichtigt wird, sondern ein ganzes Prädiktions-Set. Dieses wird im Folgenden mit \(P_{rd}^{c}\) notiert. Es besteht jeweils aus verschiedenen Modelltypen und Spezifikationen, welche aus Gründen der Übersichtlichkeit mit dem Index \(m=1,\ldots ,M\) versehen sind. Zusätzlich werden die Ergebnisse des parametrischen Bootstraps – neben der Verwendung als Unsicherheitsmaß – dahingehend berücksichtigt, dass aus jeder Bootstrap-Verteilung für \(\hat{y}_{rd}^{c}\) der Erwartungswert \(E(\hat{y}_{rd}^{c*})\) als zusätzliche Prädiktion in das Prädiktions-Set miteingeht. Für jedes Modell existieren also eine direkte Prädiktion sowie eine entsprechende Bootstrap-Prädiktion innerhalb des Sets:

$$P_{rd}^{c}=\{\hat{y}_{rd}^{c}\left(1\right),E[\hat{y}_{rd}^{c*}\left(1\right)],\ldots ,\hat{y}_{rd}^{c}\left(M\right),E[\hat{y}_{rd}^{c*}\left(M\right)]\}\forall r,d,c.$$
(15)

Die Idee ist nun, die in Abschn. 3.4 thematisierte Unsicherheit beim modellbasierten Inferenzschluss über die Verteilung der einzelnen Prädiktionen innerhalb von \(P_{rd}^{c}\) zu antizipieren. Auf Basis des Prädiktions-Sets soll ein plausibelster Schätzwert so wie ein plausibler Wertebereich, in welchem die Prädiktion schwanken kann, bestimmt werden. Die Prädiktionen innerhalb von \(P_{rd}^{c}\) bilden eine Schätzverteilung über die unbekannte zellspezifische Krankheitshäufigkeit \(y_{rd}^{c}\). Ist in der Schätzverteilung ein eindeutiger Massepunkt über einem bestimmten Wertebereich, so wird dieser Wertebereich als plausibel erachtet. Da aber die Modelle regional unterschiedlich geeignet für die Prädiktion von \(y_{rd}^{c}\) sind oder ggf. ein zu großes Werteintervall aufspannen, muss das Prädiktions-Set um schwache bzw. instabile Modelle bereinigt werden. In Abschn. 1 wurde bereits thematisiert, dass klassische Methoden zur Modellselektion, wie etwa ANOVA (Gelman 2005) oder Informationskriterien (Burnham und Anderson 2004), in dem beschriebenen Setting nicht valide verwendet werden können, da keine klassische Stichprobenziehung vorliegt. Darüber hinaus ist der direkte Vergleich von linearen und gemischten linearen Modellen, welche teilweise auf unterschiedlichen Aggregaten spezifiziert werden, anhand dieser Maße ebenfalls nicht zulässig. Deshalb wird sich bei der Bestimmung des plausibelsten Schätzwerts und des plausiblen Bereichs auf die Betrachtung der prädiktiven Inferenz konzentriert. Diese wird auf Basis einer modifizierten \(k\)-fold Cross Validation innerhalb der AOK-Daten evaluiert, welche Ideen des nicht-parametrischen Bootstrapping adaptiert (Efron und Tibshirani 1993, 1997).

Hierfür wird bei den regionalen Modellen (Abschn. 3.4.1 und 3.4.2) die regionsspezifische AOK-Population \(\tilde{U}_{r}\) in \(k=5\) Teilpopulationen \(\tilde{U}_{r}^{l}\) mit \(l=1,\ldots ,k\) untergliedert. Bei den nationalen Modellen wird entsprechend die gesamte AOK-Population \(\tilde{U}\) in fünf Teilpopulation \(\tilde{U}^{l}\) unterteilt. Aus Notationsgründen wird sich auf die Darstellung bei den regionalen Modellen beschränkt. Für die nationalen Modelle wird jedoch analog verfahren. Es werden die Zellen einer Teilpopulation \(\tilde{U}_{r}^{l}\) als Prädiktionsdaten bestimmt. Die verbleibenden Zellen in \(\tilde{U}_{r}^{-l}\) sind dann Trainingsdaten. Aus \(\tilde{U}_{r}^{-l}\) werden anschließend \(B\) Stichproben der Größe \(\left| \tilde{U}_{r}^{-l}\right|\) durch einfache Zufallsauswahl mit Zurücklegen (SRSWR) gezogen. Auf diesen Stichproben werden dann die Modellparameter aller Modelle und Spezifikationen geschätzt. Die geschätzten Modellparameter werden schließlich für die Prädiktion der AOK-spezifischen Krankheitshäufigkeiten \(\tilde{y}_{rd}^{c}\) für alle Zellen in \(\tilde{U}_{r}^{l}\) verwendet. Die Ergebnisse werden hinsichtlich des Relative Root Mean Squared Errors (RRMSE) verglichen. Der gesamte Algorithmus kann wie folgt beschrieben werden (Darstellung in Pseudo-Code):

Für die Teilpopulationen \(\tilde{U}_{r}^{1}, \ldots , \tilde{U}_{r}^{k}\)

  • Für die Modelltypen/-spezifikationen \(m=1,\ldots ,M\)

    1. 1.

      Teile \(\tilde{U}_{r}\) in Trainingsdaten \(\tilde{U}_{r}^{-l}\) und Prädiktionsdaten \(\tilde{U}_{r}^{l}\)

    2. 2.

      Ziehe \(B\) Stichproben \(\tilde{S}_{r}^{1}, \ldots , \tilde{S}_{r}^{B}\) aus \(\tilde{U}_{r}^{-l}\) via SRSWR

    3. 3.

      Für die Stichproben \(\tilde{S}_{r}^{1}, \ldots , \tilde{S}_{r}^{B}\)

      1. a)

        Schätze die Modellparameter von \(m\) auf Basis von \(\tilde{S}_{r}^{b}\)

      2. b)

        Erzeuge Prädiktionen \(\widehat{\tilde{y}}_{rd}^{c}\left(\tilde{S}_{r}^{b}, m\right)\) für die bekannten \(\tilde{y}_{rd}^{c}\) für alle Zellen in \(\tilde{U}_{r}^{l}\) unter Verwendung von \(\tilde{\boldsymbol{x}}_{rd}^{c}\)

    4. 4.

      Berechne die Abweichung anhand von

      $$\textit{RRMSE}[\widehat{\tilde{y}}_{rd}^{c}\left(m\right)]= \frac{\sqrt{\frac{1}{B}\sum _{b}\left(\widehat{\tilde{y}}_{rd}^{c}\left(\tilde{S}_{r}^{b}, m\right)-\tilde{y}_{rd}^{c}\right)^{2}}}{\tilde{y}_{rd}^{c}}$$
  • Vergleiche die Ergebnisse für die Teilpopulation \(\tilde{U}_{r}^{l}\)

Die Ergebnisse der modifizierten \(k\)-fold Cross Validation werden anschließend dafür verwendet, das ursprüngliche Prädiktions-Set \(P_{rd}^{c}\) von schwachen oder instabilen Modelltypen-spezifikationen zu bereinigen. Hierzu werden jene Modelltypen/-spezifikationen inklusive ihrer Bootstrap-Prädiktionen aus \(P_{rd}^{c}\) entfernt, deren RRMSE einen bestimmten Grenzwert \(\tau _{\mathrm{crit}}\) überschreiten. Dieser Grenzwert ist dabei abhängig von der Krankheit, für welche zellspezifische Krankheitshäufigkeiten geschätzt werden sollen. Das finale Prädiktions-Set ist demnach:

$$\hat{\mathbb{P}}_{rd}^{c}=\{\hat{y}_{rd}^{c}\left(m\right),E\left[\hat{y}_{rd}^{c*}\left(m\right)\right]\left| \,\textit{RRMSE}\left[\widehat{\tilde{y}}_{rd}^{c}\left(m\right)\right]< \tau _{\mathrm{crit}}\right\}\forall r,d,c.$$
(16)

Auf Basis von \(\hat{\mathbb{P}}_{rd}^{c}\) können nun ein plausibelster Schätzwert und ein plausibler Bereich für \(y_{rd}^{c}\) ausgewiesen werden. Als plausibelster Schätzwert wird der Median von \(\hat{\mathbb{P}}_{rd}^{c}\) verwendet. Als plausibler Bereich wird das 0,05-Quantil bzw. das 0,95-Quantil von \(\hat{\mathbb{P}}_{rd}^{c}\) gewählt.

4 Regionale Auswertung für Typ-2-Diabetes

4.1 Ergebnisse

Das Ziel ist nun auf Basis des Versichertenstamms der AOK aus dem Jahr 2016 alters- und geschlechtsreferenzierte Krankheitshäufigkeiten auf Kreisebene für Typ-2-Diabetes zu schätzen. Schauen wir zunächst auf die deutschlandweiten Ergebnisse. Die (nicht-standardisierte) AOK-spezifische Diabetes-Gesamtprävalenz im Jahr 2016 beträgt etwa 12,19 %. Auf Basis der Methodik wird für die Gesamtbevölkerung eine Prävalenz von 8,78 % geschätzt. Das plausible Intervall des Schätzwerts beträgt [8,03 %; 9,57 %]. Somit gelingt eine Anpassung der AOK-spezifischen Morbidität von −34 bis −21 %. In Abb. 2 ist die geschätzte Diabetes-Verteilung für die Bundesrepublik auf Kreisebene dargestellt.

Abb. 2
figure 2

Geschätzte Diabetes-Prävalenz, Kreisebene, nicht-standardisiert

Es werden deutliche Morbiditätsunterschiede zwischen Ost- und Westdeutschland sichtbar. Auf dem Gebiet der östlichen Bundesländer ist eine offenkundig höhere Diabetes-Prävalenz als im Rest des Landes zu verzeichnen. Dies lässt sich zum einen auf den höheren Altersdurchschnitt in diesen Gebieten zurückführen. Bekannt ist, dass das Risiko für Typ-2-Diabetes im Alter deutlich zunimmt. Zum anderen könnte aber auch der teilweise geringere sozioökomische Status in diesen Gebieten zu der beobachteten Differenz beitragen (Maier 2017). So wurde gezeigt, dass Personen mit niedrigerem sozioökonomischen Status (gemessen anhand von Einkommen und Bildung) ein bis zu zweimal höheres Typ-2-Diabetes-Risiko haben als Personen mit einem hohen sozioökonomischen Status (Maier et al. 2013). Diese Diskrepanz ist sogar persistent wenn man zusätzlich auf Alter, Geschlecht und Body Mass Index bedingt. In Bayern und Baden-Württemberg werden tendenziell die geringsten Diabetes-Häufigkeiten auf Kreisebene gefunden. In den Gebieten des Saarlandes und Rheinland-Pfalz, aber auch in manchen Teilen des Nordrhein-Westfalens sind wiederum leicht erhöhte Häufigkeiten zu finden.

Um die modellbasierte Anpassung der kassenspezifischen Morbiditätsstrukturen durch die Schätzmethodik zu verdeutlichen, werden im Folgenden die relativen Krankheitshäufigkeiten des AOK-Versichertenstamms und die entsprechenden Schätzungen für die Gesamtbevölkerung auf Kreisebene verglichen.

Abb. 3 zeigt die Verteilung der relativen Krankheitshäufigkeiten in Prozent auf Kreisebene. Das obere Histogramm bezieht sich auf die AOK, das untere auf die Schätzungen für die Gesamtbevölkerung. Zur besseren Visualisierung wurde in Rot ein Kerndichteschätzer für die Verteilungen mitgegeben. Es wird zunächst deutlich, dass der Massepunkt der Kreisprävalenzen innerhalb der AOK deutlich höher liegt als in der Gesamtbevölkerung. Dies ist vor dem Hintergrund der informativen Kassenzugehörigkeit nachvollziehbar. Wäre der AOK-Versichertenstamm eine zufällige Teilpopulation aus der Gesamtbevölkerung, so wäre der Massepunkt der Verteilungen in einem ähnlichen Wertebereich zu erwarten. Der dargestellte Bias der AOK-Morbidität im Vergleich zur geschätzten Morbidität in der Gesamtbevölkerung ist auch vor dem Hintergrund vergangener Studien plausibel. So haben beispielsweise Hoffmann und Icks (2011, 2012) eine überdurchschnittlich hohe Diabetes-Morbidität in der AOK verglichen mit anderen Krankenkassen gefunden. Darüber hinaus fällt auf, dass die Verteilung innerhalb der AOK deutlich rechtsschiefer ist als die geschätzte Verteilung in der Gesamtbevölkerung. Dies verdeutlicht, dass die Schätzmethodik nicht nur eine einfache Skalierung der AOK-Prävalenz vornimmt, sondern die Morbidität spezifischer anpasst. Andernfalls wäre die geschätzte Verteilung lediglich ein um wenige Prozentpunkte verschobenes Abbild der AOK-Verteilung.

Abb. 3
figure 3

Vergleich der kreisspezifischen Diabetes-Häufigkeiten

Ein weiterer interessanter Aspekt ist zu untersuchen: Ist der Bias im Vergleich zur Gesamtbevölkerung in allen Kohorten des AOK-Versichertenstamms zu finden, und ist er hinsichtlich seines Ausmaßes persistent?

In Abb. 4 ist die bei der Schätzung erfolgte relative Anpassung der AOK-Morbidität auf Kreisebene pro Altersklasse dargestellt. Die relative Anpassung ist prozentual anhand folgender Formel quantifiziert:

$$\textit{Relative}\,\textit{Anpassung}=\left(\hat{p}_{rd}^{c}/\tilde{p}_{rd}^{c}-1\right)\cdot 100\% ,\hat{p}_{rd}^{c}=\hat{y}_{rd}^{c}/N_{rd}^{c},\tilde{p}_{rd}^{c}=\tilde{y}_{rd}^{c}/\tilde{N}_{rd}^{c}.$$
Abb. 4
figure 4

Altersspezifische Morbiditätsanpassung

Die Verteilung der relativen Anpassung ist in Rot dargestellt, der Mittelwert der Anpassung pro Altersklasse auf Kreisebene ist mit Blau gekennzeichnet. Es wird deutlich, dass der Bias je nach Altersklasse sehr unterschiedlich ausfällt. Während er in den jüngeren Kohorten stabil bei 20 % und mehr ist, so nimmt er bei den älteren Kohorten systematisch ab. In der Kohorte AK 8 ist der Anpassungsfaktor bereits nahe Null. In der ältesten Kohorte AK 9 ist die Diabetes-Häufigkeit des AOK-Versichertenstamms sogar leicht unterhalb der Gesamtbevölkerung, da die durchschnittliche Anpassung größer Null ist. Die sichtbare Variation des Anpassungsfaktors über die Altersklassen hinweg signalisiert ebenfalls, dass die präsentierte Schätzmethodik die AOK-Morbidität nicht einfach skaliert, sondern differenziert anpasst.

4.2 Externe Plausibilisierung der Ergebnisse

Die vorliegende Untersuchung ermittelte eine geschätzte Prävalenz des Typ-2-Diabetes in Deutschland von 8,78 %, mit einem plausiblen Intervall des Schätzwerts von 8,03 bis 9,57 %. Diese Größenordnung deckt sich mit anderen, vergleichbaren Untersuchungen, die im Folgenden genauer dargestellt werden. Da davon auszugehen ist, dass Typ-2-Diabetiker einen Anteil von über 95 % aller Diabetiker ausmachen (Jacobs und Rathmann 2018), werden sowohl Zahlen zum Diabetes insgesamt als auch zum Typ-2-Diabetes berücksichtigt. Allerdings sind methodische Unterschiede in der Datenerhebung (Untersuchungssurveys, Befragungen oder Routinedaten der gesetzlichen Krankenversicherung), dem betrachteten Zeitraum sowie den zugrundliegenden Definitionen des Diabetes bei der Interpretation zu berücksichtigen.

In Tamayo et al. (2016) werden dokumentierte Prävalenzen für Versicherte der gesetzlichen Krankenkassen auf Basis der im DIMDI vorliegenden Routinedaten für die Datenjahre 2009/2010 über Diabetes-Diagnosen bestimmt. Die Studie weist für Diabetes insgesamt eine Prävalenz von 9,7 % im Jahr 2009 und 9,9 % im Jahr 2010 aus – entsprechend Alters- und Geschlechtsstandardisiert auf die deutsche Bevölkerung zum 31.12.2007. Die Typ-2-Diabetes Prävalenz wird in 2009 mit 6,9 % und in 2010 mit 7,1 % angegeben – wobei jedoch viele Diabetes-Fälle mit nicht eindeutiger Diagnosedokumentation hier nicht einbezogen sind. Das Zentralinstitut der kassenärztlichen Versorgung (Zi) hat in der Arbeit von Goffrier et al. (2017) auf Basis von vertragsärztlichen Abrechnungsdaten der kollektiven Versorgung eine dokumentierte Prävalenz des Diabetes von 9,8 % und des Typ-2-Diabetes von 9,5 % bei gesetzlich Krankenversicherten ausgewiesen – entsprechend Alters- und Geschlechtsstandardisiert auf die Mitglieder- und Versichertenstatistik mit Stand zum 01.07.2015. Die Ergebnisse aus der GEDA-Befragungsstudie 2014/2015 liefern eine 12-Monats-Prävalenz bei Erwachsenen ab 18 Jahren von 7,7 % für Diabetes (Typ 1 und Typ 2) (Heidemann et al. 2017). Die Angaben zum Diabetes sind Selbstangaben der befragten Personen, wobei Schwangerschaftsdiabetes ausgeschlossen wurde. Es kann möglicherweise eine Unterschätzung des Typ-2-Diabetes vorliegen, da in Befragungsstudien ältere Bevölkerungsgruppen ab 80 Jahren schwerer zugänglich sind (Gaertner et al. 2016). In Übersichtsarbeiten von Jacobs und Rathmann (2018) werden Schätzungen zur Häufigkeit des Typ-2-Diabetes mit 7 bis 8 % angegeben, in der Bestandsaufnahme zur Diabetes-Surveillance (Heidemann und Scheidt-Nave 2017) ist eine Spannbreite von 7,2 bis 9,9 % Diabetes-Prävalenz (Typ 1 und Typ 2) genannt. Zudem sind im Zeitverlauf steigende Prävalenzen berichtet worden (Heidemann und Schneidt-Nave 2017; Goffrier et al. 2017). Insgesamt liegen die Ergebnisse der vorliegenden Untersuchung mit einer Prävalenz des Typ-2-Diabetes von 8,78 % und dem plausiblen Intervall [8,03 %; 9,57 %] im Jahr 2016 in der zu erwartenden Größenordnung anderen Untersuchungen.

Für die Plausibilisierung der regionalen Unterschiede konnten die Arbeiten von Goffrier et al. (2017) und Heidemann et al. (2017) herangezogen werden. Die dort beschriebenen Muster mit höheren Diabetes-Prävalenzen insbesondere im Osten Deutschlands finden sich auch in der vorliegenden Untersuchung wieder. Insgesamt kann somit die Prävalenzschätzung im Vergleich zu externen Quellen unter Berücksichtigung der methodischen Unterschiede der verschiedenen Arbeiten als plausibel erachtet werden.

4.3 Diskussion der Methodik

Eine offensichtliche Stärke des Verfahrens ist die stabile Quantifizierung kleinräumiger Krankheitshäufigkeiten durch modellbasierte Inferenz. Klassische bzw. designbasierte Schätzverfahren auf Basis von Stichprobendaten könnten vergleichbar hochreferenzierte Schätzwerte lediglich mit einer prohibitiv hohen Varianz ausweisen. In der Literatur werden für solche Datensituationen oftmals Verfahren der Small-Area-Schätzung (Münnich et al. 2013; Rao und Molina 2015) vorgeschlagen. Siehe Tzavidis et al. (2018) für eine detaillierte Beschreibung der Anwendung entsprechender Methoden. Doch aufgrund der Selektivität des Versichertenstammes der AOK können zumindest gängige Small-Area-Verfahren, wie etwa das Fay-Herriot Modell (Fay und Herriot 1979), nicht auf die Routinedaten angewendet werden, da kein unverzerrter designbasierter Schätzer hergeleitet werden kann. Der von uns präsentierte Ansatz enthält zwar Elemente der Small-Area-Schätzung, insbesondere bei der Verwendung der gemischten linearen Modelle, unterscheidet sich jedoch hinsichtlich des Inferenzschlusses von den gängigen Verfahren. Die vorgestellte Verfahrensweise hinsichtlich Cross Validation, Bootstrap und der Konstruktion des plausiblen Werteintervalls sichern zusätzlich zumindest teilweise gegen Verletzungen der Modellannahmen ab. Der Inferenzschluss erfolgt nicht unter Berücksichtigung einer einzelnen Modellspezifikation, sondern einer Bandbreite von Spezifikationen, für welche im Einzelfall Abweichungen von den Annahmen erlaubt sind.

Ein weiterer Vorteil besteht in der großen Kosten- und Zeitersparnis, welche die Methodik bietet. Im Rahmen des Verfahrens werden ausschließlich Routine- und RegisterdatenFootnote 11 verwendet, welche automatisch erhoben werden und nicht in Stichproben erfragt werden müssen. Zusätzlich verfügen Krankenkassen in der Regel über deutlich umfangreichere gesundheitsbezogene Informationen hinsichtlich ihres Versichertenstamms, als sie klassischerweise in einer Gesundheitserhebung abgefragt werden. Da es sich dabei um Routinedaten handelt, ist zudem eine Betrachtung über die Zeit hinweg möglich. Für eine solche Analyse müssten, wollte man ähnliche Informationen anhand von Stichproben erhalten, ansonsten aufwändige Panel-Erhebungen durchgeführt werden. Die Methodik bietet folglich große Potenziale für die Bewertung der gesundheitlichen Lage in den Regionen Deutschlands. Basierend hierauf ist eine problemorientierte und zielgerichtete Ausgestaltung der Versorgung in den Regionen Deutschlands möglich.

Das Wissenschaftliche Institut der AOK (WIdO) ist zusammen mit dem Robert Koch-Institut und dem Umweltbundesamt Partner im Projekt BURDEN 2020Footnote 12 (Rommel et al. 2018). Hierbei soll eine umfassende Krankheitslastberechnung nach internationalem Vorbild der Global Burden of Disease-Studie (GBD 2017) aufgebaut werden. Die Krankheitslast einer Population wird gemessen als verloren gegangene gesunde Lebensjahre auf Grund von Krankheit oder vorzeitigem Versterben. Um ein vollständiges Bild der gesundheitlichen Lage in den Regionen Deutschlands zu erhalten, wird eine möglichst umfassende Abbildung aller Krankheiten angestrebt. Zusätzlich wird eine Attribution von Risikofaktoren für die verschiedenen Krankheiten berechnet, so dass regionale Unterschiede in der Krankheitslast auch hinsichtlich möglicher Ursachen bewertet werden können. Ein wesentlicher Baustein in der Krankheitslastberechnung ist die Datengrundlage zu den Prävalenzen verschiedener Erkrankungen und deren Folgezustände in der Bevölkerung auf regionaler Ebene. Die hier beschriebene Methodik kann daher auch genutzt werden, um Prävalenzen zur regionalen Krankheitslastberechnung für das BURDEN 2020 Projekt nutzbar zu machen. Dies erlaubt es, die Krankheitslastberechnung auch für Krankheiten zu ergänzen, die über die derzeit bestehenden Informationen der Gesundheitsberichterstattung hinausgehen.

Zu beachten ist jedoch, dass die Methodik primär für große Krankenkassen mit geographisch flächendeckend angesiedelten Versichertenstämmen geeignet ist. In Abschn. 3.3 wurde angenommen, dass in jedem Aggregat, für welches Krankheitshäufigkeiten geschätzt werden sollen, Mitglieder jener Krankenkasse sind, deren Versichertenstamm als Datengrundlage dient. Obwohl die vorgestellte Methodik es prinzipiell erlaubt, auch Krankheitshäufigkeiten für Aggregate zu schätzen, in denen keine Mitglieder vorhanden sindFootnote 13, so ist dies nur in einem gewissen Rahmen unter zusätzlichen Annahmen möglich. Es muss an der Stelle angenommen werden, dass die systematischen Morbiditätsunterschiede zwischen jenen Gebieten, in denen Mitglieder sind, und jenen, in denen keine Mitglieder sind, sich (vollständig) aus den Hilfsinformationen erklären lassen. Zusätzlich muss der funktionale Zusammenhang zwischen Zellprävalenz und den Prädiktoren für diese Gebiete hinreichend gleich sein. Wenn eine Schätzung für eine beispielhafte Region A auf Basis eines Versichertenstammes, dessen Mitglieder ausschließlich in Region B sind, durchgeführt wird, dann ist die Strukturübertragung von B nach A mit entsprechend viel Unsicherheit verbunden. Der Inferenzschluss ist dann sowohl statistisch als auch inhaltlich schwer zu legitimieren. Deshalb ist für die valide Erfassung regionaler Gesundheitsdisparitäten die Beobachtung der lokalen Morbiditätsstrukturen von zentraler Bedeutung. Da die AOK mit etwa 26,5 Mio. Versicherten in 2018 die größte gesetzliche Krankenkassenart mit Versicherten in allen Regionen Deutschlands darstellt, ist diese Problematik im Zuge des vorliegenden Beitrags jedoch vernachlässigbar.

Eine weitere Einschränkung liegt in der betrachteten Krankheit, für welche kleinräumige Prävalenzen geschätzt werden sollen. In Abschn. 3.3 wurde thematisiert, dass sich die Methodik insbesondere für Krankheiten eignet, die entweder in der Regel stationär behandelt werden, oder typische Komorbiditäten vorweisen, die zur Dokumentation entsprechender Diagnosen im stationären Behandlungssetting führen. In dem vorliegenden Beitrag wurde mit Diabetes Mellitus Typ 2 eine Krankheit gewählt, welche typische Komorbiditäten (etwa mit anderen kardiovaskulären Erkrankungen) aufweist. Diese Komorbiditäten sind vor allem in den Nebendiagnosen der DRG-Statistik detailliert enthalten, was die Schätzung auf Basis der Methodik begünstigt. Sollen nun aber Schätzungen für eine Diagnose vorgenommen werden, auf welche beides nicht zutrifft, so kann ggf. die benötigte Information zur Morbiditätsadjustierung als latente Variable durch eine Hauptkomponentenanalyse extrahiert werden. Sollte auch dies die systematischen Gesundheitsdisparitäten zwischen den Populationen nicht hinreichend gut erklären, so muss auf weitere Datenquellen zurückgegriffen werden, die für die Verteilung der zu schätzenden Krankheit einen größeren Erklärungsgehalt haben.

So stehen zum Beispiel die Referenzdaten der Arzneimittelversorgung sowie Daten zu Heilmittelbehandlungen zur Verfügung. Aus der GKV-Arzneimittel-Schnellinformation (GAmSi) sind Informationen zu abgerechneten Arzneimitteln auf Produktebene (PZN) nach Menge (DDDFootnote 14, Verordnungsanzahl) und Umsatz zugänglichFootnote 15. Über die PZN können darüber hinaus alle Informationen aus der Arzneimittelstammdaten-KlassifikationFootnote 16 (beispielsweise Wirkstoff, ATC-Code etc.) abgerufen werden. Die kleinste regionale Ebene ist hier die KV-Region. Weder ein Personenbezug noch eine Zuordnung nach Alter und Geschlecht sind möglich. Für die Heilmittelversorgung, d. h. Maßnahmen der Physiotherapie, Ergotherapie, Sprachtherapie oder medizinischen Fußpflege, können über das GKV-Heilmittel-Informations-System (GKV-HIS) die Mengen der Heilmittelverordnungen von GKV-Versicherten nach Altersgruppen ausgewertet werdenFootnote 17. Der kleinste regionale Bezug ist auch hier die KV-Region. Ob ein Modell über einen hinreichend großen Erklärungsgehalt verfügt, kann im Zuge des Bootstraps und der Cross Validation festgestellt werden. Sie liefern bereits bei der Schätzung wichtige Hinweise darüber, ob die verwendeten Modelle über genügend Erklärungsgehalt verfügen. Sind die Modelle innerhalb dieser Schritte instabil, so müssen weitere Anpassungen vorgenommen werden.

Zusätzlich muss angemerkt werden, dass die für die Schätzung von Diabetes mellitus Typ 2 spezifizierten Modelle in Abschn. 3.4 sich nicht uneingeschränkt zur Modellierung seltener Krankheiten verwenden lassen. Die (gemischten) linearen Modelle eignen sich nur dann für seltene Krankheiten, wenn diese sehr starken Prädiktoren in den Behandlungshäufigkeiten der DRG-Statistik aufweisen. Ein Beispiel hierfür wären akute Herzinfarkte. Diese sind zwar im Vergleich zu Diabetes mellitus Typ 2 sehr selten, werden jedoch nahezu ausschließlich stationär behandelt. Soll nun aber eine seltene Krankheit modelliert werden, die keine starken Prädiktoren in den stationären Daten hat, wie etwa Multiple Sklerose, so muss auf andere Modelltypen zurückgegriffen werden. Im Zuge des Projekts Gesundheitsatlas des Wissenschaftlichen Instituts der AOK (WIdO) werden aktuell sowohl generalisierte lineare Modelltypen als auch aufwändigere Schätzverfahren mit nicht-linearen Nebenbedingungen sowie die Einbindung weiterer Datenquellen untersucht, um die Methodik auch für derartige Konstellationen zu erweitern.

5 Fazit

Im Rahmen des Projekts Gesundheitsatlas des Wissenschaftlichen Instituts der AOK (WIdO) wurde in Kooperation mit der Universität Trier ein Verfahren entwickelt, welches die alters- und geschlechtsreferenzierte Schätzung regionaler Krankheitshäufigkeiten auf Basis von anonymisierten Routinedaten der AOK ermöglicht. Da die Kassenzugehörigkeit einer Person informativ für ihr Risiko hinsichtlich verschiedener Krankheiten sein kann, muss bei der Schätzung eine Selektivitätsverzerrung korrigiert werden. Die Methodik wurde für den vorliegenden Beitrag auf Diabetes Mellitus Typ 2 angewendet. Im Zuge des AOK-internen Projekts Gesundheitsatlas wird sie jedoch für die Schätzung zahlreicher weiterer Krankheiten benutzt. Es kann gezeigt werden, dass der präsentierte Ansatz eine gute Möglichkeit zur Schätzung kleinräumiger Gesundheitsdisparitäten darstellt. Eine Bewertung von regionalen Disparitäten in Bezug auf das Gesundheitsrisiko für die Bevölkerung Deutschlands wird somit ermöglicht und bietet den Akteuren im Gesundheitswesen eine weitere wesentliche Grundlage, Risiken genauer zu analysieren und Versorgung gezielt zu steuern. Die Daten können zudem in die BURDEN2020 Studie einfließen und stellen somit einen Bestandteil in der Krankheitslastberechnung für Deutschland dar. Die Nutzung der Routinedaten einer Kassenart bietet damit neben den Daten der Datentransparenzverordnung (DaTraV) eine weitere aufwandsarme Möglichkeit, regionale Krankheitshäufigkeiten unter Nutzung von selektiven aber umfassenderen Daten zu ermitteln.

Zukünftige Forschung wird unter anderem auf der Erstellung von Zeitreihen liegen. Die aktuellen Schätzungen belaufen sich ausschließlich auf Querschnittsdaten. Mittelfristig soll die Methodik jedoch dahingehend erweitert werden, dass die kleinräumige Entwicklung von Morbiditätsstrukturen auf Basis der AOK-Routinedaten im Zeitverlauf sichtbar gemacht werden können. Wie bereits in Abschn. 4.2 angedeutet, wird auch weitere Forschung zur Modellierung seltener Krankheiten erfolgen. Hierfür werden zum einen generalisierte lineare Modelle in Betracht gezogen, wie etwa Zero-Inflated Poisson oder negativ-binomiale Modelle. Zum anderen werden die bestehenden Verfahren zur Modellparameterschätzung erweitert, so dass sie für die spezielle Datensituation bei seltenen Krankheiten verwendbar sind.