Für die Behandlung des intakten abdominellen Bauchaortenaneurysmas (iAAA) empfiehlt die S3-Leitlinie der Deutschen Gesellschaft für Gefäßchirurgie und Gefäßmedizin (DGG; [4]) bei Patienten mit akzeptablem periprozeduralem Risiko in gleicher Weise das endovaskuläre (EVAR) und offene (OR) Vorgehen, anatomische Machbarkeit von EVAR vorausgesetzt. Bei der Auswahl des Eingriffsverfahrens soll die Patientenpräferenz berücksichtigt werden, wobei auf Unterschiede zwischen EVAR und OR im periprozeduralen Verlauf, der Reinterventionshäufigkeit, der Nachsorge und der aneurysmabezogenen Langzeitsterblichkeit hingewiesen werden soll. Damit stellt sich im konkreten Einzelfall die Frage, ob das höhere periprozedurale Risiko bei OR im Vergleich zu EVAR, wie es auch die DIGG(Deutsches Institut für Gefäßmedizinische Gesundheitsforschung)-Registererhebungen nun über Jahre demonstriert haben [3, 9, 15,16,17], das eventuell bessere langfristige Ergebnis im Vergleich zu EVAR aufwiegt. Eine präoperative Risikoabschätzung, die auf einer soliden Datenbasis beruht, ist wünschenswert, auch für das Aufklärungsgespräch mit dem Patienten. Verschiedene Risikomodelle sind hierzu entwickelt worden, von denen der British Aneurysm Repair (BAR) Score der bekannteste ist [8]. Auch die Vascular Study Group of New England (VSGNE) hat sich dieses Themas mittlerweile angenommen und ein sog. VSGNE-Modell entwickelt und validiert [6, 7]. Jedoch gibt es bisher kein Modell, das generell übertragbar ist, was der Tatsache geschuldet ist, dass die Vorhersagekraft der verschiedenen Modelle entscheidend von dem Krankengut abhängig ist, anhand dessen die Scores validiert wurden, wie eine systematische Übersicht belegt [11]. Wir haben uns deshalb dazu entschlossen, für unser DIGG-Register einen spezifischen Risikoscore zu entwickeln, der zum einen der Prädiktion der postoperativen Letalität bei der elektiven Versorgung des iAAA dienen soll und es gleichzeitig in Zukunft ermöglicht, die Ergebnisse unserer Registerjahresberichte risikoadjustiert darzustellen.

Modellerstellung

Patienten und Methodik

Patienten

Für die Modellerstellung wurden die Daten der in den Jahren 2013 bis 2015 im DIGG-Register erfassten Patienten [3, 9, 15] mit intaktem AAA zusammengefasst. Es handelte sich insgesamt um 10.404 Patienten, von denen 7870 (75,6 %) mit EVAR und 2534 (24,4 %) mit OR behandelt wurden. 86,5 % der Patienten waren Männer, 13,5 % Frauen. Die wesentlichen Basisdaten zum Krankengut sind in Tab. 1 aufgeführt, die postoperative Letalität (für das Gesamtkrankengut sowie separat für EVAR und OR) ist in Tab. 2 wiedergegeben.

Tab. 1 Modellerstellung – Basisdaten der eingeschlossenen Patienten mit iAAA
Tab. 2 Modellerstellung – Klinikletalität der eingeschlossenen Patienten mit iAAA

Methodik

Die Methodik der Modellerstellung folgte Steyerberg [18]. Zur Berechnung des Modells wurde das Verfahren der binär logistischen Regressionsanalyse angewendet [2, 10], welches unter Verwendung des Maximum-Likelihood-Schätzverfahrens (ML) diejenigen α‑ und β‑Parameter in die Regression einbezieht, welche für bestimmte X‑Werte die tatsächlich beobachteten Y‑Werte einer bestimmten Stichprobe mit höchstmöglicher Wahrscheinlichkeit ermitteln können. Ziel der Schätzung ist die Berechnung der bedingten Wahrscheinlichkeit von Y. Durch zweifache Transformation werden die sog. Logits errechnet, welche die Wahrscheinlichkeit von P(Y=1) ins Verhältnis zu 1‑P(Y=1) setzen und dieses Verhältnis logarithmieren. Der Logit ergibt sich folglich aus der Summe aller logistisch verteilten Partialeffekte. Die Logits beschreiben den Effekt exakt, können aber nicht einfach in Bezug zur X‑Wertänderung interpretiert werden. Daher werden sie als Gewinnchance (Odds) und Effektkoeffizient (Odds Ratio, exp(b) [exponential Beta]) umformuliert.

Aus dem gewählten Regressionsverfahren mit ML-Schätzung geht die Einschränkung hervor, dass die Schätzwerte einen asymptotischen Charakter haben und erst bei einer unendlich großen Stichprobe ihre Gültigkeit beweisen können. Eine Verzerrung kann nicht mit Sicherheit ausgeschlossen werden. Daher wurde für die EVAR- und OR-Modelle die Regressionsanalyse um eine Bootstrap-Analyse ergänzt [5]. Aus den so gewonnen Schätzwerten wird ein robuster Schätzwert abgeleitet, der einem 1000-fach größeren Kollektiv nahekommt. Ebenso wird anhand des neuen Schätzwertes überprüft, ob die Variablensignifikanz in der Regression erhalten bleibt.

Die Korrelation zwischen beobachtetem und erwartetem Ergebnis (Passgenauigkeit des Modells) wurde mit dem Hosmer-Lemeshow-Test [10] überprüft, wobei p > 0,05 eine gute Passgenauigkeit zeigt, oder es wurde ein χ2-Test verwendet.

Die Diskrimination wurde mithilfe der Receiver-operating-characteristic(ROC)-Kurve bestimmt [14]. Die Fläche unter der Kurve (AUC) ist ein Maß für die Qualität des Klassifikators. Ein AUC größer 0,9 wird als „außergewöhnlich“, ein AUC von 0,8–0,9 als „exzellent“ und ein AUC von 0,7–0,8 als „akzeptable“ Diskrimination gewertet [10].

Ergebnisse

Modell EVAR

In Tab. 3 sind die Regressionsparameter aufgeführt, die auf die Klinikletalität bei EVAR einen signifikanten Einfluss nehmen. Hierzu gehören ein Alter über 85 Jahre, das Geschlecht, die proximale Aneurysmamorphologie (juxtarenal ja/nein), ein maximaler Durchmesser über 65 mm, ein bestehender Diabetes mellitus, eine ASA(American Society of Anesthesiologists)-Klassifikation >3, kardiale Begleiterkrankungen und die Niereninsuffizienz Grad 4 und 5. Die Signifikanzen beziehen sich auf die isolierte Korrelation des Parameters zur Subgruppenletalität. Die wesentlichen Informationen der Regressionsanalyse zu EVAR finden sich in Tab. 4. Die Signifikanzen repräsentieren in dieser Tabelle die Wahrscheinlichkeit des Zutreffens des Korrelationskoeffizienten als partieller Effekt unter konstanten Regressionsbedingungen. Es ergeben sich unterschiedliche Effektstärken, die auf die Klinikletalität einen Einfluss nehmen, sie werden in der Tabelle als Modellfaktoren bezeichnet und entsprechen den späteren Scorepunkten. Mit einem Modellfaktor von 5 sind bei EVAR die Variablen „juxtarenales AAA“ und „Niereninsuffizienz >3“ (Stadium 4 und 5) die effektstärksten Einflussfaktoren, gefolgt von den „kardialen Begleiterkrankungen“ (Modellfaktor von 3).

Tab. 3 Einflussfaktoren auf die perioperative Sterblichkeit bei endovaskulärer Versorgung des iAAA
Tab. 4 Regressionsanalysedaten zur Klinikletalität bei endovaskulärer Versorgung

Modell OR

Analog zu EVAR werden für OR alle präoperativ vorliegenden Risikovariablen auf eine signifikante Korrelation zur Letalität untersucht. Eingeschlossen werden das Alter über 80 Jahre, das Geschlecht, die proximale Aneurysmamorphologie, eine ASA-Klassifikation >3, stattgehabter Myokardinfarkt, renale Begleiterkrankungen und stattgehabter Schlaganfall. Die Ergebnisse sind in Tab. 5 dargestellt. Die Signifikanzen beziehen sich auf die isolierte Korrelation des Parameters zur Subgruppenletalität. Die wesentlichen Informationen der Regressionsanalyse zu OR finden sich in Tab. 6. Die Signifikanzen repräsentieren in dieser Tabelle die Wahrscheinlichkeit des Zutreffens des Korrelationskoeffizienten als partieller Effekt unter konstanten Regressionsbedingungen. Es ergeben sich unterschiedliche Effektstärken, die auf die Klinikletalität einen Einfluss nehmen. Mit einem Modellfaktor von 3 sind bei OR die Variablen „ASA >3“ und „renale Begleiterkrankungen“ die effektstärksten Einflussfaktoren. Des Weiteren übt der Zustand nach Apoplex einen signifikanten Einfluss auf die Letalität aus, während im Gegensatz zu EVAR der Aneurysmadurchmesser und Diabetes mellitus keine unabhängigen Risikofaktoren darstellen.

Tab. 5 Einflussfaktoren auf die perioperative Sterblichkeit bei offener Versorgung des iAAA
Tab. 6 Regressionsanalysedaten zur Klinikletalität bei offener Versorgung

Risikoscore

Der Risikoscore ergibt sich aus der Summe der Modellfaktoren (Score) für die einzelnen Risikofaktoren, wie sie für EVAR in Tab. 4 ​und für OR in Tab. 6 aufgelistet sind. Hierzu werden die Modellfaktoren einer entsprechenden Punktzahl (Score) gleichgesetzt. Der Anwender überprüft für EVAR und OR getrennt das Vorhandensein der entsprechenden Risikofaktoren und addiert die Modellfaktoren (Score). Der Summenscore ergibt dann das zu erwartende Risiko bzw. die zu erwartende Klinikletalität bei endovaskulärem oder offenem Vorgehen. Dies ist beispielhaft in Tab. 7 dargestellt.

Tab. 7 DIGG-Risikoscore zur Vorhersage der perioperativen Letalität bei EVAR oder OR eines iAAA in Abhängigkeit von der Summe der Risikofaktoren des Patienten

Validierung

In die Validierungsgruppe werden 3831 Patienten mit intaktem AAA des DIGG-Registerjahrgangs 2016 [16] eingeschlossen. Die Basisdaten dieser Patienten sind in Tab. 8 (s. Zusatzmaterial online), die Klinikletalität in Tab. 9 (s. Zusatzmaterial online) wiedergegeben. Hinsichtlich der Basisdaten der Patienten fällt im Vergleich zum Modell-Krankengut (Tab. 1) der höhere Anteil an EVAR-Patienten in der Validierungsgruppe auf, der jetzt 80,7 % ausmacht, sowie ein geringerer Anteil an Patienten mit pulmonalen Begleiterkrankungen (24,5 % vs. 35,9 %). Die Klinikletalität ist in der Validierungsgruppe bei OR niedriger als im Modell-Krankengut (4,1 % vs. 5,4 %), speziell bei Frauen (3,2 % vs. 7,9 %).

Die Rohdaten werden so aufgearbeitet, dass alle relevanten binären Items vorliegen. Im Anschluss werden getrennt nach EVAR und OR die Modelle übertragen, indem jedem Item der Gewichtungsfaktor zugeordnet wird und diese als Summe ausgegeben werden. Die Passgenauigkeit des Modells geht aus den Tab. 10 und 11 (s. Zusatzmaterial online) hervor, in denen für die verschiedenen Risikogruppen, definiert durch die Höhe des DIGG-Risiko-Scores, die berechnete und tatsächlich beobachtete Klinikletalität für EVAR (Tab. 10) und OR (Tab. 11) vergleichend tabelliert sind (s. Zusatzmaterial online).

Zur abschließenden Beurteilung der Reproduzierbarkeit der Vorhersagegenauigkeit wird eine ROC-Analyse durchgeführt. In der Validierungsgruppe wird eine AUC von 0,810 erreicht (Standardfehler 0,026). Das 95 %-Konfidenzintervall beträgt 0,759–0,861. Die Abweichung zur Modellerstellung macht lediglich −0,007 AUC aus. In letzterer (Modellerstellung) findet sich eine AUC von 0,817 (±0,014) mit einem Konfidenzintervall zwischen 0,789 und 0,844 (Abb. 1).

Abb. 1
figure 1

ROC („receiver operating characteristic“) -Analyse zur Modellerstellungsgruppe 2013 bis 2015 und zum Validierungsjahrgang 2016

Diskussion

Mit einer AUC von 0,817 im Modell und 0,810 in der Validierungsgruppe war der DIGG-Risikoscore in der vorliegenden Analyse ein ganz hervorragender Prädiktor (p < 0,001) für die perioperative Sterblichkeit – zunächst nur für das Krankengut des DIGG-Registers – bei Versorgung des iAAA mit EVAR oder OR. Dies zeigt ein Vergleich mit den Ergebnissen anderer Arbeitsgruppen. So entwickelten Eslami et al. [6] das Risikovorhersagemodell der VSGNE anhand von 4431 Patienten mit iAAA. Sie bezeichneten die Diskrimination ihres Modells mit einer AUC von 0,822 als ausgezeichnet und bestätigten dies in einer Folgeuntersuchung, in der das Modell an weiteren 16.989 Patienten der Vascular Quality Initiative (VQI) überprüft wurde [7]. In dieser externen Validierung schnitt das VSGNE-Modell mit einer AUC von 0,802 wiederum signifikant besser als andere Prädiktionsmodelle ab, wie z. B. das Medicare-Modell mit einer AUC von 0,780, das Vascular Governance North West-Modell (VGNW) mit einer AUC von 0,774 oder der Glasgow Aneurysm Score (GAS) mit einer ungenügenden AUC von lediglich 0,639. Den BAR-Score, das Medicare-Modell und das VGNW-Modell verglichen auch Grant et al. [8] anhand von 1124 Patienten, die sich im Nordwesten Englands in 17 Krankenhäusern einem elektiven Eingriff bei AAA unterziehen mussten. Sie bezeichneten die Diskrimination des BAR-Scores für das Gesamtkrankengut mit einer AUC von 0,83 als exzellent und die der Medicare- und VGNW-Modelle mit AUCs von 0,78 und 0,75 als akzeptabel, jedoch waren weder Medicare-Modell noch VGNW in der Lage, genügend zwischen endovaskulärem und offenem Vorgehen zu unterscheiden und die AUCs des BAR-Scores waren – getrennt nach EVAR und OR – mit 0,75 bzw. 0,70 auch nur noch „akzeptabel“.

Lijftogt et al. [11] überprüften in einer systematischen Übersicht die Leistungsfähigkeit von 13 Prädiktionsmodellen hinsichtlich der Vorhersagekraft der perioperativen Letalität bei der Versorgung des iAAA und rupturierten (rAAA) mit EVAR oder OR. Sie kamen zu dem Schluss, dass der BAR-Score mit einer C‑Statistik (AUC) von 0,83 und das präoperative Vascular Biochemistry and Haematology Outcome-Modell mit einer C‑Statistik (AUC) von 0,85 die beste Diskrimination aufwiesen, jedoch fehlte es beiden Modellen an externer Validierung. Letzterer Einwand gilt auch für den DIGG-Risikoscore, er wurde anhand der Patienten des DIGG-Registers validiert, ob er für Patienten, die in ganz anderen Kliniken, mit anderen Operateuren, vielleicht unterschiedlichen Indikationen und anderen Definitionen der Begleiterkrankungen in gleicher Weise gültig ist, ist bisher nicht untersucht worden. Auch ist der DIGG-Risikoscore nur bei Patienten mit iAAA anwendbar, aber es gibt auch keinen anderen Score, der sowohl auf Patienten mit iAAA als auch auf solche mit rAAA in gleicher Weise übertragbar ist.

Bei der Prüfung der klinischen Brauchbarkeit eines Risikomodells ist nach seiner Zielsetzung zu fragen. Wir empfehlen den DIGG-Risikoscore zunächst einmal als ein Instrument, mit dessen Hilfe dem Patienten bei dem Aufklärungsgespräch die Risiken bei endovaskulärem und offenem Vorgehen – mit Zahlen hinterlegt – rational, wertneutral dargestellt werden können. Der Einwand, dass mittlerweile die Patienten, wenn möglich das endovaskuläre Vorgehen präferieren und speziell bei der niedrigen Klinikletalität von EVAR eine Abschätzung der Klinikletalität für das endovaskuläre Vorgehen von vergleichsweise geringerer Bedeutung ist, ist nicht von der Hand zu weisen. Lijftogt et al. [11] haben deshalb gefordert, dass speziell für EVAR auch andere Zielparameter als nur die Klinikletalität überprüft werden sollten, wie z. B. die Komplikations- und Reinterventionsraten und letztlich vor allem auch Daten eines längerfristigen Follow-ups. Wir schließen uns dieser Meinung an und sehen die Prädiktion der Komplikationsrate als eine weitere Aufgabe zukünftiger Modellerstellungen an.

Eine andere wesentliche Zielsetzung des DIGG-Scores ist die risikoadjustierte Darstellung der DIGG-Registerergebnisse, auch für den Vergleich von EVAR und OR. Andere haben dies bei der Auswertung administrativer Daten in begrenztem Ausmaß vorgemacht. Trenner et al. [19] haben Mikrodaten der DRG („diagnosis related groups“) -Statistik des Statistischen Bundesamtes ausgewertet und so alle Patienten, die zwischen dem 01.01.2005 und dem 31.12.2013 wegen eines infrarenalen nichtrupturierten AAA in Deutschland stationär behandelt wurden, erfasst, wobei Fehlkodierungen und fehlende Daten nicht auszuschließen sind. Es handelte sich um 84.631 Patienten, 11,9 % davon waren Frauen. 53,9 % der Patienten wurden mit EVAR versorgt. Die Autoren führten eine Risikoadjustierung unter Zuhilfenahme des Elixhauser-Scores durch und kamen zu dem Schluss, dass Frauen bei AAA-Versorgung älter als Männer waren, weniger häufig mit EVAR versorgt wurden und dass ihre Klinikletalität höher als die der Männer war. Außerdem stieg die Klinikletalität mit dem Patientenalter an. Diese Erkenntnisse sind nicht neu, betrachtet man die in Tab. 2 aufgeführten Ergebnisse, und sie decken sich mit unseren früheren Registererhebungen – auch ohne Risikoadjustierung. Die DRG-Statistik nutzten auch Nimptsch und Mansky [12] bei ihrer Erhebung zur Abhängigkeit der Klinikletalität bei verschiedenen Eingriffen von dem Krankenhausfallvolumen – darunter auch die bei offener Versorgung des AAA. Auch hier konnten die Daten nur hinsichtlich der Komorbiditäten des Patienten risikoadjustiert werden. Damit sind jedoch wesentliche Einflussfaktoren ausgeschlossen, wie Tab. 4 und 6 belegen. Was den DIGG-Risikoscore bei EVAR angeht (Tab. 4), so hatte die Aneurysmamorphologie (juxtarenales AAA vs. infrarenales AAA) mit 5 Modellfaktoren (=Scorepunkten) einen weit größeren Einfluss auf die Ergebnisse als z. B. selbst das Alter über 85 Jahre (2 Modellfaktoren). Der Aneurysmadurchmesser >65 mm nahm des Weiteren mit 2 Modellfaktoren keinen geringeren Einfluss auf die Klinikletalität bei EVAR ein als das weibliche Geschlecht (ebenfalls 2 Modellfaktoren). Auch bei offener Versorgung spielte es für die Ergebnisse eine wichtige Rolle, ob es sich um ein juxta- oder infrarenales AAA handelte (Tab. 6), während der Aneurysmadurchmesser die Klinikletalität nicht signifikant beeinflusste. Diese Beobachtung deckt sich mit der großen Registererhebung von Overbey et al. [13], die die Daten des American College of Surgeons National Surgical Quality Improvement Program (ACS NSQIP) für die Jahre 2011 bis 2015 auswerteten. Es handelte sich um eine Kohorte von 10.026 Patienten mit elektiver Versorgung eines AAA, 8182 (81,6 %) mit EVAR und 1844 (18,4 %) mit OR. In dieser Erhebung waren Patienten mit größerem Aneurysma generell älter und zeigten eine höhere Komorbidität als solche mit kleinerem AAA, jedoch war nur bei EVAR, nicht aber bei OR nach Risikoadjustierung ein Einfluss der Aneurysmagröße auf die postoperative Morbidität nachweisbar.

Die beschriebenen Ergebnisse führen zu zweierlei Erkenntnissen: Zum einen sind Registererhebungen wie die des DIGG so lange Auswertungen der DRG-Statistik (oder der von Krankenkassendaten [1]) überlegen, wie sie mit der Erfassung der Aneurysmagröße und -morphologie ein Alleinstellungsmerkmal haben. Zum anderen lässt der DIGG-Risikoscore eine genauere Risikoadjustierung zu als andere Formen der Risikoadjustierung, die sich nur auf die Komorbiditäten des Patienten beziehen. Dies ist nicht nur darin begründet, dass im DIGG-Score die Anatomie erfasst wird. Vielmehr haben auch unterschiedliche Komorbiditäten des Patienten per se auf die Ergebnisse bei EVAR und OR einen unterschiedlich gewichteten Einfluss, sie sind nicht ident, wie ein Vergleich von Tab. 4 und 6 zeigt. Dies geht in die Berechnung des Scores für den einzelnen Patienten ein, aber nicht in dieser Form in die Risikoadjustierung der zitierten Erhebungen. Im Endergebnis hatte dies dann für die vorliegende Modellerstellung zur Folge, für EVAR und OR zwei unterschiedliche Prädiktionsmodelle entwickeln zu müssen, mit unterschiedlicher Scorebewertung (Tab. 7).

Folgerungen

  • Der DIGG-Risikoscore ist geeignet, dem Patienten im Aufklärungsgespräch die Risiken des endovaskulären und offenen Vorgehens bei der Versorgung des iAAA hinsichtlich der Klinikletalität rational darzustellen.

  • Mit einer AUC von 0,817 gehört der DIGG-Score zu den Risikomodellen, deren Diskrimination in der Literatur als „exzellent“ bewertet werden.

  • Der Score erlaubt darüber hinaus in Zukunft einen risikoadjustierten DIGG-Jahresbericht zur Versorgung des iAAA.

  • Da der Score auf den Daten des DIGG-Registers beruht und für dieses spezifisch ist, muss er – analog zu den Erfahrungen in allen anderen Erhebungen zu klinischen Prädiktionsmodellen – in seiner Prädiktionsstärke speziell für das DIGG-Register anderen Scores überlegen sein. Dies wird in einer nächsten Analyse demonstriert.

  • Der Score überschätzt im Moment die Klinikletalität bei OR, was zum einen auf der im Vergleich zur EVAR deutlich geringeren Fallzahl beruht, die in die Modellerstellung einging, und zum anderen auf die besseren Ergebnissen in der Validierungsgruppe im Vergleich zum Modell zurückzuführen ist.

  • In einem nächsten Schritt sollen deshalb die Patienten der Jahrgänge 2016 und 2017 in das Modell integriert werden (zusätzliche 8341 Patienten) und dann der überarbeitete Score mit den Daten des Jahres 2018 abgeglichen werden.