Die Meta-DiSc-Software wurde mit Microsoft Visual Basic 6 entwickelt und einige mathematische Routinen wurden aus der NAG C-Mathematikbibliothek [5] verknüpft. Die Software wird als einzelne Datei verteilt und kann kostenlos von der URL: http://www.hrc.es/investigacion/metadisc_en.htm heruntergeladen werden. Die Installation ist einfach und wird durch bildschirmgeführte Anweisungen unterstützt. Das Programm verfügt über eine benutzerfreundliche Oberfläche mit Dropdown-Menüs, Dialogfeldern und Online-Hilfedateien in HTML. Diese Hilfedateien enthalten ein Benutzerhandbuch und eine Beschreibung der implementierten statistischen Methoden.
Beschreibung der Ergebnisse einzelner Studien
Bei der Beschreibung der Genauigkeitsergebnisse mehrerer Studien ist es wichtig, eine Vorstellung von der Größe und Genauigkeit der Genauigkeitsschätzungen jeder Studie zu bekommen sowie das Vorhandensein oder Fehlen von Inkonsistenzen in den Genauigkeitsschätzungen zwischen den Studien (Heterogenität) zu bewerten. Da die Genauigkeitsschätzungen paarweise und oft miteinander verknüpft sind (Sensitivität und Spezifität oder LR positiv und LR negativ), ist es notwendig, diese gleichzeitig zu erfassen [11]. Ein Maß für die Genauigkeit, das diese paarweisen Maße kombiniert, ist das diagnostische Odds Ratio (dOR) [12], das zwar begrenzte klinische Anwendungsmöglichkeiten hat, aber bei Verfahren wie der Meta-Regression nützlich ist (siehe unten).
Meta-DiSc berechnet Genauigkeitsschätzungen und Konfidenzintervalle aus den einzelnen Studien und zeigt die Ergebnisse entweder als numerische Tabellen oder als grafische Darstellungen in zwei Formaten an: a) Forest Plots für Sensitivitäten, Spezifitäten, LR oder dOR mit den entsprechenden Konfidenzintervallen; und b) Darstellungen der Ergebnisse der einzelnen Studien im ROC-Raum, mit oder ohne eine sROC-Kurve.
Erforschung der Heterogenität (Schwelleneffekt)
Die Erforschung der Heterogenität ist ein entscheidendes Thema, um a) die möglichen Faktoren zu verstehen, die die Genauigkeitsschätzungen beeinflussen, und b) die Angemessenheit der statistischen Zusammenfassung von Genauigkeitsschätzungen aus verschiedenen Studien zu bewerten. Eines der Hauptursachen für Heterogenität bei Testgenauigkeitsstudien ist der Schwelleneffekt, der auftritt, wenn Unterschiede in Sensitivitäten und Spezifitäten oder LR aufgrund unterschiedlicher Grenzwerte oder Schwellenwerte auftreten, die in verschiedenen Studien verwendet werden, um ein positives (oder negatives) Testergebnis zu definieren. Wenn ein Schwelleneffekt vorliegt, besteht eine negative Korrelation zwischen Sensitivität und Spezifität (oder eine positive Korrelation zwischen Sensitivität und 1-Spezifität), die zu einem typischen Muster eines “Schulter-Arm-Plots” im sROC-Raum führt [8]. Es ist erwähnenswert, dass die Korrelation zwischen Sensitivität und Spezifität aus verschiedenen Gründen außer dem Schwelleneffekt resultieren kann (z.B. Teilvalidierungsbias, unterschiedliches Patientenspektrum oder unterschiedliche Einstellungen).
Meta-DiSc ermöglicht die Bewertung des Schwelleneffekts auf drei verschiedene Arten: a) visuelle Inspektion der Beziehung zwischen Paaren von Genauigkeitsschätzungen in Forest Plots. Wenn ein Schwelleneffekt vorliegt, zeigen die Forest Plots steigende Sensitivitäten bei abnehmenden Spezifitäten oder umgekehrt an. Die gleiche inverse Beziehung wird auch bei LR positiv und LR negativ deutlich; b) Darstellung der Genauigkeitsschätzungen aus jeder Studie im sROC-Raum – ein typisches “Schulter-Arm” -Muster würde auf das Vorhandensein eines Schwelleneffekts hindeuten; und c) Berechnung des Spearman-Korrelationskoeffizienten zwischen dem Logit der Sensitivität und dem Logit von 1-Spezifität. Eine starke positive Korrelation würde auf einen Schwelleneffekt hindeuten.
Erforschung der Heterogenität (außer Schwelleneffekt)
Neben Variationen aufgrund des Schwelleneffekts gibt es mehrere andere Faktoren, die zu Variationen in den Genauigkeitsschätzungen zwischen verschiedenen Testgenauigkeitsstudien in einer Übersicht führen können. Diese Gründe umfassen Zufallseffekte sowie Variationen in der Studienpopulation (z.B. Schweregrad der Krankheit und Begleiterkrankungen), dem Indextest (Unterschiede in Technologie, Assays, Bediener usw.), dem Referenzstandard und der Art und Durchführung einer Studie [13]. Da eine solche Heterogenität in Genauigkeits-Systematischen-Reviews fast immer vorhanden ist, ist es ein wesentlicher Bestandteil eines diagnostischen Reviews, vor jeder Meta-Analyse das Vorhandensein und das Ausmaß der Heterogenität zwischen den Primärstudien zu testen und die möglichen Ursachen für die Heterogenität zu erkunden [14].
Meta-DiSc ermöglicht es den Benutzern, die Heterogenität zwischen verschiedenen Studien auf zwei verschiedene Arten zu testen: a) visuelle Inspektion der Forest Plots von Genauigkeitsschätzungen. Wenn die Studien relativ homogen sind, liegen die Genauigkeitsschätzungen der einzelnen Studien entlang einer Linie, die der gepoolten Genauigkeitsschätzung entspricht. Große Abweichungen von dieser Linie deuten auf mögliche Heterogenität hin; b) statistische Tests, einschließlich Chi-Quadrat- und Cochran-Q-Tests, die während der Analyse automatisch durchgeführt werden, um zu bewerten, ob die Unterschiede zwischen den Studien größer als erwartet sind. Ein niedriger p-Wert lässt auf das Vorhandensein von Heterogenität hinweisen, die über das hinausgeht, was allein durch Zufall erwartet werden könnte. Zusätzlich zu diesen Heterogenitätsstatistiken berechnet Meta-DiSc den Inkonsistenzindex (I-squared), der als Maß für das Ausmaß der Heterogenität vorgeschlagen wurde [15].
Meta-Regression
Wenn sich aus den oben beschriebenen Analysen eine erhebliche Heterogenität ergibt, können die Gründe für diese Heterogenität untersucht werden, indem Studienlevel-Kovariaten (z.B. Population, Test, Referenzstandard oder methodische Merkmale) mit einem Genauigkeitsmaß in Beziehung gesetzt werden. Die üblicherweise verwendete Genauigkeitsmaßzahl ist das dOR, da es ein einheitliches Maß für die diagnostische Leistung darstellt, das sowohl Sensitivität und Spezifität als auch LR positiv und LR negativ umfasst. Die Verwendung von dOR als globales Maß für die Genauigkeit ist eine geeignete Methode, um die Gesamtgenauigkeit verschiedener Tests zu vergleichen [13]. Seine Verwendung ist jedoch begrenzt, da es nicht direkt in der klinischen Praxis eingesetzt werden kann und mögliche gegenläufige Effekte einer Studieneigenschaft auf Sensitivität oder Spezifität durch die Verwendung von dOR maskiert sein können.
Meta-DiSc implementiert die Meta-Regression unter Verwendung eines Allgemeinen Modells nach Littenberg und Moses [8, 13], gewichtet nach dem Kehrwert der Varianz oder der Studiengröße oder ungewichtet. Zufallseffekte zwischen Studien können durch verschiedene Methoden geschätzt und in das Gewichtungsschema einbezogen werden [16]. Die Schätzungen der Modellkoeffizienten erfolgen mittels Kleinste-Quadrate-Methode, wie sie in den NAG mathematischen Routinen implementiert ist. Die abhängige Variable ist ln(dOR), die über ein lineares Modell in Beziehung zu einer beliebigen Anzahl von Studienlevel-Kovariaten steht und optional die Variable repräsentiert, die den Schwelleneffekt darstellt [13]. Die Ausgaben der Meta-Regressionsmodellierung in Meta-DiSc sind die Koeffizienten des Modells sowie das Verhältnis von dOR (rdOR) mit den entsprechenden Konfidenzintervallen. Wenn eine bestimmte Studienlevel-Kovariate signifikant mit diagnostischer Genauigkeit assoziiert ist, wird ihr Koeffizient einen niedrigen p-Wert aufweisen, und das rdOR gibt ein Maß für die Größenordnung der Assoziation an.
Für fortgeschrittenere Meta-Regressionsverfahren wurden Hierarchische sROC-Modelle [17] und die bivariate Analyse von Sensitivität und Spezifität entwickelt [18]. Diese Methoden beheben einige der statistischen Mängel des Littenberg und Moses-Modells [8, 19].
Statistische Zusammenfassung
Die statistische Zusammenfassung ist nicht immer angebracht oder notwendig in jedem systematischen Review von Testgenauigkeitsstudien. Wenn sie jedoch angemessen verwendet wird, kann sie nützliche Zusammenfassungsinformationen liefern. Die notwendige Voraussetzung für die einfache Zusammenfassung (gewichtete Durchschnittsbildung) der Sensitivitäten, Spezifitäten, LR positiv und LR negativ besteht darin, dass die Studien und Ergebnisse relativ homogen sind (d.h. keine erhebliche Heterogenität, einschließlich Schwelleneffekt, vorliegt). Wenn aufgrund des Schwelleneffekts Heterogenität vorliegt, können die Genauigkeitsdaten durch Anpassung einer sROC-Kurve gepoolt werden und diese Kurve durch Statistiken wie den Bereich unter der Kurve (AUC) oder den Q*-Index [19] (d.h. den Punkt der Kurve, an dem Sensitivität gleich Spezifität ist) zusammengefasst werden. Wenn es Heterogenität aufgrund von anderen Ursachen als dem Schwelleneffekt gibt, sollte das Pooling nur innerhalb homogener Untergruppen versucht werden, die normalerweise im Voraus definiert wurden.
Meta-DiSc verfügt über umfangreiche Funktionen für das statistische Pooling: a) Es ermöglicht das Pooling von Sensitivitäten, Spezifitäten, LR positiv und LR negativ jeweils separat unter Verwendung von Modellen mit fester oder zufälliger Wirkung [10, 20]. Die Ergebnisse dieser Analysen werden numerisch in Tabellen dargestellt und grafisch als Forest Plots. Gepoolte Schätzungen werden mit ihren jeweiligen Konfidenzintervallen angegeben; b) Es implementiert verschiedene Möglichkeiten, eine sROC-Kurve anzupassen, wenn ein Schwelleneffekt vorliegt. Die Standardoption besteht darin, eine symmetrische sROC-Kurve nach Anpassung des linearen Modells von Littenberg und Moses zu berechnen. Benutzer können jedoch verschiedene Optionen auswählen, um diese Kurve anzupassen, z.B. indem sie einzelne dORs nach den Methoden von Mantel-Haenszel oder DerSimonian Laird [10, 20] kombinieren, um ein globales dOR zu schätzen und dann eine sROC-Kurve anzupassen. Wenn sich das dOR mit dem diagnostischen Schwellenwert ändert, ist die sROC-Kurve asymmetrisch. Meta-DiSc ermöglicht es dem Benutzer, die Asymmetrie der sROC-Kurve zu überprüfen und bei Bedarf eine asymmetrische sROC-Kurve anzupassen. Schließlich ermöglicht Meta-DiSc die Schätzung von AUC und dem Q*-Index sowie deren Standardfehler als Maß für die globale Genauigkeit, das auch den Vergleich zwischen Tests erleichtert; c) Meta-DiSc ermöglicht das Pooling verschiedener Zusammenfassungsmaße innerhalb von Untergruppen, die durch Studienlevel-Kovariaten definiert sind, mit Hilfe eines Filter-Dienstprogramms.
Soweit möglich wurden die Ergebnisse der oben beschriebenen statistischen Verfahren unter Verwendung verschiedener allgemeiner statistischer Software wie STATA (Version 8.2) und SAS (8.2) mit tatsächlichen veröffentlichten und simulierten Datensätzen validiert (Tabelle 1).