Mit einer Studie soll anhand von Daten beurteilt werden, ob eine Hypothese bestätigt oder verworfen werden kann. Um einen Effekt nachweisen zu können, müssen ausreichend Daten vorliegen. Eine zu hohe Stichprobengröße kann jedoch zu unnötiger Länge und Ressourcenbindung führen. Daher ist es wichtig, im Rahmen der Fallzahlplanung und -berechnung (auch bekannt als a priori Poweranalyse) den optimalen Stichprobenumfang zu bestimmen. Im Nachhinein kann auch eine post-hoc Poweranalyse verwendet werden, um statistische Studien zu bewerten.
Warum ist eine Fallzahlplanung essentiell?
Eine ausreichende Fallzahl ist entscheidend, um einen vorhandenen Effekt nachweisen zu können. Zu wenige Daten führen dazu, dass ein Effekt nicht signifikant ist. Andererseits sind Datenerhebungen mit Zeit und Kosten verbunden, weshalb ein zu hoher Stichprobenumfang vermieden werden sollte.
Ein adäquater Stichprobenumfang stellt sicher, dass:
- Ein tatsächlich vorhandener Effekt nachgewiesen werden kann.
- Mit hinreichender Sicherheit davon ausgegangen werden kann, dass tatsächlich kein relevanter Effekt existiert, falls in der Studie keine Signifikanz nachgewiesen werden kann.
Erst planen, dann sammeln
Bei prospektiven Studien erfolgt die Fallzahlplanung vor Beginn der Datenerhebung, während sie bei bereits abgeschlossenen Studien nicht mehr möglich ist. In deskriptiven oder retrospektiven Studien sollte vorab genau festgelegt werden, wie viele Daten gesammelt werden müssen.
Zutaten für die Fallzahlplanung
Für eine erfolgreiche Fallzahlplanung ist eine enge Zusammenarbeit zwischen Anwendern und Statistikern unerlässlich. Folgende Aspekte müssen berücksichtigt werden:
Der geeignete statistische Test:
- Die Fragestellung und die Art der Zielvariable legen den statistischen Test fest.
- Professionelle Statistiker können bei der Auswahl des richtigen Tests helfen.
Der nachzuweisende Effekt:
- Der erwartete Unterschied der Zielvariable in den zu vergleichenden Gruppen muss festgelegt werden.
- Der nachzuweisende Effekt muss erreichbar sein.
Die Variabilität der Zielvariable:
- Die Stichprobengröße hängt von der Variabilität der Daten ab.
- Die Streuung der Zielvariable in den zu vergleichenden Gruppen ist wichtig.
Signifikanzniveau des Tests:
- Das Signifikanzniveau α wird vorher festgelegt.
- Je nach Fragestellung kann das Signifikanzniveau variieren.
Power der Studie:
- Die Power der Studie gibt die Wahrscheinlichkeit an, einen tatsächlich vorhandenen Unterschied nachweisen zu können.
Woher stammen die Zutaten?
Fallzahlplanung erfordert eine interdisziplinäre Zusammenarbeit von Statistikern und Anwendern. Präzise Vorinformationen können aus Pilotstudien, Literaturrecherche oder Erfahrungswerten gewonnen werden.
Zusammenhang der einzelnen Parameter
Die einzelnen Parameter beeinflussen den Stichprobenumfang mit komplexen Formeln. Für jede Fragestellung und Testung gibt es spezielle Formeln, aber allgemein gelten bestimmte Zusammenhänge.
Fallzahlszenarien
Trotz gewissenhafter Planung und Expertise ist es oft nur möglich, grobe Schätzungen der Parameter vorzunehmen. Daher werden verschiedene Szenarien für festgelegte Intervalle berechnet, um die Abhängigkeit des Stichprobenumfangs von den Parametern einzuschätzen.
Post-hoc Poweranalyse
Eine post-hoc Poweranalyse ermöglicht es, die Wahrscheinlichkeit für einen Fehler 2. Art bei vorgegebener Fallzahl zu beurteilen. Sie kann durchgeführt werden, wenn die Beobachtungen einer Studie bereits vorliegen.
Aus der Praxis: Fallzahlplanung bei Novustat
Als Beispiel wird eine Umfrage in einem Unternehmen geplant, um die Zufriedenheit von Führungskräften mit der von Mitarbeitern ohne leitende Funktion zu vergleichen. Der geeignete statistische Test ist der Chi-Quadrat Anpassungstest. Durch eine Poweranalyse wurde festgestellt, dass mindestens 29 Fragebögen benötigt werden, um einen relevanten Effekt nachweisen zu können.
Weiterführende Quellen
- Bock J., Bestimmung des Stichprobenumfangs für biologische Experimente und kontrollierte klinische Studien. Oldenbourg 1998
- Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39, 175-191.