Unterschied zwischen A/B-Testing, (Nicht-)Experiment und Experimentation

In Projektgruppen gibt es oft Verwirrung darüber, was genau mit “Lasst uns ein Experiment für dieses Projekt durchführen” gemeint ist. Diese Verwirrung entsteht teilweise durch die unterschiedlichen Fachbegriffe, mit denen die verschiedenen Rollen vertraut sind.

Generell kann “Experimentation” entweder “Experiment” als spezifische Forschungsmethodik bedeuten oder eine allgemeine Konnotation von “lass uns es testen” haben, was einer Pilotstudie, einer explorativen Studie oder einer ersten Untersuchung ähnelt.

Ein Experiment ist eine spezifische Forschungsmethodik und wissenschaftlicher Prozess zur Validierung einer Hypothese und zur Untersuchung kausaler Beziehungen zwischen Variablen. Ein Experiment kann je nach Experimentdesign mehrere Studiengruppen (auch Varianten genannt) haben. Falls erforderlich, kann auch eine Kontrollgruppe einbezogen werden, die oft als Baseline für den Vergleich dient. “A/B-Testing” kann als einfacher Typ eines kontrollierten Experiments betrachtet werden.

Nicht jede Benutzerforschung erfordert ein “Experiment” oder “A/B-Testing”. Auch qualitative Methoden können wichtige Erkenntnisse liefern. Es gibt nicht die beste Methodik, sondern nur die am besten geeignete Methodik.

INHALTSVERZEICHNIS

Hintergrund

In den meisten Arbeitsgruppen kommen Menschen mit unterschiedlichem Hintergrund und unterschiedlichen Fachkenntnissen zusammen. Das kann manchmal zu Missverständnissen führen, wenn eine bestimmte Methodik vorgeschlagen wird. A/B-Testing vs. Experiment vs. Experimentation ist eines der bekanntesten Beispiele dafür. Diese Notiz dient als kurze Einführung und Klarstellung dieser drei Begriffe, die oft synonym verwendet werden und zu Verwirrung bei der Projektplanung führen.

Der Fokus dieser Notiz liegt auf der Benutzererfahrungsforschung oder relevanten Bereichen, da dies ein Bereich ist, in dem viele Teams Lösungen, Programme und Tools zur Verbesserung der Benutzererfahrung, des Lernens oder der Motivation zur Durchführung einer erwarteten Aktion aktiv verfolgen. Ich werde auch kurz auf andere alternative Methoden eingehen, sowohl quantitative als auch qualitative, die verwendet werden können, um Projektfragen zu beantworten, auch wenn sie nicht als “Goldstandard” gelten, wie dies oft bei randomisierten kontrollierten Studien der Fall ist.

Zweifache Bedeutung von Experimentation

Wir können den Begriff Experimentation auf zwei Arten interpretieren: (1) als allgemeine Idee von “lass es uns testen” und (2) als wissenschaftliche Methodik zur Durchführung eines Experiments, bei der eine Reihe rigider Schritte zur Ableitung einer Schlussfolgerung erfüllt werden müssen. Manchmal wird das Wort Experimentation verwendet, ohne eine genaue Klarstellung darüber, welche der beiden Bedeutungen gemeint ist. Das kann entweder zu Verzögerungen bei der Festlegung einer Methode zur Beantwortung einer Geschäftsfrage führen oder zu Verwirrung über die notwendigen Anforderungen zur Durchführung einer Studie, um eine Geschäftsentscheidung zu treffen.

LESEN DISH & AWS gegen 1&1 & Rakuten: Welche Cloud-Native-Netzwerkstrategie ist die bessere Wahl?

Wenn wir nicht wissen, welche Methode wir anwenden sollen, um eine Business-Frage von Interesse zu beantworten, ist es ratsam zu sagen: “Für diese Frage müssen wir es testen”, anstatt “Lass uns ein Experiment durchführen”. Mit anderen Worten, es ist sicherer zu sagen: “Wir müssen einen Studienplan / Forschungsplan für diese Frage erstellen”, anstatt “Wir benötigen ein Experiment, um diese Frage zu beantworten”, insbesondere bevor ein Konsens darüber erzielt wurde, dass ein experimentelles Design als Methodik der beste Weg ist, um die Geschäftsfrage anzugehen. Jetzt, da wir wissen, dass Experimentation entweder generisch oder methodologisch sein kann, was ist ein Experiment?

Unterschied zwischen Experiment und A/B-Testing

Ein Experiment besteht aus einem Hypothesentest, der auf einem rigorosen und wissenschaftlichen Verfahren zur Ableitung einer Forschungsfrage aus Phänomenen, Aufstellung von Hypothesen, Festlegung der Stichprobengröße, Randomisierung und Gruppenzuweisung, Datenerhebung/-analyse, Berichterstattung und Überprüfung der Ergebnisse usw. basiert. Ein kontrolliertes Experiment ist ein häufiger Experimenttyp, auch bekannt als kontrollierte Studie. Ziel eines kontrollierten Experiments ist es, die Auswirkungen einer beabsichtigten unabhängigen Variable (z. B. ein neues Werkzeug, Programm, Design oder Eingriff) zu testen, indem die Ergebnisse zwischen Behandlungsgruppen und einer Kontrollgruppe verglichen werden. Das ultimative Ziel eines Experiments ist es, Kausalität (falls vorhanden) zu identifizieren, indem eine spezifische Variable oder einen bestimmten Faktor manipuliert und deren zugehöriger Ergebnis untersucht wird.

Ein Experiment kann mehrere Behandlungsgruppen mit verschiedenen Varianten von Interventionen haben, oder es kann auch eine einzelne Behandlungsgruppe und eine einzelne Kontrollgruppe haben, was als A/B-Testing bezeichnet wird. Im Wesentlichen ist A/B-Testing der einfachste Typ eines kontrollierten Experiments. Bei der Durchführung von A/B-Tests ist das Ziel, die Auswirkungen einer Intervention zu identifizieren, indem die Ergebnisse einer Behandlungsgruppe (d. h. Personen, die die Intervention erhalten) mit denen einer Kontrollgruppe (d. h. Personen, die die Intervention nicht erhalten) verglichen werden.

Ein wesentlicher Bestandteil eines Experiments besteht darin, die bekannten Faktoren zu kontrollieren und die unbekannten Faktoren zu randomisieren. Das Ziel ist es, die bekannten Variablen zwischen der Kontroll- und Behandlungsgruppe konstant zu halten, damit der einzige Unterschied im beobachteten Ergebnis zwischen den beiden Seiten korrekt auf die manipulierte Variable (d. h. Intervention) zurückgeführt werden kann. In den Sozialwissenschaften, in denen Menschen häufig die untersuchten Probanden sind, ist es sehr wahrscheinlich, dass es andere unbekannte Faktoren gibt, die das Ergebnis beeinflussen, als unsere beabsichtigte Intervention und die bekannten Faktoren, die wir kontrolliert haben. Schließlich testen wir nicht nur verschiedene Chemieprodukte in einem Labor, wenn wir ein Experiment in sozialer Umgebung durchführen. In solchen Fällen ist eine korrekte Stichprobenauswahl und Randomisierung der Gruppenzuweisung, um potenzielle Verzerrungen oder Störvariablen auszugleichen, entscheidend.

LESEN Chemie von CS2 und CS3 brückenartigen Decaboran-Analoga: Reguläre Koordination versus Cluster-Erweiterung

Die Planung eines Experiments füllt ganze Lehrbücher und mehrsemestrige Universitätskurse. Es erfordert auch viel praktische Erfahrung, um zu wissen, wie man verschiedene (un)erwartete Faktoren und/oder Störeinflüsse basierend auf den vorhandenen Ressourcen und der Zeit berücksichtigen kann. Obwohl ein kontrolliertes Experiment oft als “Goldstandard” bezeichnet wird, angesichts seiner rigorosen Planung und der Robustheit der Ergebnisse, gibt es andere Alternativen, die ein Projektteam in Betracht ziehen kann. Nicht jede Frage erfordert ein Experiment (oder A/B-Testing), manchmal können nicht-experimentelle Methoden eine Frage direkter, schneller und wirtschaftlicher beantworten, insbesondere in einem Geschäftsumfeld.

Was sind Nicht-Experiment-Methoden?

Neben einem kontrollierten Experiment oder A/B-Testing gibt es andere Alternativen mit unterschiedlichen Abwägungen zwischen wissenschaftlicher Strenge und logistischen Kosten. Ich liste einige der Alternativen unten auf:

Pre- & Post-Test-Design: Einzel- oder Gruppendesign mit einer Messung vor und nach der Implementierung einer Intervention. Das Ziel ist es, eine Veränderung (auch Delta genannt) in einer bestimmten Metrik aufgrund der Intervention zu identifizieren. Es ist wichtig sicherzustellen, dass die vor und nach der Intervention durchgeführten Messungen (z. B. Fragebögen, Tests) vergleichbar sind in Bezug auf die Art, Schwierigkeit, Format usw. der Fragen. Es ist auch wichtig sicherzustellen, dass eine bessere Leistung der Teilnehmer im Post-Test nicht auf den Effekt der Vertrautheit oder dem Raten der Antworten basiert, die auf dem Pre-Test basieren.
Quasi-Experiment: Der Präfix “quasi-” bedeutet nicht, dass es sich um ein gefälschtes Experiment handelt. Es bedeutet vielmehr, dass es einem Experiment nahe kommt, jedoch der Hauptunterschied darin besteht, dass es kein “kontrolliertes” Experiment ist. Die Gründe für die Durchführung eines quasi-experimentellen Designs können sein, dass es unethisch oder nicht möglich ist, festzustellen, wer eine Intervention erhält und wer nicht. Es ist trotzdem möglich, Studiengruppen zu vergleichen und die Auswirkungen einer Intervention mit Hilfe einiger statistischer Methoden nach der Studie zu berechnen.
Analyse von Beobachtungsdaten: Beobachtungsdaten beziehen sich auf Daten, die über Teilnehmer gesammelt werden, wenn sie nicht gezielt auf eine geplante Intervention reagieren (wie in einem Experiment). Zum Beispiel können viele Protokolldaten oder historische Daten mit einer Vielzahl von Variablen als Beobachtungsdaten dienen. Es gibt verschiedene statistische Ansätze, die verwendet werden können, um den Effekt einer Variable basierend auf den bereits aufgetretenen Fakten zu untersuchen. Wenn wir historische Daten haben, die die Reaktionen der Menschen auf ein neues/altes Produkt protokollieren, können wir die Verwendung des neuen/alten Produkts als Variable kodieren und den statistischen Einfluss darauf überprüfen, auf die Zielvariable, an der wir interessiert sind.
Mixed-Methods Design: Ein Mixed-Methods-Design kombiniert quantitative und qualitative Analysen. Diese Herangehensweise ermöglicht es Forschern, zwei Datenperspektiven für Breite und Tiefe der Daten zur Beantwortung einer Forschungsfrage zu nutzen. Einige gängige Ansätze, die ein Mixed-Methods-Design umsetzen, sind die Integration eines Interviews in ein Experiment oder die Anwendung einer Fokusgruppe vor der Durchführung einer Umfrage, usw.

LESEN Die 10 besten Sport-Apps im Jahr 2023 [Unbedingt ausprobieren]

Es gibt viele andere Alternativen zu einem Experiment, auch allein im qualitativen Bereich. Qualitative Methoden wie Fokusgruppen, Interviews, Benutzertagebücher und Feldforschung durch Beobachtung des Benutzerverhaltens können oft gute Einblicke liefern und haben einen geringeren logistischen Aufwand. Auf der quantitativen Seite können prädiktive Analytik, statistische Simulationen und maschinelles Lernen nützlich sein, wenn gute Qualitäts- und Affordanzmerkmale für historische Daten relevant für eine Forschungsfrage vorhanden sind.

Es gibt nicht die beste Methodik, sondern nur die am besten geeignete Methodik. Mit anderen Worten, die beste Methodik ist diejenige, die Ihre Forschungsfrage am besten beantworten kann.

Ein erfolgreiches Experiment? Nicht immer nur statistische Signifikanz

Manchmal sind wir begeistert von der statistischen Signifikanz oder einem großen positiven Delta, das aus einem neuen Design/Produkt resultiert. Das ist großartig! Aber wir sollten auch beachten, dass statistische Signifikanz allein kein erfolgreiches Experiment rechtfertigt.

Je nach der tatsächlichen Fragestellung zu den Metriken in einer Studie möchten wir manchmal keine statistische Signifikanz sehen. Wenn wir zum Beispiel ein neues Produktdesign einführen, das eine geringere Betriebskosten verursacht und leichter zu warten ist, und unsere Hoffnung darin besteht, dass es keine Veränderung im Benutzerverhalten verursacht, ist eine statistische Signifikanz/Unterschied kein idealer Ergebnis. Selbst wenn statistische Signifikanz das ist, was ein Projektteam anstrebt, sollten wir auch bedenken, dass sie nicht mit dem Erfolg eines Experiments verknüpft ist.

Ein erfolgreiches Experiment ist dasjenige, das Forschern und Interessengruppen robuste und handlungsfähige Einblicke für Entscheidungen über ein Design/Produkt gibt, anstatt nur das zu zeigen, was statistisch signifikant ist. Die positiven Effekte (falls vorhanden) eines neuen Designs oder Produkts stammen aus dem Design/Produkt selbst. Die Hauptaufgabe von Experimentatoren besteht darin, hypothetisierte positive Effekte zu messen, aber ein Experiment an sich wird die Natur dieses Designs/eines Produkts nicht verändern. Natürlich kann ein Experimentator an der Produktentwicklung teilnehmen, bevor er ein Experiment durchführt. Aber es ist wichtig, dass dies das Experimentdesign und die Ergebnisse nicht beeinflusst.

Wenn wir sehen wollen, was wir sehen wollen, oder wenn wir zu 100% sicher sind, was wir sehen werden, brauchen wir kein Experiment. Ein erfolgreiches Experiment gibt den Menschen nicht immer das, was sie erwarten, sondern es informiert sie immer darüber, was sie als nächstes tun sollten!

(Opinions expressed in this article are solely my own and do not express the views or opinions of my employer)

Hintergrund

Zweifache Bedeutung von Experimentation

Unterschied zwischen Experiment und A/B-Testing

Was sind Nicht-Experiment-Methoden?

Ein erfolgreiches Experiment? Nicht immer nur statistische Signifikanz

Anja Zimmermann