Stichprobenrechner

Sie wollen schnell statistische Zuverlässigkeit erreichen?
Finden Sie heraus, wie groß Ihr Testpublikum sein muss. Kein Doktortitel in Mathematik erforderlich.

Statistischer Signifikanzrechner

Mit unserem Online Stichproben Rechner können Sie die Mindestgröße Ihrer Stichprobe berechnen und die optimale Laufzeit ermitteln. Halten Sie dazu Informationen zu Ihrer aktuellen Conversion Rate und der erwünschten Conversion Steigerung bereit sowie Ihren durchschnittlichen Website-Traffic und die Anzahl Ihrer Varianten im Test. Der Rechner hilft Ihnen, in Ihrem Testverfahren eine Zuverlässigkeitsrate zu erreichen, mit der Sie sichere datenbasierte Entscheidungen treffen können. In den FAQs unter dem Rechner finden Sie zusätzlich eine Erläuterung zu allen Kennzahlen.

Wie groß sollte Ihre Stichprobe sein?

[?] %
[?] %
[?] %
[?] %
Erforderliche Stichprobengröße pro Variante

Wie lang sollte Ihr Test laufen?

Unser Signifikanzrecher sagt Ihnen, wie lange Ihr A/B-Test mindestens laufen sollte. Bitte geben Sie für die Berechnung zunächst die obigen Information ein, dann Ihren durchschnittlichen Traffic pro Tag auf der zu testenden Seite und zuletzt die Anzahl der Varianten in Ihrem Test – inklusive der Originalversion. Lesen Sie diesen Artikel, um mehr darüber zu erfahren, wie viele User Sie für Ihren A/B Test benötigen.

[?]
[?]
Mindestlaufzeit in Tagen

Wie bestimme ich den Minimum Detectable Effect?

Hier können Sie den Minimum Detectable Effect ganz leicht berechnen.

FAQ

Wir haben den Stichproben Rechner für Sie erstellt, damit Sie ganz einfach ermitteln können, wie groß die Stichprobe für Ihren A/B-Test sein sollte und wie lange Ihr Test für statistisch signifikante Ergebnisse mindestens laufen sollte (z. B.: Um die gewünschte Verbesserung der Conversion Rate auf einem Signifikanzniveau von 95bestimmen zu können, muss Ihre Strichprobe User einschließen.)

Die Nullhypothese ist die Theorie in “ frequentierten “ statistischen Tests, die besagt, dass es keinen Unterschied zwischen Variationen gibt (also die Benennung „null“).

Wenn das Ergebnis eines Tests negativ ist, bedeutet das, dass es tatsächlich einen Unterschied gibt: Wir verwerfen die Nullhypothese. Andersrum, wenn das Ergebnis des Tests positiv ist, bedeutet das, dass es keinen Unterschied zwischen den Variationen gibt.

Dies ist mit dem Konzept des p-Wertes verbunden.

Der p-Wert ist die Wahrscheinlichkeit des Ergebnisses eines A/B-Tests unter Berücksichtigung der Nullhypothese.

Der p-Wert ist das Ergebnis eines Signifikanztests zur Prüfung einer vorab aufgestellten Null-Hypothese. Wenn der p-Wert niedrig ist (geringer als 0,05), ist die Null-Hypothese wahrscheinlich falsch, was bedeutet, dass zwischen den Varianten ein Unterschied besteht.

Ist der p-Wert hoch (höher als 0,05), kann die Null-Hypothese mit hoher Wahrscheinlichkeit nicht widerlegt werden. Zwischen den Testvarianten ist also von keinem Unterschied auszugehen. Zu diesem Zeitpunkt sollten Sie zumindest noch keine Rückschlüsse ziehen und weitere Daten einfließen lassen.

Der p-Wert stellt lediglich fest, ob es einen Unterschied gibt. Er gibt keine Auskunft darüber, welche Testvariante besser oder schlechter ist oder ob A > B oder B > A ist.

Anmerkung: Der p-Wert wird oft mit dem Begriff „Konfidenzindex“ beschrieben. Man spricht dann von einer Prozentangabe (1 – p-Wert)*100.

Das Erreichen der statistischen Signifikanz bedeutet, dass der Konfidenzindex gleich oder größer als ein bestimmter Grenzwert ist. Die Theorie besagt, dass dieser Grenzwert einmalig vor Beginn des Experiments festgelegt wird.

Für das Konfidenzintervall beträgt ein üblicher Grenzwert für seine statistische Signifikanz 95% (entspricht einem p-Wert von 0,05), ist aber nur eine Konvention.

Dieser Schwellenwert sollte unter Berücksichtigung der Besonderheiten jedes einzelnen Unternehmens festgelegt werden, da er in direktem Zusammenhang mit dem Risiko steht, das für das Experiment als angemessen erachtet wird.

Denken Sie auch daran, dass eine statistische Signifikanz von 95% bedeutet, dass statistisch gesehen eines von 20 Ergebnissen falsch ist, ohne dass Sie es erkennen können.

Der Algorithmus basiert auf einer Hochrechnung der Z-Faktor Formel, die in der Regel für die Normalverteilung genutzt wird. AB Tasty bietet außerdem Baye’sches A/B Testing an.

Die Statistical Power beschreibt die Fähigkeit eines Tests, eine Steigerung zu identifizieren, falls es wirklich eine Steigerung gibt bzw. eine Testvariante besser ist als eine andere. Eine Statistical Power von 80 % bedeutet, dass in 4 von 5 Fällen eine Steigerung identifiziert wird und gilt somit als ausreichend.

Bei Wahrscheinlichkeitsberechnungen gibt es zwei Formen von Fehlermeldungen. In einem A/B-Test beschreibt Typ 1, auch „false positive“ genannt, die schlechtere Variante als Gewinner, während Typ 2 eine gewinnende Variante nicht feststellt.

Die Unterscheidung ist nicht nur theoretisch: Fehler Typ I- und Typ II bedeuten oft nicht die gleichen Kosten! Es ist dann wünschenswert, sie unterschiedlich zu behandeln.

Auch als ein- und zweiseitige Tests bezeichnet, liegt der Unterschied im Umfang ihres Ergebnisses:

Einseitige Tests geben nur eine Aussage darüber, ob A = B oder nicht. Wenn A != B, könnte es sein, dass A > B oder A < B.
Beidseitige Tests geben eine weitere Information: Wenn A != B, ist A > B oder A < B?

Dies ist für A/B-Tests sehr wichtig, da die Richtung einer eventuell vorhandenen Differenz vor Beginn eines Experiments im Allgemeinen unbekannt ist.

Beidseitige Tests sind sicherer in der Anwendung und werden deshalb bei AB Tasty verwendet.

Schneller wachsen
mit AB Tasty

Alle Tools zur Optimierung Ihrer Conversion Rates auf einer Plattform vereint. 

Erhalten Sie eine individuelle Tour durch unser Tool.