2010-01-29 27 views
10

Wykonuję testy A/B i stoję w obliczu paradoksu Simpsona w moich wynikach (dzień vs miesiąc vs całkowity czas trwania testu).Co oznacza paradoks Simpsona w testach AB?

  1. Czy to znaczy, że moje testy a/b nie są poprawne/reprezentatywne? (Jakiś czynnik zewnętrzny miał wpływ na testowanie?)
  2. Jeśli to jest znak problemu, jakie są wskazówki do naśladowania?

Dzięki za pomoc.

Dalsze czytanie: http://en.wikipedia.org/wiki/Simpson%27s_paradox

+0

Podobne pytanie można uzyskać tutaj: http://stats.stackexchange.com/questions/226994/how-to-deal-with-unequal-proportions-in-an-ab-test/227097#227097 –

Odpowiedz

10

Trudno powiedzieć, nie widząc dokładnych danych, które testujesz, ale ogólnie rzecz biorąc chcesz podejmować decyzje w oparciu o niezwiązane dane. This article from Microsoft daje całkiem jasny przykład paradoksu Simpsona w testowaniu oprogramowania.

Czy możesz podać czysty przykład połączonych i niepowiązanych danych oraz krótkie podsumowanie testu?

+0

+1 za dobry link –

+0

Kluczowym słowem są: niezaszyfrowane dane. :) Dzięki!!! – Toto

+1

Nie lubię artykułów, które zaczynają się od "Paradoksy są fajne". czy ja ...? –

1

Paradoks Simpsona występuje tylko wtedy, gdy rozmiary grup są różne. W rzeczywistości wyniki w kolorze pierwotnym są średnią ważoną dla wyników z każdej grupy (i na tej wadze może powstać paradoks).

To nie jest spowodowane czynnikami zewnętrznymi. Jest tak dlatego, że jedna grupa jest znacznie ważniejsza (ponieważ ma więcej elementów w grupie).

Jeśli podasz więcej informacji, prawdopodobnie pomożemy Ci lepiej.

3

Jeśli wartość A jest wyraźnie lepsza w poszczególnych testach A/B, podczas gdy wynik B jest lepszy w agregacji, wówczas główną przyczyną jest to, że nie można agregować zestawów danych w ten sposób,. A jest lepsze.

Jeśli testy dają takie same wyniki każdego dnia, nie uzyska się tak wyraźnego wyniku, nawet przy różnych próbkach na dzień. Więc myślę, że to dodatkowo oznacza, że ​​coś się zmieniło . To może być wszystko. Może zmieniło się to, co testowałeś każdego dnia (być może w bardzo subtelny sposób, na przykład prędkość serwera). A może ludzie, których testujesz, zmienili się (być może pod względem demograficznym, może tylko pod względem nastroju). To nie znaczy, że twoje testy są złe lub nieważne. Oznacza to, że mierzysz coś, co się rusza, a to sprawia, że ​​jest to trudne.

I może być miscalculating lub niezrozumienia sytuacji, ale myślę jest również prawdą, że koniecznie nie zostały testowania A i B taką samą liczbę razy. Oznacza to, że jeśli w poniedziałek testowałeś A 50 razy i B 50 razy, a we wtorek testowałeś A 600 razy i B 600 razy, i tak dalej, i A outscored B każdego dnia, wtedy nie rozumiem, jak mógłbyś dostać zagregowany wynik, w którym B pokonuje A. Jeśli tak jest z twoją konfiguracją testu, to z pewnością wydaje się, że możesz coś poprawić, aby twoje dane były łatwiejsze do zrozumienia.