Jeśli wartość A jest wyraźnie lepsza w poszczególnych testach A/B, podczas gdy wynik B jest lepszy w agregacji, wówczas główną przyczyną jest to, że nie można agregować zestawów danych w ten sposób,. A jest lepsze.
Jeśli testy dają takie same wyniki każdego dnia, nie uzyska się tak wyraźnego wyniku, nawet przy różnych próbkach na dzień. Więc myślę, że to dodatkowo oznacza, że coś się zmieniło . To może być wszystko. Może zmieniło się to, co testowałeś każdego dnia (być może w bardzo subtelny sposób, na przykład prędkość serwera). A może ludzie, których testujesz, zmienili się (być może pod względem demograficznym, może tylko pod względem nastroju). To nie znaczy, że twoje testy są złe lub nieważne. Oznacza to, że mierzysz coś, co się rusza, a to sprawia, że jest to trudne.
I może być miscalculating lub niezrozumienia sytuacji, ale myślę jest również prawdą, że koniecznie nie zostały testowania A i B taką samą liczbę razy. Oznacza to, że jeśli w poniedziałek testowałeś A 50 razy i B 50 razy, a we wtorek testowałeś A 600 razy i B 600 razy, i tak dalej, i A outscored B każdego dnia, wtedy nie rozumiem, jak mógłbyś dostać zagregowany wynik, w którym B pokonuje A. Jeśli tak jest z twoją konfiguracją testu, to z pewnością wydaje się, że możesz coś poprawić, aby twoje dane były łatwiejsze do zrozumienia.
Podobne pytanie można uzyskać tutaj: http://stats.stackexchange.com/questions/226994/how-to-deal-with-unequal-proportions-in-an-ab-test/227097#227097 –