Mam dane dotyczące serii wygranych i przegranych zakładów w 5 rundach zakładów z wyczerpaniem po każdej rundzie. Korzystam z drzewa decyzyjnego, takiego jak poniżej, do wyświetlania danych.
Węzły w górnej części drzewa to te, które mają wygrane zakłady, a te w dolnej części drzewa mają serie przegranych zakładów. Chcę spojrzeć na (a) zużycie w każdym węźle (b) zmiany średnich wielkości zakładów w każdym węźle. Patrzę na szybkość ścierania w każdym węźle z poprzedniego węzła i wskaźnik przeżycia (używając oczekiwanej liczby osób w każdym węźle, jeśli prawdopodobieństwo wynosi 50%). Na przykład, jeśli prawdopodobieństwo wynosi 50% w każdym węźle, spośród 1000, które rozpoczęły, około 500 osób powinno znajdować się w każdym z drugich węzłów, W i L. Hipoteza jest (a) szybkość ścierania jest wyższa po utracie zakłady (b) średnia wielkość zakładu jest zmniejszana po przegranych i podnoszona po wygranych.
Najpierw chcę to zrobić w bardzo prostym ustawieniu jednowymiarowym. Jak mogę wykonać test t, aby wykazać, że zmiana średniej wielkości zakładu z węzła WW do węzła WWW jest statystycznie znacząca, jeśli wypadło 50 osób? Nie jestem pewien, czy jest to właściwe podejście: każdy kolejny zakład jest niezależny, ale ludzie odpadają po przegranych, więc próbka nie jest dopasowana. Gdyby to był tylko przypadek, gdy ta sama klasa zdawała serię egzaminów jeden po drugim, z nikim nie rezygnując, zrozumiałbym, jak wykonać odpowiedni test t, ale myślę, że to trochę inaczej.
W jaki sposób mogę to zrobić? Ponadto, jeśli wyniki są wypaczane przez niewielką liczbę klientów, jak mogę usunąć górne 5% i dolne 5%? Czy po prostu usunąć klientów z najwyższą łączną wielkością stawki z zakładu 1-3?
Mam dane, z których została wygenerowana liczba, więc mam średni, standardowy, standardowy błąd itp. W każdym węźle.