Czy mogę użyć wyniku Z z wypaczonymi i niestandardowymi danymi? [Zamknięte]


12

Pracowałem z niektórymi danymi dotyczącymi czasu cyklu procesu i skalowaniem przy użyciu standardowego wyniku Z w celu porównania między częściami pełnego czasu cyklu.

Czy powinienem użyć innej transformacji, ponieważ dane są mocno wypaczone / nietypowe? („wartości odstające” nigdy nie mogą zająć ujemnego czasu i często trwają znacznie dłużej niż „średnia”)

Używanie Z-score nadal wydaje się „działać” ...

###############
# R code    
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))

5
zz

Odpowiedzi:


5

Jeśli X jest mocno przekrzywiony, statystyka Z nie będzie normalnie rozkładana (lub t, jeśli konieczne będzie oszacowanie odchylenia standardowego. Zatem percentyle Z nie będą standardowe normalne. W tym sensie to nie działa.


W moim rozumieniu X jest mocno przekrzywiony, co oznacza, że ​​wielkość próbki nie była wystarczająco duża (centralne twierdzenie graniczne). Nie jestem jednak pewien, czy sama populacja musi być normalna, aby statystyki Z działały. Czy to?
Andrzej Gis

1
OP mówi o rozkładzie populacji, a nie o rozkładzie średniej. Zatem wielkość próbki i centralne twierdzenie graniczne nie mają zastosowania.
Michael R. Chernick

2

Kod R będzie działał, ale wynik Z będzie mniej więcej tak znaczący, jak zdanie „Winogrona delikatnie dzwonią do pióra wiecznego”. To ważne zdanie, ale nie przekazuje niczego znaczącego.

Sądząc po twoim kodzie R, wydaje się, że uważasz, że Twoje dane są dystrybuowane przez Weibull. W takim przypadku po prostu użyłbym statystyki Weibulla i nie skalowałbym niczego, chyba że absolutnie musisz. Chociaż wyniki Z są nauczane w każdej klasie statystyk wprowadzających, nie oznacza to, że powinieneś ich używać przez cały czas, a zwłaszcza jeśli nie masz danych symetrycznych.


1

Jeśli populacja nie jest normalnie podzielona. W takim przypadku rozkład słupka (X) {średnia próbki} zbliża się do rozkładu normalnego zgodnie z centralnym twierdzeniem o granicy; dla dużej wielkości próbki. Chociaż teoretycznie mówimy, że używamy t-Studenta, ale dla wyższych wartości n (wielkość próbki lub stopień swobody) rozkład t i rozkład Z są prawie równe.


-4

TWOJE DANE NIE MUSZĄ BYĆ NORMALNE W ZESTAWIE Z-TEST. (TOWNEND, 2002) JEDNAK ODMIANY POWINNY BYĆ W przybliżeniu RÓWNE. ABY SPRAWDZIĆ, ŻE PRZEPROWADZIĆ F-TEST NA DWÓCH DANYCH, A JEŻELI SWOJE ODMIANY SĄ W przybliżeniu RÓWNE, WYNIK TESTU Z JEST PRZYDATNY. JEŚLI NIE, TRANSFORMUJ DANE.


9
Pytanie dotyczy transformacji zmiennej, a nie testu, więc nie sądzę, aby twoja odpowiedź miała zastosowanie. Prawdopodobnie jest to bardziej pouczające, jeśli podasz pełne odniesienie zamiast tylko odniesienia do roku imiennego, a niektórzy sprzeciwiają się SHOUTING.
Maarten Buis,

Zgadzam się z @MaartenBuis, ale w przeciwieństwie do niego, głosuję za tym.
Erik,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.