Problem z dyskusją z profesorem dotyczy terminologii, nieporozumienie utrudnia przekazanie potencjalnie użytecznego pomysłu. W różnych miejscach oboje popełniacie błędy.
Pierwszą rzeczą do rozwiązania: ważne jest, aby jasno określić, czym jest dystrybucja .
Rozkład normalny jest specyficznym obiektem matematycznym, który można uznać za model dla nieskończonej populacji wartości. (Żadna skończona populacja nie może mieć ciągłego rozkładu).
Luźno to, co robi ten rozkład (po określeniu parametrów), określa (za pomocą wyrażenia algebraicznego) proporcję wartości populacji, która mieści się w danym przedziale na linii rzeczywistej. Nieco mniej luźno określa prawdopodobieństwo, że jedna wartość z tej populacji znajdzie się w danym przedziale.
Obserwowana próbka tak naprawdę nie ma normalnego rozkładu; próbka mogłaby (potencjalnie) zostać pobrana z rozkładu normalnego, gdyby taki istniał. Jeśli spojrzysz na empiryczny plik cdf próbki, jest on dyskretny. Jeśli binujesz go (jak na histogramie) próbka ma „rozkład częstotliwości”, ale nie są to normalne rozkłady. Rozkład może powiedzieć nam pewne rzeczy (w sensie probabilistycznym) na temat losowej próbki z populacji, a próbka może również powiedzieć nam kilka rzeczy na temat populacji.
Rozsądną interpretacją wyrażenia typu „próbka normalnie dystrybuowana” * jest „próbka losowa z populacji normalnie dystrybuowanej”.
* (Generalnie staram się nie mówić tego sam, z powodów, które mam nadzieję, że są tu wystarczająco jasne; zwykle udaje mi się ograniczyć do drugiego rodzaju wypowiedzi).
Po zdefiniowaniu terminów (choć wciąż nieco luźno), przyjrzyjmy się teraz szczegółowo pytaniu. Zajmę się konkretnymi częściami pytania.
rozkład normalny trzeba mieć średnią = mediana = tryb
Jest to z pewnością warunek normalnego rozkładu prawdopodobieństwa, choć nie jest to wymóg dla próbki pobranej z rozkładu normalnego; próbki mogą być asymetryczne, mogą różnić się od mediany i tak dalej. [Możemy jednak dowiedzieć się, jak daleko od siebie moglibyśmy się spodziewać, gdyby próba rzeczywiście pochodziła z normalnej populacji.]
wszystkie dane muszą być zawarte pod krzywą dzwonową
Nie jestem pewien, co w tym sensie oznacza „zawarte w”.
i idealnie symetryczny wokół średniej.
Nie; mówisz tutaj o danych , a próbka z (zdecydowanie symetrycznej) populacji normalnej nie byłaby idealnie symetryczna.
Dlatego technicznie praktycznie nie ma żadnych normalnych rozkładów w rzeczywistych badaniach,
I zgadzam się z zawarciem ale rozumowanie nie jest prawidłowa; nie wynika to z faktu, że dane nie są idealnie symetryczne (itp.); to fakt, że populacje same w sobie nie są całkowicie normalne .
jeśli pochylenie / kurtoza są mniejsze niż 1,0, jest to rozkład normalny
Jeśli powiedziała to w ten sposób, to zdecydowanie się myli.
Skośność próbki może być znacznie bliższa zeru (przyjmując, że „mniej niż” oznacza w wartości bezwzględnej nie rzeczywistą wartość), a kurtoza nadmiaru próbki może być również znacznie bliższa 0 (mogą nawet przypadkowo lub konstrukcja, potencjalnie może być prawie dokładnie zerowa), a jednak rozkład, z którego została pobrana próbka, może być wyraźnie nienormalny.
Możemy pójść dalej - nawet gdybyśmy magicznie wiedzieli, że skośność populacji i kurtoza są dokładnie takie same jak u normalnych, to i tak samo nie powiedziałoby nam, że populacja była normalna, ani nawet coś zbliżonego do normalnego.
Zbiór danych to łączna liczba upadków / rok w losowej próbie 52 domów opieki, która jest losową próbą większej populacji.
Rozkład liczby zliczeń nigdy nie jest normalny. Zliczenia są dyskretne i nieujemne, rozkłady normalne są ciągłe i obejmują całą linię rzeczywistą.
Ale naprawdę koncentrujemy się na niewłaściwym problemie. Modele prawdopodobieństwa są po prostu modelami . Nie mylmy naszych modeli z rzeczywistością .
Problemem nie jest „czy same dane są normalne?” (nie mogą być), ani nawet „czy populacja, z której sporządzono dane, jest normalna?” (prawie nigdy tak się nie stanie).
Bardziej użytecznym pytaniem do dyskusji jest „jak bardzo wpłynęłoby to na moje wnioskowanie, gdybym traktował populację jako normalnie rozmieszczoną?”
Odpowiedź na pytanie jest również o wiele trudniejsza i może wymagać znacznie więcej pracy niż spojrzenie na kilka prostych metod diagnostycznych.
Statystyki przykładowe, które pokazałeś, nie są szczególnie niespójne z normalnością (możesz zobaczyć statystyki takie lub „gorsze” nierzadko rzadko, jeśli masz losowe próbki tej wielkości z normalnych populacji), ale to nie oznacza, że rzeczywista populacja z którego została pobrana próbka, jest automatycznie „wystarczająco blisko” do normy do określonego celu. Ważne byłoby, aby wziąć pod uwagę cel (na jakie pytania odpowiadasz) i solidność zastosowanych do tego metod, a nawet wtedy możemy nie być pewni, że jest „wystarczająco dobry”; czasami lepiej jest po prostu nie zakładać, że nie mamy dobrego powodu, aby zakładać z góry (np. na podstawie doświadczeń z podobnymi zbiorami danych).
to NIE jest normalny rozkład
Dane - nawet dane pochodzące z normalnej populacji - nigdy nie mają dokładnie właściwości populacji; z samych tych liczb nie masz dobrych podstaw, aby stwierdzić, że populacja nie jest tutaj normalna.
Z drugiej strony nie mamy też żadnych uzasadnionych podstaw, by stwierdzić, że jest „wystarczająco blisko” do normalności - nawet nie rozważaliśmy celu przyjęcia normalności, więc nie wiemy, na jakie cechy dystrybucyjne może być wrażliwy.
Na przykład, gdybym miał dwie próbki do pomiaru, który był ograniczony, o którym wiedziałem, że nie będzie mocno dyskretny (nie tylko biorąc kilka odrębnych wartości) i rozsądnie zbliżony do symetrycznego, być może z przyjemnością użyję dwóch próbek test t przy niewielkiej próbie; jest średnio odporny do lekkich odchyleń od założeń (nieco poziom, nie tak mocny). Byłbym jednak znacznie ostrożniejszy, ponieważ na przykład przyczynowo zakładałem normalność przy testowaniu równości spreadu, na przykład, ponieważ najlepszy test przy tym założeniu jest dość wrażliwy na to założenie.
Ponieważ oba są między wartościami krytycznymi -1 i +1, dane te są uważane za normalnie rozłożone. ”
Jeśli tak naprawdę jest to kryterium, według którego decyduje się zastosować normalny model dystrybucji, to czasami prowadzi cię do dość kiepskich analiz.
Wartości tych statystyk dają nam pewne wskazówki na temat populacji, z której pobrano próbkę, ale to wcale nie to samo, co sugerowanie, że ich wartości są w jakikolwiek sposób „bezpiecznym przewodnikiem” przy wyborze analizy.
Teraz, aby rozwiązać problem leżący u podstaw jeszcze lepszej wersji takiego pytania, jakie miałeś:
Cały proces patrzenia na próbkę wyboru modelu jest obarczony problemami - zmienia to właściwości wszelkich późniejszych wyborów analizy w oparciu o to, co widziałeś! np. w teście hipotez, twoje poziomy istotności, wartości p i moc nie są tym, czym byś wybrał / obliczyłby je , ponieważ te obliczenia są oparte na analizie nieopartej na danych.
Patrz na przykład Gelman i Loken (2014), „ The Statistics Crisis in Science ”, American Scientist , tom 102, nr 6, str. 460 (DOI: 10.1511 / 2014.111.460), który omawia problemy z taką analizą zależną od danych.