Wiele metod statystycznych zakłada, że dane są zwykle dystrybuowane. Użyj tego znacznika, aby zadać pytania dotyczące założenia i testowania normalności lub normalności jako * właściwości *. Użyj [rozkład normalny] do pytań o rozkład normalny per se.
Nie chcę wiedzieć, czy niektóre zjawiska w przyrodzie mają rozkład normalny, ale czy możemy gdzieś zobaczyć kształt krzywej normalnej, tak jak na przykład w polu Galtona. Zobacz ten rysunek z Wikipedii. Należy zauważyć, że wiele matematycznych kształtów lub krzywych jest bezpośrednio widocznych w przyrodzie, na przykład złoty środek i spirala …
Pracuję nad algorytmem, który opiera się na fakcie, że obserwacje są normalnie rozłożone, i chciałbym empirycznie przetestować odporność algorytmu na to założenie.YYY Aby to zrobić, szukałem sekwencji przemian , które stopniowo zakłócić normalność . Na przykład, jeśli są normalne, mają skośność i kurtozę , i byłoby miło znaleźć sekwencję transformacji, …
Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam test statystyczny, w którym muszę …
Niektóre książki podają, że próbka o rozmiarze 30 lub większym jest konieczna, aby centralne twierdzenie graniczne dawało dobre przybliżenie dla . X¯X¯\bar{X} Wiem, że to nie wystarczy dla wszystkich dystrybucji. Chciałbym zobaczyć kilka przykładów rozkładów, w których nawet przy dużej wielkości próbki (być może 100, 1000 lub więcej) rozkład średniej …
Wyeliminuję wszystkie szczegóły biologiczne i eksperymenty i przytoczę tylko problem i to, co zrobiłem statystycznie. Chciałbym wiedzieć, czy ma rację, a jeśli nie, jak postępować. Jeśli dane (lub moje wyjaśnienie) nie są wystarczająco jasne, postaram się lepiej wyjaśnić, edytując. Załóżmy, że mam dwie grupy / obserwacje, X i Y, o …
Standardowa definicja wartości odstającej dla wykresu Box i Whisker to punkty spoza zakresu , gdzie I Q R = Q 3 - Q 1 i Q 1 to pierwszy kwartyl i Q 3 to trzeci kwartyl danych.{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 Jaka jest podstawa tej definicji? Przy dużej liczbie punktów nawet idealnie normalny …
Zastanawiam się, dlaczego używamy założenia Gaussa podczas modelowania błędu. Na kursie ML Stanforda prof. Ng opisuje to zasadniczo na dwa sposoby: Jest to matematycznie wygodne. (Jest to związane z dopasowaniem najmniejszych kwadratów i łatwe do rozwiązania za pomocą pseudoinwersji) Ze względu na centralne twierdzenie graniczne możemy założyć, że istnieje wiele …
Dlaczego test F dla różnicy wariancji jest tak wrażliwy na założenie rozkładu normalnego, nawet dla dużego ?NNN Próbowałem przeszukać sieć i odwiedziłem bibliotekę, ale żadna z nich nie dała dobrych odpowiedzi. Mówi, że test jest bardzo wrażliwy na naruszenie założenia normalnej dystrybucji, ale nie rozumiem dlaczego. Czy ktoś ma na …
Próbuję nauczyć się statystyki, ponieważ uważam, że jest tak powszechna, że zabrania mi uczenia się niektórych rzeczy, jeśli nie rozumiem jej poprawnie. Mam problem ze zrozumieniem tego pojęcia rozkładu próbkowania średnich próbek. Nie rozumiem, w jaki sposób niektóre książki i strony to wyjaśniły. Myślę, że rozumiem, ale nie jestem pewien, …
Jestem zdezorientowany co do założenia normalności w ANOVA z powtarzanymi pomiarami. W szczególności zastanawiam się, jaki rodzaj normalności powinien być dokładnie spełniony. Czytając literaturę i odpowiedzi na CV, natrafiłem na trzy różne sformułowania tego założenia. Zmienna zależna w ramach każdego (powtarzanego) warunku powinna być rozłożona normalnie. Często mówi się, że …
Chciałbym wykonać test W Shapiro Wilka i test Kołmogorowa-Smirnowa na resztkach modelu liniowego w celu sprawdzenia normalności. Zastanawiałem się tylko, jakie resztki powinny być do tego użyte - surowe resztki, resztki Pearsona, resztki studenckie czy resztki standaryzowane? Dla testu W Shapiro-Wilka wydaje się, że wyniki dla reszt surowych i Pearsona …
Stroiłem model przy użyciu caret, ale potem ponownie uruchomiłem model przy użyciu gbmpakietu. Rozumiem, że caretpakiet używa gbmi wynik powinien być taki sam. Jednak tylko szybki test przy użyciu data(iris)wykazuje rozbieżność w modelu około 5% przy użyciu RMSE i R ^ 2 jako metryki oceny. Chcę znaleźć optymalną wydajność modelu …
Zastosowane liniowe modele statystyczne Kutnera i in. stwierdza, co do odstępstw od założenia normalności modeli ANOVA: Kurtoza rozkładu błędów (mniej lub bardziej pikowany niż rozkład normalny) jest ważniejsza niż skośność rozkładu pod względem wpływu na wnioskowanie . Jestem nieco zdziwiony tym stwierdzeniem i nie udało mi się znaleźć żadnych powiązanych …
Zastanawiałem się, jak CI bootstrap (i BCa w układzie dwubiegunowym) działają na normalnie dystrybuowanych danych. Wydaje się, że dużo pracy analizuje ich wydajność w różnych typach dystrybucji, ale nie można znaleźć niczego w normalnie dystrybuowanych danych. Ponieważ najpierw wydaje się rzeczą oczywistą studiowanie, przypuszczam, że dokumenty są po prostu za …
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.