Test z jest testem statystycznym do testowania hipotez, który wykorzystuje standardowy rozkład normalny jako rozkład próbkowania statystyki testowej. Typowym przykładem jest test różnicy dwóch proporcji.
Załóżmy, że mam trzy populacje o czterech wzajemnie wykluczających się cechach. Pobieram losowe próbki z każdej populacji i tworzę tabelę krzyżową lub tabelę częstotliwości dla cech, które mierzę. Czy mam rację mówiąc, że: Gdybym chciał sprawdzić, czy istnieje jakikolwiek związek między populacjami a cechami (np. Czy jedna populacja ma wyższą …
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
Tło: Przedstawiam kolegom w pracy prezentację na temat testowania hipotez i rozumiem większość z nich dobrze, ale jest jeden aspekt, który wiążę się w węzły, próbując zrozumieć i wyjaśnić innym. Tak myślę, że wiem (proszę poprawić, jeśli źle!) Statystyki, które byłyby normalne, gdyby wariancja była znana, postępuj zgodnie z rozkładem …
Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
TŁO: Pomiń bezpiecznie - jest tutaj w celach informacyjnych i uzasadnia pytanie. Otwarcie tego artykułu brzmi: „Słynny test przygodności chi-kwadrat Karla Pearsona pochodzi z innej statystyki, zwanej statystyką z, opartej na rozkładzie normalnym. Najprostsze wersje mogą być matematycznie identyczne z równoważnymi testami z. Testy dają taki sam wynik we wszystkich …
Powiedzmy, że chcę przetestować, czy dwie niezależne próbki mają różne środki. Wiem, że podstawowy rozkład nie jest normalny . Jeśli dobrze rozumiem, moja statystyka testowa jest średnią , a dla wystarczająco dużych próbek, średnia powinna się rozkładać normalnie, nawet jeśli próbki nie są. Więc parametryczny test istotności powinien być w …
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
W testach hipotez powszechne pytanie brzmi: jaka jest wariancja populacji? Moje pytanie brzmi: skąd możemy poznać wariancję populacji? Gdybyśmy znali cały rozkład, równie dobrze moglibyśmy poznać średnią całej populacji. Jaki jest zatem sens testowania hipotez?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.