Próbka to podzbiór populacji. Statystyka ogólnie dotyczy wykorzystywania próbek do wnioskowania o parametrach rządzących większą (prawdopodobnie nieskończoną) populacją.
Pracowałem nad nową metodą analizy i analizy zestawów danych w celu identyfikacji i izolacji podgrup populacji bez uprzedniej wiedzy o cechach podgrup. Chociaż metoda działa wystarczająco dobrze ze sztucznymi próbkami danych (tj. Zestawami danych utworzonymi specjalnie w celu identyfikacji i segregacji podzbiorów populacji), chciałbym spróbować przetestować ją z danymi na …
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …
Co się stanie, jeśli weźmiesz losową próbkę i zobaczysz, że nie jest ona reprezentatywna, jak w ostatnim pytaniu . Na przykład, co jeśli rozkład populacji ma być symetryczny wokół zera, a losowana próbka ma niezrównoważone obserwacje dodatnie i ujemne, a brak równowagi jest statystycznie znaczący, gdzie to Cię pozostawia? Jakie …
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
Próbowałem procesu z rzeczywistego świata, czasy pingów w sieci. „Czas podróży w obie strony” jest mierzony w milisekundach. Wyniki wykreślono na histogramie: Czasy pingowania mają minimalną wartość, ale długi górny ogon. Chcę wiedzieć, co to jest rozkład statystyczny i jak oszacować jego parametry. Mimo że rozkład nie jest rozkładem normalnym, …
Załóżmy, że wykonuje się tak zwany nieparametryczny bootstrap, pobierając próbki BBB o wielkości nnn każda z oryginalnych nnn obserwacji z zastąpieniem. Uważam, że ta procedura jest równoważna z oszacowaniem skumulowanej funkcji rozkładu przez empiryczny plik cdf: http://en.wikipedia.org/wiki/Empirical_distribution_function a następnie uzyskanie próbek bootstrap poprzez symulację obserwacji z szacowanych czasów cdf z …
Czy prawidłowe jest zastosowanie średniej długości ( ) i średniej masy ( )) z danej populacji do obliczenia średniego wskaźnika ( ) dla tej populacji?hhhwwwB M.ja= wh2)BMI=wh2BMI = \frac{w}{h^2}
Stosunkowo znam rozróżnienie między terminami statystyki i parametru. Widzę statystykę jako wartość uzyskaną z zastosowania funkcji do przykładowych danych. Jednak większość przykładów parametrów dotyczy definiowania rozkładu parametrycznego. Typowym przykładem jest średnia i odchylenie standardowe do parametryzacji rozkładu normalnego lub współczynników i wariancji błędu do parametryzacji regresji liniowej. Istnieje jednak wiele …
Mam nadzieję, że to pytanie nie zostanie oznaczone jako „zbyt ogólne” i mam nadzieję, że rozpocznie się dyskusja, która przyniesie korzyści wszystkim. W statystykach poświęcamy dużo czasu na naukę teorii dużych próbek. Jesteśmy głęboko zainteresowani oceną asymptotycznych właściwości naszych estymatorów, w tym tego, czy są one asymptotycznie bezstronne, asymptotycznie wydajne, …
Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …
Te dwa wyrażenia bardzo mnie pomieszały, kiedy uczyłem się statystyki. Wydaje mi się, że są to zupełnie różne rzeczy. Losowa próbka jest losowo pobrać próbkę z populacji, podczas gdy zmienna losowa jest jak funkcja, która odwzorowuje zbiór wszystkich możliwych wyników eksperymentu do liczby rzeczywistej. Powiedzmy jednak, że jeśli jakieś próbki …
Zawody Kaggle określają końcowe rankingi na podstawie ustalonego zestawu testów. Wyciągnięty zestaw testowy jest próbką; może nie być reprezentatywny dla modelowanej populacji. Ponieważ każde zgłoszenie jest jak hipoteza, algorytm, który wygrał konkurencję, może po prostu przypadkiem dopasować zestaw testowy lepiej niż inne. Innymi słowy, gdyby wybrano inny zestaw testów i …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.