Jestem całkiem nowy z dwumianowymi testami danych, ale musiałem to zrobić, a teraz nie jestem pewien, jak interpretować wynik. Zmienna y, zmienna odpowiedzi, jest dwumianowa, a czynniki objaśniające są ciągłe. Oto co otrzymałem podsumowując wynik: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q …
Próbuję utworzyć wielomian dopasowania drugiego rzędu do niektórych danych, które mam. Powiedzmy, że knuję to dopasowanie z ggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) Dostaję: Tak więc dopasowanie drugiego rzędu działa całkiem dobrze. Obliczam to za pomocą R: summary(lm(data$bar ~ poly(data$foo, 2))) I dostaję: lm(formula = data$bar …
X i Y nie są skorelowane (-.01); jednak gdy umieszczam X w regresji wielokrotnej przewidującej Y, obok trzech (A, B, C) innych (powiązanych) zmiennych, X i dwie inne zmienne (A, B) są znaczącymi predyktorami Y. Zwróć uwagę, że dwie pozostałe ( A, B) zmienne są istotnie skorelowane z Y poza …
Moje pytania Jaki jest intuicyjny powód wykonywania rotacji czynników w analizie czynnikowej (lub komponentach w PCA)? Rozumiem, że jeśli zmienne są prawie jednakowo ładowane w najlepszych komponentach (lub czynnikach), to oczywiście trudno jest odróżnić komponenty. W takim przypadku można użyć rotacji, aby uzyskać lepsze rozróżnienie komponentów. Czy to jest poprawne? …
Wiem, że istnieje wiele materiałów wyjaśniających wartość p. Jednak koncepcja nie jest łatwa do zrozumienia bez dalszego wyjaśnienia. Oto definicja wartości p z Wikipedii: Wartość p jest prawdopodobieństwem uzyskania statystyki testowej co najmniej tak ekstremalnej jak ta, którą rzeczywiście zaobserwowano, przy założeniu, że hipoteza zerowa jest prawdziwa. ( http://en.wikipedia.org/wiki/P-value ) …
Wikipedia wyjaśnia: W przypadku zestawu danych średnia to suma wartości podzielona przez liczbę wartości. Ta definicja odpowiada jednak temu, co nazywam „przeciętnym” (przynajmniej tak pamiętam naukę). Jeszcze Wikipedia cytuje: Istnieją inne miary statystyczne, które wykorzystują próbki, które niektórzy mylą ze średnimi - w tym „mediana” i „tryb”. To mylące. Czy …
Wiele razy spotkałem się z nieformalnymi ostrzeżeniami przed „szpiegowaniem danych” (oto jeden zabawny przykład ) i myślę, że mam intuicyjne wyobrażenie z grubsza, co to oznacza i dlaczego może to stanowić problem. Z drugiej strony „eksploracyjna analiza danych” wydaje się być całkowicie godną szacunku procedurą w statystyce, przynajmniej sądząc po …
Natknąłem się na ten przyjemny samouczek: Podręcznik analiz statystycznych przy użyciu R. Rozdział 13. Analiza głównych składników: Olimpijski heptathlon na temat tego, jak robić PCA w języku R. Nie rozumiem interpretacji rysunku 13.3: Planuję więc pierwszy wektor własny vs drugi wektor własny. Co to znaczy? Załóżmy, że wartość własna odpowiadająca …
Jeśli dobrze rozumiem, przedział ufności parametru to przedział skonstruowany metodą, która daje przedziały zawierające prawdziwą wartość dla określonej proporcji próbek. „Pewność” dotyczy więc metody, a nie przedziału, który obliczam na podstawie konkretnej próbki. Jako użytkownik statystyk zawsze czułem się przez to oszukany, ponieważ przestrzeń wszystkich próbek jest hipotetyczna. Mam tylko …
Nieco jestem nowy w stosowaniu regresji logistycznej i jestem nieco zdezorientowany rozbieżnością między moimi interpretacjami następujących wartości, które moim zdaniem byłyby takie same: wykładnicze wartości beta przewidywane prawdopodobieństwo wyniku przy użyciu wartości beta. Oto uproszczona wersja modelu, którego używam, gdzie niedożywienie i ubezpieczenie są zarówno binarne, a bogactwo jest ciągłe: …
Jestem całkiem nowy w statystyce i potrzebuję twojej pomocy. Mam małą próbkę, jak następuje: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 Przeprowadziłem test Shapiro-Wilk przy użyciu R: shapiro.test(precisionH4U$H4U) i otrzymałem następujący wynik: W = 0.9502, p-value = 0.6921 Teraz, jeśli założę, że poziom istotności na 0,05, niż …
Brałem udział w konkursie uczenia maszynowego, w którym używają RMSLE (Root Mean Squared Logarithmic Error) do oceny wydajności przewidującej cenę sprzedaży danej kategorii sprzętu. Problem w tym, że nie jestem pewien, jak interpretować sukces mojego końcowego wyniku. Na przykład, jeśli osiągnąłem RMSLE na poziomie czy mogę podnieść moc wykładniczą i …
Mam nadzieję, że wszystkim wam to nie przeszkadza, ale potrzebuję pomocy w interpretacji wyników dla liniowego modelu efektów mieszanych, o których starałem się nauczyć w R. Jestem nowy w analizie danych podłużnych i regresji liniowych efektów mieszanych. Mam model, który dopasowałem do tygodni jako predyktor czasu, a moim wynikiem jest …
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
W przypadku modeli statystycznych i uczenia maszynowego istnieje wiele poziomów interpretacji: 1) algorytm jako całość, 2) części algorytmu ogólnie 3) części algorytmu na poszczególnych wejściach, a te trzy poziomy są podzielone na dwie części, jeden do treningu, a drugi do oceny funkcji. Ostatnie dwie części są znacznie bliższe niż pierwsze. …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.