Gdy dane przedstawiają brak informacji (braki), tj. Nie są kompletne. Dlatego ważne jest, aby wziąć pod uwagę tę funkcję podczas wykonywania analizy lub testu.
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
Próbuję wykryć anomalne wartości w szeregu czasowym danych klimatycznych z pewnymi brakującymi obserwacjami. Przeszukując sieć znalazłem wiele dostępnych podejść. Spośród nich rozkład stl wydaje się atrakcyjny w sensie usunięcia trendów i składników sezonowych i przestudiowania reszty. Czytając STL: sezonowy-Trend rozkładu procedury opartej na Lessów , stlwydaje się być elastyczni w …
W moich danych jest jedna zmienna, w której brakuje 80% danych. Brak danych z powodu nieistnienia (tj. Ile pożyczka bankowa jest winna firmie). Natknąłem się na artykuł, w którym wyjaśniono, że metoda dopasowania zmiennej zastępczej jest rozwiązaniem tego problemu. Czyli muszę przekształcić tę zmienną ciągłą w jakościową? Czy to jedyne …
Moje pytanie dotyczy technik radzenia sobie z niekompletnymi danymi podczas szkolenia / dopasowania / klasyfikacji klasyfikatora / modelu. Na przykład w zestawie danych zawierającym kilkaset wierszy, z których każdy ma powiedzmy pięć wymiarów i etykietę klasy jako ostatni element, większość punktów danych będzie wyglądać następująco: [0,74, 0,39, 0,14, 0,33, 0,34, …
Mam ten ogromny zestaw danych z około 2500 zmiennymi i podobnymi 142 obserwacjami. Chcę uruchomić korelację między zmienną X a resztą zmiennych. Ale w wielu kolumnach brakuje wpisów. Próbowałem to zrobić w R za pomocą argumentu „pairwise-complete” ( use=pairwise.complete.obs) i uzyskałem wiązkę korelacji. Ale potem ktoś na StackOverflow opublikował link …
Niedawno sprawdziłem algorytm XGBoost i zauważyłem, że ten algorytm może obsłużyć brakujące dane (bez konieczności przypisywania) w fazie szkolenia. Zastanawiałem się, czy XGboost może obsłużyć brakujące dane (bez konieczności imputacji), gdy jest używany do prognozowania nowych obserwacji, czy konieczne jest przypisanie brakujących danych. Z góry dziękuję.
Używam „glmnet” do regresji lasso w GWAS. Niektóre warianty i pojedyncze osoby mają brakujące wartości i wydaje się, że glmnet nie może obsłużyć brakujących wartości. Czy jest na to jakieś rozwiązanie? czy jest jakiś inny pakiet, który może obsłużyć brakujące wartości w regresji lasso? Oto moje skrypty. > library(glmnet) > …
Próbowałem metody prognozowania i chcę sprawdzić, czy moja metoda jest poprawna, czy nie. Moje badanie porównuje różne rodzaje funduszy wspólnego inwestowania. Chcę użyć indeksu GCC jako punktu odniesienia dla jednego z nich, ale problem polega na tym, że indeks GCC zatrzymał się we wrześniu 2011 r., A moje badanie trwa …
Nigdy tak naprawdę nie znalazłem żadnego dobrego tekstu ani przykładów na temat obsługi „nieistniejących” danych dla danych wejściowych do dowolnego rodzaju klasyfikatora. Dużo czytałem o brakujących danych, ale co można zrobić z danymi, które nie mogą istnieć lub nie istnieją w odniesieniu do danych wejściowych na wielu odmianach. Rozumiem, że …
Mam następujący problem: - Mamy zestaw N osób - Mamy zestaw zdjęć K - Każda osoba ocenia pewną liczbę zdjęć. Osoba może polubić lub nie obraz (są to jedyne dwie możliwości). - Problem polega na tym, jak obliczyć prawdopodobieństwo, że dana osoba lubi określony obraz. Podam przykład przedstawiający moją intuicję. …
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …
Czy ważenie precyzyjne ma kluczowe znaczenie dla metaanalizy? Borenstein i in. (2009) piszą, że aby metaanaliza była możliwa, konieczne jest jedynie: Badania podają oszacowanie punktowe, które można wyrazić jako pojedynczą liczbę. Odchylenie można obliczyć dla tego oszacowania punktowego. Nie jest od razu jasne, dlaczego (2) jest absolutnie niezbędny. Rzeczywiście wszystkie …
Zastanawiam się, czy ktoś mógłby dać wgląd w to, czy imputacja dla brakujących danych jest lepsza niż po prostu budowanie różnych modeli dla przypadków z brakującymi danymi. Zwłaszcza w przypadku [uogólnionych] modeli liniowych (być może widzę, że w przypadkach nieliniowych rzeczy są różne) Załóżmy, że mamy podstawowy model liniowy: Y= …
Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …
Gelman i Hill (2006) mówią: W Bugs brakujące wyniki w regresji można łatwo rozwiązać, po prostu włączając wektor danych, NA i wszystkie. Błędy jawnie modelują zmienną wynikową, dlatego użycie tego modelu jest banalne, aby w efekcie przypisywać brakujące wartości przy każdej iteracji. Brzmi to jak prosty sposób na wykorzystanie JAGS …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.