Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …
Wielokrotna imputacja jest dość prosta, jeśli masz model liniowy a priori , który chcesz oszacować. Jednak rzeczy wydają się nieco trudniejsze, gdy faktycznie chcesz dokonać wyboru modelu (np. Znajdź „najlepszy” zestaw zmiennych predykcyjnych z większego zestawu zmiennych kandydujących - mam na myśli szczególnie LASSO i wielomiany ułamkowe za pomocą R). …
Mam zbiór danych na temat prób rolnych. Moja zmienna odpowiedzi to stosunek odpowiedzi: log (leczenie / kontrola). Interesuje mnie, co pośredniczy w różnicy, więc prowadzę meta-regresje RE (nieważone, ponieważ wydaje się całkiem jasne, że wielkość efektu nie jest skorelowana z wariancją szacunków). Każde badanie podaje plon ziarna, plon biomasy lub …
Mam zestaw danych z N ~ 5000 i brakuje mi około 1/2 co najmniej jednej ważnej zmiennej. Główną metodą analityczną będą proporcjonalne zagrożenia Coxa. Planuję zastosować wielokrotne przypisanie. Podzielę się również na pociąg i zestaw testowy. Czy należy podzielić dane, a następnie przypisać osobno, czy przypisać, a następnie podzielić? Jeżeli …
Chciałbym uzyskać porady dotyczące łączenia wykresów kalibracyjnych / statystyk po wielokrotnym imputacji. W kontekście opracowywania modeli statystycznych w celu przewidywania przyszłego zdarzenia (np. Wykorzystanie danych z rejestrów szpitalnych do przewidywania przeżycia lub zdarzeń po wypisie ze szpitala), można sobie wyobrazić, że brakuje wielu informacji. Wielokrotna imputacja jest sposobem na poradzenie …
Mam zestaw danych z założeniem, że najbliżsi sąsiedzi są najlepszymi predyktorami. Po prostu idealny przykład wizualizacji gradientu dwukierunkowego Załóżmy, że mamy przypadek, w którym brakuje kilku wartości, możemy łatwo przewidzieć na podstawie sąsiadów i trendu. Odpowiadająca macierz danych w R (przykładowy manekin do treningu): miss.mat <- matrix (c(5:11, 6:10, NA,12, …
Chciałbym użyć imputacji do zastąpienia brakujących wartości w moim zbiorze danych z pewnymi ograniczeniami. Na przykład chciałbym, aby zmienna przypisana x1była większa lub równa sumie moich dwóch innych zmiennych, powiedzmy x2i x3. Chcę też x3zostać przypisany przez jeden 0lub >= 14i chcę x2zostać przypisany przez jeden 0lub >= 16. Próbowałem …
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
Niepokoi mnie problem, że chciałbym uruchomić wartość p dla oszacowania podstawie danych wielokrotnego przypisania (MI), ale nie jest dla mnie jasne, jak połączyć wartości p w zestawach MI.θθ\theta W przypadku zestawów danych MI standardowe podejście do uzyskania całkowitej wariancji oszacowań wykorzystuje reguły Rubina. Zobacz tutaj, aby zapoznać się z zestawieniem …
Używając Amelii w R, uzyskałem wiele przypisanych zestawów danych. Następnie wykonałem test z powtarzanymi pomiarami w SPSS. Teraz chcę połączyć wyniki testu. Wiem, że mogę używać reguł Rubina (zaimplementowanych w dowolnym pakiecie wielokrotnej imputacji w R) do łączenia średnich i standardowych błędów, ale jak mam łączyć wartości p? Czy to …
Mam powtórzone pomiary w punktach 2 razy w próbie osób. W chwili 1 jest 18 tys. Osób, a w drugiej 2 13 tys. (5000 osób straciło na obserwacji). Chcę cofnąć wynik Y zmierzony w czasie 2 (a wyniku nie można zmierzyć w czasie 1) na zestawie predyktorów X zmierzonych w …
Moje pytanie w skrócie: czy istnieją metody poprawy czasu działania R MICE (imputacja danych)? Pracuję z zestawem danych (30 zmiennych, 1,3 miliona wierszy), który zawiera (dość losowo) brakujące dane. Około 8% obserwacji w około 15 z 30 zmiennych zawiera NA. Aby przypisać brakujące dane, uruchamiam funkcję MICE, część pakietu MICE …
Rozważ następujący kod R: > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 Jak widać, opracowałem te dane z grubsza c = 2*b = 4*a. …
Załóżmy, że otrzymaliśmy zestaw danych w postaci i . Zadanie polega na przewidywaniu na podstawie wartości . Szacujemy dwie regresje, w których: ( y,x1,x2), ⋯ ,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n})( y,x1,x2), ⋯ ,xn - 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})yyyxxxyy=fa1(x1, ⋯ ,xn - 1,xn)=fa2)(x1, ⋯ ,xn - 1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.