Gdy dane przedstawiają brak informacji (braki), tj. Nie są kompletne. Dlatego ważne jest, aby wziąć pod uwagę tę funkcję podczas wykonywania analizy lub testu.
Chcę ustalić, który z dwóch zestawów danych (B1, B2) lepiej koreluje (gruszki r) z innym zestawem (A). Brakuje danych we wszystkich zestawach danych. Jak mogę ustalić, czy wynikowa korelacja jest znacząco inna, czy nie? Np. Wartości 8426 są obecne zarówno w A, jak i B1, r = 0,74. 8798 jest …
Pracuję nad metaanalizą efektów losowych obejmującą szereg badań, w których nie zgłoszono odchyleń standardowych; we wszystkich badaniach podano wielkość próby. Nie sądzę, że możliwe jest przybliżenie lub przypisanie brakujących danych SD. W jaki sposób metaanaliza wykorzystująca surowe (niestandaryzowane) powinna oznaczać różnice jako wielkość efektu, gdy odchylenia standardowe nie są dostępne …
Próbuję zrozumieć, jak najlepiej modelować zmienną, w której z czasem uzyskiwałem coraz bardziej szczegółowe predyktory. Na przykład rozważ modelowanie stóp odzysku niespłaconych pożyczek. Załóżmy, że mamy zestaw danych z 20-letnimi danymi, a przez pierwsze 15 z tych lat wiemy tylko, czy pożyczka została zabezpieczona, czy nie, ale nic o cechach …
Mam dokładny randomForestmodel klasyfikacji, którego chciałbym użyć w aplikacji, która przewiduje klasę nowego przypadku. W nowym przypadku nieuchronnie brakuje wartości. Prognozy nie będą działać jako takie dla NA. Jak mam to zrobić? data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ …
Załóżmy, że otrzymaliśmy zestaw danych w postaci i . Zadanie polega na przewidywaniu na podstawie wartości . Szacujemy dwie regresje, w których: ( y,x1,x2), ⋯ ,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n})( y,x1,x2), ⋯ ,xn - 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})yyyxxxyy=fa1(x1, ⋯ ,xn - 1,xn)=fa2)(x1, ⋯ ,xn - 1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, …
Mam szereg czasowy pomiarów (wysokości-jednowymiarowy szereg). W okresie obserwacji proces pomiaru spadł o kilka punktów czasowych. Tak więc dane wynikowe są wektorem z NaN, w których występują luki w danych. Korzystanie z MATLAB-a powoduje mi problem podczas obliczania autokorelacji ( autocorr) i stosowania sieci neuronowych ( nnstart). Jak należy sobie …
Modeluję prognozę cukrzycy za pomocą regresji logistycznej. Wykorzystanym zestawem danych jest behawioralny system monitorowania czynników ryzyka (BRFSS) Centrum Kontroli Chorób (CDC). Jedną z niezależnych zmiennych jest wysokie ciśnienie krwi. Jest podzielony na kategorie z następującymi poziomami: „Tak”, „Nie”, „Nie wiem / Odmowa”. Czy podczas usuwania modelu należy usunąć te wiersze …
W problemie, nad którym pracuję, mam dwie zmienne losowe, X i Y. Muszę dowiedzieć się, jak ściśle są ze sobą powiązane, ale mają one różne wymiary. Ranga przestrzeni wierszy X wynosi 4350, a ranga przestrzeni wierszy Y jest znacznie większa, w dziesiątkach tysięcy. Zarówno X, jak i Y mają tę …
Upraszczając nieco, mam około miliona rekordów, które rejestrują czas wejścia i wyjścia ludzi w systemie trwającym około dziesięciu lat. Każdy rekord ma czas wejścia, ale nie każdy rekord ma czas wyjścia. Średni czas w systemie wynosi ~ 1 rok. Brakujące czasy wyjścia występują z dwóch powodów: Osoba nie opuściła systemu …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.