Załóżmy, że mam podział 80/20 między obserwacjami modelowania / walidacji. Dopasowałem model do zestawu danych modelowania i czuję się dobrze z błędem, który widzę w zestawie danych sprawdzania poprawności. Przed wdrożeniem mojego modelu do oceny przyszłych obserwacji, czy właściwe jest połączenie weryfikacji z powrotem z danymi modelowania, aby uzyskać zaktualizowane …
Czy standaryzacja zmiennej zależnej w grupie identyfikacyjnej ma sens? Poniższy dokument roboczy (Spowolnienie wylesiania w legalnej Amazonii; Ceny czy zasady ?, pdf ) wykorzystuje znormalizowaną zmienną zależną do analizy wpływu ogólnej zmiany polityki w Brazylii na wylesianie. Standaryzacja odbywa się w następujący sposób: Ynewit=Yit−Yi¯¯¯¯¯sd(Yit)Yitnew=Yit−Yi¯sd(Yit) Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} Autorzy …
Wykonuję regresję przy użyciu Losowych lasów do przewidywania cen na podstawie kilku atrybutów. Kod jest napisany w Pythonie przy użyciu Scikit-learn. Jak zdecydować, czy należy przekształcić zmienne za pomocą exp/ logprzed użyciem, aby dopasować je do modelu regresji? Czy jest to konieczne, gdy stosuje się podejście Ensemble, takie jak Losowy …
Jeśli w standardowych regresjach OLS zostaną naruszone dwa założenia (normalny rozkład błędów, homoscedastyczność), to czy standardowe błędy początkowe i przedziały ufności są odpowiednią alternatywą dla uzyskania znaczących wyników w odniesieniu do znaczenia współczynników regresora? Czy testy istotności ze standardowymi błędami ładowania i przedziałami ufności nadal „działają” z heteroscedastycznością? Jeśli tak, …
Dość podstawowe pytanie: Co oznacza normalny rozkład reszt z regresji liniowej? Pod względem tego, w jaki sposób wpływa to na moje oryginalne dane z regresji? Jestem totalnie zakłopotany, dzięki chłopaki
Moje przewidywania pochodzące z modelu regresji logistycznej (glm w R) nie są ograniczone od 0 do 1, jak bym się spodziewał. Rozumiem, że regresja logistyczna polega na tym, że parametry wejściowe i modelowe są łączone liniowo, a odpowiedź jest przekształcana w prawdopodobieństwo za pomocą funkcji logit link. Ponieważ funkcja logit …
Nie jestem pewien, jak interpretować tę regresję probitową, którą uruchomiłem na Stacie. Dane dotyczą zatwierdzenia pożyczki, a biała jest zmienną fikcyjną, która = 1, jeśli dana osoba była biała, lub = 0, jeśli dana osoba nie była. Bardzo pomocna byłaby jak to przeczytać. Najbardziej szukam tego, jak znaleźć szacunkowe prawdopodobieństwo …
Jedną z motywów elastycznej siatki było następujące ograniczenie LASSO: W przypadku lasso wybiera co najwyżej n zmiennych przed nasyceniem, ze względu na naturę problemu optymalizacji wypukłej. Wydaje się, że jest to cecha ograniczająca metodę wyboru zmiennych. Co więcej, lasso nie jest dobrze zdefiniowane, chyba że granica normy L1 współczynników jest …
Mam procentowe stopnie studentów na 38 egzaminach jako zmienną zależną w moim badaniu. Procent rangi jest obliczany na podstawie (rangi studenta / liczby studentów na egzaminie). Ta zmienna zależna ma prawie jednolity rozkład i chcę oszacować wpływ niektórych zmiennych na zmienną zależną. Jakiego podejścia regresji używam?
Załóżmy, że .Xβ=YXβ=YX\beta =Y Nie wiemy dokładnie, tylko jego korelację z każdego czynnika prognostycznego, .YYYXtYXtYX^\mathrm{t}Y Zwykłym rozwiązaniem najmniejszych kwadratów (OLS) jest i nie ma problemu.β=(XtX)−1XtYβ=(XtX)−1XtY\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y Załóżmy jednak, że jest bliskie liczbie pojedynczej (wielokoliniowość) i musisz oszacować optymalny parametr grzbietu. Wszystkie metody wydaje się potrzeba dokładnych wartości .XtXXtXX^\mathrm{t}XYYY Czy …
Próbuję po prostu zrozumieć, jaki jest związek między normalną regresją wielokrotną / prostą a regresją wielokrotną / prostą, gdy zmienne są różnicowane. Na przykład analizuję związek między saldem depozytów ( ) a stopami rynkowymi ( ) Jeśli uruchomię prostą regresję liniową, korelacja jest ujemna i dość znacząca (około -74). Jeśli …
Załóżmy, że mam dwa zestawy danych z n obserwacjami par danych zmiennej niezależnej x i zmiennej zależnej y . Załóżmy dalej, że chcę wygenerować rozkład nachyleń regresji dla każdego zestawu danych, ładując obserwacje (z zamianą) N razy i obliczając regresję y = a + bxza każdym razem. Jak porównać oba …
Jaka jest różnica między endogennością a nieobserwowaną heterogenicznością? Wiem, że endogenność pochodzi na przykład z pominiętych zmiennych? Ale o ile rozumiem, nieobserwowana heterogeniczność powoduje ten sam problem. Ale gdzie dokładnie leży różnica między tymi dwoma pojęciami?
Doradzałem studentowi badawczemu z konkretnym problemem i chciałem uzyskać wkład innych na tej stronie. Kontekst: Badacz miał trzy typy zmiennych predykcyjnych. Każdy typ zawiera inną liczbę zmiennych predykcyjnych. Każdy predyktor był zmienną ciągłą: Społecznościowe: S1, S2, S3, S4 (tj. Cztery predyktory) Poznawcze: C1, C2 (tj. Dwa predyktory) Zachowanie: B1, B2, …
Mam pytanie dotyczące koncepcji „podstawowych statystyk”. Jako student chciałbym wiedzieć, czy myślę o tym całkowicie źle i dlaczego, jeśli tak: Powiedzmy, że próbuję hipotetycznie spojrzeć na związek między „problemami zarządzania gniewem” i powiedzieć rozwód (tak / nie) w regresji logistycznej i mam możliwość zastosowania dwóch różnych wyników zarządzania gniewem - …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.