Statystyki i duże zbiory danych regression

2

Pokazywanie korelacji przestrzennej i czasowej na mapach

Mam dane dla sieci stacji pogodowych w Stanach Zjednoczonych. To daje mi ramkę danych, która zawiera datę, szerokość, długość i pewną zmierzoną wartość. Załóżmy, że dane są gromadzone raz dziennie i zależą od pogody w skali regionalnej (nie, nie będziemy wchodzić w tę dyskusję). Chciałbym pokazać graficznie, jak jednocześnie mierzone …

16 r regression data-visualization pca spatial

1

Pytanie, jak znormalizować współczynnik regresji

Nie jestem pewien, czy normalizacja jest tu właściwym słowem, ale postaram się zilustrować, o co próbuję zapytać. Zastosowany tutaj estymator to najmniej kwadratów. Załóżmy, że masz y=β0+β1x1y=β0+β1x1y=\beta_0+\beta_1x_1 , możesz wyśrodkować go wokół średniej o y=β′0+β1x′1y=β0′+β1x1′y=\beta_0'+\beta_1x_1' gdzie β′0=β0+β1x¯1β0′=β0+β1x¯1\beta_0'=\beta_0+\beta_1\bar x_1 i x′1=x−x¯x1′=x−x¯x_1'=x-\bar x , tak że β′0β0′\beta_0' nie ma już żadnego wpływu …

16 regression self-study least-squares regression-coefficients

2

Miary heteroscedastyczności reszt

Ten link do Wikipedii zawiera szereg technik wykrywania heteroscedastyczności resztek OLS. Chciałbym dowiedzieć się, która praktyczna technika jest bardziej skuteczna w wykrywaniu regionów dotkniętych heteroscedastycznością. Na przykład tutaj centralny obszar wykresu OLS „Resztki vs Dopasowane” ma większą wariancję niż boki wykresu (w rzeczywistości nie jestem do końca pewien, ale załóżmy, …

16 regression least-squares heteroscedasticity

3

Czy w ogóle uzasadnione jest rozwarstwienie zbioru danych według wielkości pozostałości i wykonanie porównania dwóch prób?

Uważam, że jest to metoda ad hoc i wydaje mi się bardzo podejrzana, ale być może czegoś mi brakuje. Widziałem to w regresji wielokrotnej, ale bądźmy prostymi: yi=β0+β1xi+εiyi=β0+β1xi+εi y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} Teraz weź pozostałości z dopasowanego modelu ei=yi−(β^0+β^1xi)ei=yi−(β^0+β^1xi) e_{i} = y_{i} - \left( \hat{\beta}_{0} + …

16 regression residuals

2

Trwałość w szeregach czasowych

Czy ktoś mógłby mi powiedzieć, co oznacza „trwałość” w analizie szeregów czasowych? Dotyczy ekonometrii i regresji stosowanej.

16 regression time-series econometrics terminology

2

Czy dobrą praktyką jest standaryzacja danych w regresji za pomocą danych panelowych / podłużnych?

Ogólnie rzecz biorąc, standaryzuję moje zmienne niezależne w regresjach, aby właściwie porównać współczynniki (w ten sposób mają one te same jednostki: odchylenia standardowe). Jednak w przypadku danych panelowych / podłużnych nie jestem pewien, jak powinienem ustandaryzować swoje dane, zwłaszcza jeśli oszacuję model hierarchiczny. Aby zobaczyć, dlaczego może to być potencjalny …

16 r regression standardization

2

Agregowanie wyników z modeli liniowych przebiega R

Ponieważ modelowanie regresji jest często bardziej „sztuką” niż nauką, często testuję wiele iteracji struktury regresji. Jakie są skuteczne sposoby podsumowania informacji z tych wielu uruchomień modelu, próbując znaleźć „najlepszy” model? Jednym z zastosowanych przeze mnie sposobów jest umieszczenie wszystkich modeli na liście i przeglądanie summary()tej listy, ale wyobrażam sobie, że …

16 r regression

1

Modele pasujące w R, w których współczynniki podlegają ograniczeniom liniowym

Jak powinienem zdefiniować wzór modelu w R, kiedy dostępne jest jedno (lub więcej) dokładnych ograniczeń liniowych wiążących współczynniki. Jako przykład powiedz, że wiesz, że b1 = 2 * b0 w prostym modelu regresji liniowej. Dziękuję Ci!

16 r regression modeling

1

Regresja logistyczna - obawy / pułapki związane z wielokoliniowością

Czy w logistycznej regresji trzeba być tak samo zaniepokojonym wielokoliniowością, jak w przypadku regresji OLS? Na przykład, w przypadku regresji logistycznej, w której występuje wielokoliniowość, czy trzeba być ostrożnym (podobnie jak w przypadku regresji OLS) przy wyciąganiu wniosków ze współczynników Beta? W przypadku regresji OLS jedną „poprawką” wysokiej wielokoliniowości jest …

16 regression logistic multicollinearity

1

Regresja wielowymiarowa: dlaczego wyjątkowy?

Próbuję przeczytać o badaniach w dziedzinie regresji wielowymiarowej; gdy jest większe niż , to znaczy p >> n . Wydaje się, że termin \ log p / n pojawia się często w odniesieniu do wskaźnika konwergencji dla estymatorów regresji.pppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n Na przykład tutaj równanie (17) mówi, że dopasowanie …

16 regression lasso convergence high-dimensional

3

Jaki jest związek między rozkładem Beta a modelem regresji logistycznej?

Moje pytanie brzmi: jaki jest matematyczny związek między rozkładem Beta a współczynnikami modelu regresji logistycznej ? Aby zilustrować: funkcję logistyczną (sigmoid) podano przez f(x)=11+exp(−x)f(x)=11+exp⁡(−x)f(x) = \frac{1}{1+\exp(-x)} i służy do modelowania prawdopodobieństw w modelu regresji logistycznej. Niech AAA będzie wynikiem dychotomicznym (0,1)(0,1)(0,1) a XXX macierzą projektową. Model regresji logistycznej podano przez …

16 regression logistic mathematical-statistics beta-distribution

1

Jaki jest związek między częściową najmniejszą liczbą kwadratów, regresją zredukowaną i regresją składowych głównych?

Czy regresja zredukowana rangi i regresja głównych składników to tylko szczególne przypadki częściowych najmniejszych kwadratów? Ten samouczek (strona 6, „Porównanie celów”) stwierdza, że kiedy wykonujemy częściowe najmniejsze kwadraty bez rzutowania X lub Y (tj. „Nie częściowy”), staje się odpowiednio regresją zmniejszoną rangą lub regresją składowych głównych. Podobne oświadczenie znajduje się …

16 regression pca dimensionality-reduction partial-least-squares reduced-rank-regression

4

Dlaczego mówimy, że zmienna wynikowa „jest regresowana” na predyktorze (predyktorach)?

Czy istnieje jakieś intuicyjne wyjaśnienie tej terminologii? Dlaczego tak jest, a nie predyktor (y) są regresowane w wyniku? Mam nadzieję, że właściwe wyjaśnienie, dlaczego taka terminologia istnieje, pomoże uczniom zapamiętać ją i powstrzymać przed powiedzeniem jej w niewłaściwy sposób.

16 regression terminology teaching

1

Jak modelować nieujemne dane ciągłe z zerowym napompowaniem?

Obecnie próbuję zastosować model liniowy ( family = gaussian) do wskaźnika różnorodności biologicznej, który nie może przyjmować wartości niższych niż zero, jest zawyżony i ciągły. Wartości mieszczą się w zakresie od 0 do nieco ponad 0,25. W rezultacie w resztkach modelu istnieje oczywisty wzorzec, którego nie udało mi się pozbyć: …

16 regression zero-inflation tobit-regression tweedie-distribution

3

Analiza dyskryminacyjna a regresja logistyczna

Znalazłem zalety analizy dyskryminacyjnej i mam pytania na ich temat. Więc: Gdy klasy są dobrze rozdzielone, oszacowania parametrów regresji logistycznej są zaskakująco niestabilne. Współczynniki mogą sięgać nieskończoności. LDA nie cierpi z powodu tego problemu. Jeśli liczba cech jest niewielka, a rozkład predyktorów XXX jest w przybliżeniu normalny w każdej z …

16 regression logistic multivariate-analysis discriminant-analysis

Pytania otagowane jako regression