Statystyki i duże zbiory danych regression

3

Mam macierz z dwiema kolumnami, które mają wiele cen (750). Na poniższym obrazku narysowałem resztki następującej regresji liniowej: lm(prices[,1] ~ prices[,2]) Patrząc na obraz, wydaje się być bardzo silną autokorelacją reszt. Jak mogę jednak sprawdzić, czy autokorelacja tych reszt jest silna? Jakiej metody powinienem użyć? Dziękuję Ci!

23 r regression correlation autocorrelation

4

Czy usunąć przypadki oznaczone przez oprogramowanie statystyczne jako odstające od siebie podczas wykonywania regresji wielokrotnej?

Przeprowadzam analizy wielu regresji i nie jestem pewien, czy wartości odstające w moich danych powinny zostać usunięte. Dane, które mnie niepokoją, pojawiają się jako „koła” na wykresach pudełkowych SPSS, jednak nie ma gwiazdek (co sprawia, że uważam, że nie są „takie złe”). Sprawy, o które się martwię, pojawiają się w …

23 regression outliers

3

Czy wysokie

To pytanie zostało przeniesione z Przepełnienia stosu, ponieważ można na nie odpowiedzieć w ramach weryfikacji krzyżowej. Migrował 4 lata temu . W statystykach przeprowadzamy regresje liniowe, od samego ich początku. Ogólnie wiemy, że im wyższa tym lepiej, ale czy kiedykolwiek istnieje scenariusz, w którym wysokie byłoby bezużytecznym modelem?R 2R2)R2R^2R2)R2R^2

23 regression r-squared

2

Dlaczego Laplace produkuje rzadkie rozwiązania?

Przeglądałem literaturę na temat regularyzacji i często widzę akapity, które łączą regulację L2 z przełożeniem Gaussa i L1 z Laplace'em wyśrodkowanym na zero. Wiem, jak wyglądają te priory, ale nie rozumiem, jak to przekłada się na przykład na wagi w modelu liniowym. W L1, jeśli dobrze rozumiem, oczekujemy rzadkich rozwiązań, …

23 regression bayesian prior regularization laplace-distribution

2

Lasy losowe dla regresji wielowymiarowej

Mam problem z regresją wielu wyjść z funkcjami wejściowymi i wyjściowymi d y . Dane wyjściowe mają złożoną, nieliniową strukturę korelacji.dxdxd_xdydyd_y Chciałbym użyć losowych lasów do przeprowadzenia regresji. O ile wiem, losowe lasy do regresji działają tylko z jednym wyjściem, więc musiałbym trenować lasy losowe - jeden dla każdego wyjścia. …

23 regression multivariate-analysis random-forest

7

Szacowanie rozkładu na podstawie trzech percentyli

Jakich metod mogę użyć do wnioskowania o rozkładzie, jeśli znam tylko trzy percentyle? Na przykład wiem, że w pewnym zbiorze danych piąty percentyl wynosi 8,135, 50 percentyl to 11 259, a 95 percentyl to 23 611. Chcę móc przejść z dowolnej innej liczby do jej percentyla. To nie są moje …

23 r regression quantiles

2

Jak znaleźć wagi dla ważonej regresji metodą najmniejszych kwadratów?

Trochę zagubiłem się w procesie regresji WLS. Otrzymałem zestaw danych, a moim zadaniem jest sprawdzenie, czy istnieje heteroscedascityity, a jeśli tak, powinienem uruchomić regresję WLS. Przeprowadziłem test i znalazłem dowody na heteroscedascity, więc muszę uruchomić WLS. Powiedziano mi, że WLS jest w zasadzie regresją OLS modelu transformowanego, ale jestem nieco …

23 regression heteroscedasticity weighted-regression

6

Radzenie sobie ze skorelowanymi regresorami

Jaka jest najlepsza strategia w wielokrotnej regresji liniowej z wysoce skorelowanymi regresorami? Czy uzasadnione jest dodanie produktu wszystkich skorelowanych regresorów?

23 regression multicollinearity

5

Gdy A i B są zmiennymi pozytywnie powiązanymi, czy mogą mieć odwrotny wpływ na zmienną wynikową C?

A jest pozytywnie związany z B. C jest wynikiem A i B, ale wpływ A na C jest ujemny, a wpływ B na C jest pozytywny. Czy to może się zdarzyć?

22 regression correlation

1

Kara za pomost a regularyzacja elastycznej sieci

Niektóre funkcje karne i przybliżenia są dobrze zbadane, takie jak LASSO ( L1L1L_1 ) i Grzbiet ( L2L2L_2 ) i ich porównanie w regresji. Czytałem o karie za most, która jest karą uogólnioną ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma} . Porównaj to z LASSO, który ma γ=1γ=1\gamma = 1 , i Grzbietem, zγ=2γ=2\gamma = …

22 regression lasso regularization ridge-regression elastic-net

2

Regresja najmniejszych kwadratów Obliczenia algebry liniowej krok po kroku

Jako prequel pytania o modele mieszane liniowo w R i jako odniesienie dla początkujących / średniozaawansowanych miłośników statystyki, postanowiłem opublikować jako niezależny styl „pytania i odpowiedzi” kroki związane z „ręcznym” obliczeniem współczynniki i przewidywane wartości prostej regresji liniowej. Przykładem jest wbudowany zestaw danych R mtcars, który zostałby skonfigurowany jako mile …

22 r regression linear-model lm

2

Na czym polega „regresja o zmniejszonej randze”?

Czytałem Elementy uczenia statystycznego i nie mogłem zrozumieć, o co chodzi w rozdziale 3.7 „Skurcz i wybór wielu wyników”. Mówi o RRR (regresja o zmniejszonej rangi) i mogę jedynie zrozumieć, że założenie dotyczy uogólnionego wielowymiarowego modelu liniowego, w którym współczynniki są nieznane (i należy je oszacować), ale wiadomo, że nie …

22 regression multivariate-analysis dimensionality-reduction regularization reduced-rank-regression

2

Jak faktycznie działa ładowanie w R?

Patrzyłem na pakiet rozruchowy w R i chociaż znalazłem kilka dobrych starterów, jak go używać, to jeszcze nie znalazłem niczego, co dokładnie opisuje to, co dzieje się „za kulisami”. Na przykład w tym przykładzie przewodnik pokazuje, jak używać standardowych współczynników regresji jako punktu wyjścia do regresji bootstrapu, ale nie wyjaśnia, …

22 r regression bootstrap regression-coefficients

2

Regresja dla modelu formy

Mam zestaw danych, który jest statystykami z internetowego forum dyskusyjnego. Patrzę na rozkład liczby odpowiedzi, których oczekuje się od tematu. W szczególności utworzyłem zestaw danych, który zawiera listę odpowiedzi na temat, a następnie liczbę tematów, które mają taką liczbę odpowiedzi. "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 …

22 r regression nonlinear-regression

3

Stabilność modelu w przypadku dużego problemu , małego

Wprowadzenie: Mam zestaw danych z klasycznym „dużym problemem p, małym n”. Liczba dostępnych próbek n = 150, a liczba możliwych predyktorów p = 400. Wynik jest zmienną ciągłą. Chcę znaleźć najważniejsze „deskryptory”, tj. Te, które są najlepszymi kandydatami do wyjaśnienia wyniku i pomocy w zbudowaniu teorii. Po badaniach na ten …

22 regression cross-validation model-selection feature-selection elastic-net

Pytania otagowane jako regression