Statystyki i duże zbiory danych regression

1

Jak interpretować współczynniki z regresji beta?

Mam pewne dane, które są ograniczone od 0 do 1. Użyłem betaregpakietu w R, aby dopasować model regresji z ograniczonymi danymi jako zmienną zależną. Moje pytanie brzmi: jak interpretować współczynniki z regresji?

15 r regression interpretation beta-distribution regression-coefficients

4

Czy istnieje „regresja bez nadzoru”?

Jeśli mam rację, „klasyfikacja bez nadzoru” jest taka sama jak klastrowanie. Czy zatem istnieje „regresja bez nadzoru”? Dzięki!

15 regression unsupervised-learning

3

Dlaczego skorygowany R-kwadrat mniejszy niż R-kwadrat, jeśli skorygowany R-kwadrat lepiej przewiduje model?

O ile rozumiem, wyjaśnia, jak dobrze model przewiduje obserwację. Skorygowane to takie, które uwzględnia więcej obserwacji (lub stopni swobody). Więc skorygowany lepiej przewiduje model? Dlaczego więc jest to mniej niż ? Wydaje się, że często powinno być więcej.R2R2R^2R2R2R^2R2R2R^2R2R2R^2

15 regression r-squared

1

Jak ggplot oblicza przedziały ufności dla regresji?

Pakiet kreślarski R ggplot2 ma niesamowitą funkcję o nazwie stat_smooth do kreślenia linii regresji (lub krzywej) z powiązanym pasmem ufności. Trudno mi jednak dokładnie ustalić, w jaki sposób generowany jest ten przedział ufności, dla każdej linii regresji (lub „metody”). Jak mogę znaleźć te informacje?

15 r regression confidence-interval ggplot2

7

Losowy las jest przepełniony

Próbuję użyć losowej regresji leśnej w scikits-learn. Problem polega na tym, że otrzymuję naprawdę wysoki błąd testu: train MSE, 4.64, test MSE: 252.25. Tak wyglądają moje dane: (niebieski: dane rzeczywiste, zielony: przewidywane): Używam 90% na szkolenie i 10% na test. Oto kod, którego używam po wypróbowaniu kilku kombinacji parametrów: rf …

15 regression random-forest scikit-learn

1

Regresja błędów w zmiennych: czy poprawne jest łączenie danych z trzech witryn?

Niedawno przyszedł do mnie klient, aby przeprowadzić analizę ładowania początkowego, ponieważ recenzent FDA stwierdził, że ich regresja błędów w zmiennych była nieprawidłowa, ponieważ podczas łączenia danych z witryn analiza obejmuje łączenie danych z trzech witryn, w których dwie witryny zawierały próbki, które były to samo. TŁO Klient miał nową metodę …

15 regression errors-in-variables deming-regression pooling

3

Zautomatyzowana procedura wyboru podzbioru punktów danych z najsilniejszą korelacją?

Czy istnieje jakaś standardowa procedura (taka, że można ją przytoczyć jako odniesienie) do wybierania podzbioru punktów danych z większej puli o największej korelacji (tylko w dwóch wymiarach)? Załóżmy na przykład, że masz 100 punktów danych. Potrzebujesz podzbioru 40 punktów o najsilniejszej możliwej korelacji wzdłuż wymiarów X i Y. Zdaję sobie …

15 regression correlation autocorrelation

2

Jak wybrać pomiędzy różnymi Skorygowane

Mam na myśli skorygowane wzory R-kwadrat zaproponowane przez: Ezekiel (1930), który moim zdaniem jest obecnie używany w SPSS. R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) Olkin and Pratt (1958) R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} W jakich okolicznościach (jeśli w ogóle) powinienem preferować „dostosowane” do „obiektywnych” ?R2R2R^2 Bibliografia …

15 regression r-squared

2

Jak wybrać poziom istotności dla dużego zestawu danych?

Pracuję z zestawem danych o wartości N około 200 000. W regresjach widzę bardzo małe wartości istotności << 0,001 związane z bardzo małymi wielkościami efektów, np. R = 0,028. Chciałbym wiedzieć, czy istnieje zasadniczy sposób decydowania o odpowiednim progu istotności w odniesieniu do wielkości próby? Czy istnieją inne ważne uwagi …

15 regression probability statistical-significance sample-size

5

Jaki może być powód zastosowania transformacji pierwiastka kwadratowego w danych?

Czy istnieje jakiś powód tego, co mogę wymyślić, aby przekształcić dane pierwiastkiem kwadratowym? Chodzi mi o to, że zawsze obserwuję wzrost R ^ 2. Ale to prawdopodobnie tylko z powodu centrowania danych! Każda myśl jest doceniana!

15 regression data-transformation variance-stabilizing

5

Jak modelować ceny?

Zadałem to pytanie na stronie stosu wymiany matematyki i polecono mi tutaj. Pracuję nad projektem hobby i potrzebuję pomocy w rozwiązaniu następującego problemu. Trochę kontekstu Załóżmy, że istnieje kolekcja przedmiotów z opisem funkcji i ceną. Wyobraź sobie listę samochodów i cen. Wszystkie samochody mają listę funkcji, np. Wielkość silnika, kolor, …

15 regression forecasting econometrics

4

Przedziały ufności dla parametrów regresji: bayesowska vs. klasyczna

Biorąc pod uwagę dwie tablice x i y o długości n, dopasowuję model y = a + b * x i chcę obliczyć 95% przedział ufności dla nachylenia. Jest to (b - delta, b + delta), gdzie b znajduje się w zwykły sposób i delta = qt(0.975,df=n-2)*se.slope a se.slope to …

15 r regression bayesian confidence-interval frequentist

5

Czy można zastosować regresję wielokrotną, aby przewidzieć jeden główny składnik (PC) z kilku innych komputerów?

Jakiś czas temu użytkownik na liście dyskusyjnej R-help zapytał o zasadność korzystania z wyników PCA w regresji. Użytkownik próbuje użyć wyników komputerowych w celu wyjaśnienia różnic na innym komputerze (patrz pełna dyskusja tutaj ). Odpowiedź brzmiała: nie, to nie jest dźwięk, ponieważ komputery PC są do siebie prostopadłe. Czy ktoś …

15 regression pca

5

Dlaczego założenie o normalności w regresji liniowej

Moje pytanie jest bardzo proste: dlaczego wybieramy normalny jako rozkład, za którym podąża warunek błędu przy założeniu regresji liniowej? Dlaczego nie wybieramy innych, takich jak mundur, t czy cokolwiek innego?

15 regression mathematical-statistics normal-distribution error linear

5

Jaka jest potrzeba założeń w regresji liniowej?

W regresji liniowej przyjmujemy następujące założenia Średnia odpowiedzi, E(Yi)E(Yi)E(Y_i) , dla każdego zestawu wartości predyktorów (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) , jest funkcją liniową predyktorów. Błędy εiεiε_i są niezależne. Błędy εiεiε_i dla każdego zestawu wartości predyktorów (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) są rozkładem normalnym. Błędy dla każdego zestawu wartości predyktorów mają jednakowe wariancje (oznaczone σ2 ).εiεiε_i(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, …

15 regression assumptions

Pytania otagowane jako regression