Statystyki i duże zbiory danych regression

2

Obliczanie przedziałów ufności dla regresji logistycznej

Korzystam z dwumianowej regresji logistycznej, aby określić, czy narażenie has_xlub ma has_ywpływ na prawdopodobieństwo kliknięcia przez użytkownika. Mój model jest następujący: fit = glm(formula = has_clicked ~ has_x + has_y, data=df, family = binomial()) To wynik z mojego modelu: Call: glm(formula = has_clicked ~ has_x + has_y, family = binomial(), …

15 regression logistic standard-error logit

3

Przydatność twierdzenia Frisch-Waugh

Mam uczyć twierdzenia Frisha Waugha w ekonometrii, której nie studiowałem. Zrozumiałem matematykę, która się za tym kryje, i mam nadzieję, że pomysł „współczynnik, który otrzymujesz dla określonego współczynnika z wielokrotnego modelu liniowego, jest równy współczynnikowi prostego modelu regresji, jeśli„ wyeliminujesz ”wpływ innych regresorów”. Więc teoretyczny pomysł jest całkiem fajny. (Jeśli …

15 regression econometrics least-squares projection decomposition

2

Funkcje wpływu i OLS

Próbuję zrozumieć, jak działają funkcje wpływu. Czy ktoś mógłby wyjaśnić w kontekście prostej regresji OLS yi=α+β⋅xi+εiyi=α+β⋅xi+εi\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation} gdzie chcę funkcję wpływu dla .ββ\beta

15 regression least-squares

5

Jak obliczyć, czy moja regresja liniowa ma statystycznie istotną różnicę od znanej linii teoretycznej?

Mam pewne dane, które pasują do z grubsza liniowej linii: Kiedy wykonuję regresję liniową tych wartości, otrzymuję równanie liniowe: y= 0,997 x - 0,0136y=0,997x-0,0136y = 0.997x-0.0136 W idealnym świecie równanie powinno wynosić .y= xy=xy = x Oczywiście moje wartości liniowe są zbliżone do tego ideału, ale nie do końca. Moje …

14 regression hypothesis-testing statistical-significance

5

Dlaczego regresja liniowa wykorzystuje funkcję kosztu opartą na pionowej odległości między hipotezą a wejściowym punktem danych?

Powiedzmy, że mamy wejściowe (predyktor) i wyjściowe (odpowiedź) punkty danych A, B, C, D, E i chcemy dopasować linię przez te punkty. Jest to prosty problem do zilustrowania pytania, ale można go również rozszerzyć na większe wymiary. Opis problemu Bieżące najlepsze dopasowanie lub hipoteza jest reprezentowane przez czarną linię powyżej. …

14 regression linear fitting cost-maximization

5

Co to znaczy, że regresja liniowa jest statystycznie istotna, ale ma bardzo niskie r kwadrat do kwadratu?

Rozumiem, że oznacza to, że model źle prognozuje poszczególne punkty danych, ale ustanowił silny trend (np. Y rośnie, gdy x rośnie).

14 regression inference r-squared linear

2

Dlaczego regresja liniowa ma założenie dotyczące resztkowego, ale uogólnionego modelu liniowego ma założenia dotyczące reakcji?

Dlaczego regresja liniowa i model uogólniony mają niespójne założenia? W regresji liniowej zakładamy, że reszta pochodzi z gaussowskiego W innych regresjach (regresja logistyczna, regresja trucizny) zakładamy, że odpowiedź pochodzi z pewnego rozkładu (dwumianowy, pozycyjny itp.). Dlaczego czasami zakładamy, że pozostały czas, a innym czas na odpowiedź? Czy dlatego, że chcemy …

14 regression generalized-linear-model assumptions linear

3

Dlaczego warto odreagować szeregi czasowe z regresją?

To może być dziwne pytanie, ale jako nowicjusz w temacie zastanawiam się, dlaczego używamy regresji, aby zniechęcać szeregi czasowe, jeśli jednym z założeń regresji jest to, że dane powinny zostać uwzględnione, podczas gdy dane, na których stosuje się regresję, są nie iid?

14 regression time-series trend iid

2

Biorąc pod uwagę dwa modele regresji liniowej, który model byłby lepszy?

Na studiach podjąłem kurs uczenia maszynowego. W jednym z quizów zadano to pytanie. Model 1: y=θx+ϵy=θx+ϵ y = \theta x + \epsilon Model 2: y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon Który z powyższych modeli lepiej pasowałby do danych? (załóżmy, że dane mogą być modelowane przy użyciu …

14 regression machine-learning self-study modeling model

4

Dlaczego

Uwaga: = suma kwadratów ogółem, = suma kwadratów błędów, a = regresja suma kwadratów. Równanie w tytule jest często zapisywane jako:SSTSSTSSTSSESSESSESSRSSRSSR ∑i=1n(yi−y¯)2=∑i=1n(yi−y^i)2+∑i=1n(y^i−y¯)2∑i=1n(yi−y¯)2=∑i=1n(yi−y^i)2+∑i=1n(y^i−y¯)2\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2 Dość proste pytanie, ale szukam intuicyjnego wyjaśnienia. Intuicyjnie wydaje mi się, że miałoby większy sens. Załóżmy na przykład, że punkt ma …

14 regression least-squares r-squared

2

Jak wygładzić dane i wymusić monotoniczność

Mam pewne dane, które chciałbym wygładzić, aby wygładzone punkty monotonicznie zmniejszały się. Moje dane gwałtownie spadają, a następnie zaczynają się wyrównywać. Oto przykład z użyciem R. df <- data.frame(x=1:10, y=c(100,41,22,10,6,7,2,1,3,1)) ggplot(df, aes(x=x, y=y))+geom_line() Jakiej dobrej techniki wygładzania mógłbym użyć? Byłoby również miło, gdybym mógł zmusić pierwszy wygładzony punkt do zbliżenia …

14 regression smoothing

3

Głębokie sieci neuronowe - tylko do klasyfikacji obrazów?

Wszystkie przykłady, które znalazłem przy użyciu głębokiej wiary lub splotowych sieci neuronowych, wykorzystują je do klasyfikacji obrazu, wykrywania czatu lub rozpoznawania mowy. Czy głębokie sieci neuronowe są również przydatne w przypadku klasycznych zadań regresyjnych, w których cechy nie są ustrukturyzowane (np. Nie są ułożone w sekwencji lub siatce)? Jeśli tak, …

14 regression machine-learning neural-networks deep-learning

1

Dlaczego modele efektów mieszanych rozwiązują zależność?

Powiedzmy, że interesuje nas, w jaki sposób na oceny egzaminów studenckich wpływa liczba godzin, które studenci studiują. Aby zbadać tę relację, możemy uruchomić następującą regresję liniową: egzamin. ocenyja= a + β1× godziny. Badaneja+ ejaegzamin. ocenyja=za+β1×godziny. badaneja+mija \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + e_i Ale jeśli próbkujemy uczniów z …

14 regression mixed-model random-effects-model non-independent

2

GLM: weryfikacja wyboru dystrybucji i funkcji łącza

Mam uogólniony model liniowy, który przyjmuje rozkład Gaussa i funkcję łączenia logów. Po dopasowaniu modelu sprawdzam wartości resztkowe: wykres QQ, wartości resztowe w stosunku do wartości przewidywanych, histogram reszt (potwierdzając, że należy zachować odpowiednią ostrożność). Wszystko wygląda dobrze. To wydaje mi się sugerować (dla mnie), że wybór rozkładu Gaussa był …

14 regression generalized-linear-model link-function

1

Od exp (współczynników) do ilorazu szans i ich interpretacji w regresji logistycznej z czynnikami

Przeprowadziłem liniową regresję akceptacji na studia w porównaniu z wynikami SAT i pochodzeniem rodzinnym / etnicznym. Dane są fikcyjne. Jest to kontynuacja wcześniejszego pytania, na które już udzielono odpowiedzi. Pytanie skupia się na zbieraniu i interpretacji ilorazów szans, gdy pomija się wyniki SAT dla uproszczenia. Zmienne to Accepted(0 lub 1) …

14 r regression logistic

Pytania otagowane jako regression