Statystyki i duże zbiory danych regression

3

Jakie są zalety regresji liniowej w porównaniu z regresją kwantową?

Model regresji liniowej przyjmuje szereg założeń, że regresja kwantylowa nie spełnia, a jeśli założenia regresji liniowej zostaną spełnione, to moja intuicja (i pewne bardzo ograniczone doświadczenie) jest taka, że regresja mediana dałaby prawie identyczne wyniki jak regresja liniowa. Jakie zalety ma regresja liniowa? Z pewnością jest bardziej znajomy, ale poza …

15 regression multiple-regression quantile-regression

7

Jaką krzywą (lub model) powinienem dopasować do danych procentowych?

Próbuję stworzyć postać, która pokazuje związek między kopiami wirusów a pokryciem genomu (GCC). Tak wyglądają moje dane: Na początku po prostu nakreśliłem regresję liniową, ale moi przełożeni powiedzieli mi, że to nieprawda, i wypróbowałem krzywą sigmoidalną. Zrobiłem to za pomocą geom_smooth: library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour …

15 regression modeling curve-fitting percentage

1

Czy suma dwóch drzew decyzyjnych jest równoważna pojedynczemu drzewu decyzyjnemu?

Załóżmy, że mamy dwóch drzew regresji (drzewie i drzewa B) odwzorowanych wejściowe do wyjścia y ∈ R . Niech Y = F A ( x ) w drzewie i F B ( x ) na drzewa B. Każde drzewo wykorzystuje dzieli binarnej hiperplaszczyzn jako funkcji oddzielających.x ∈ Rrex∈Rrex \in \mathbb{R}^dy^∈ …

15 regression machine-learning cart

5

Czy oszustwo polega na usuwaniu wartości odstających na podstawie wykresu średniego błędu bezwzględnego w celu ulepszenia modelu regresji

Mam model predykcyjny przetestowany czterema metodami, jak widać na poniższym rysunku. Atrybut prognozowany przez model mieści się w zakresie 0–8. Możesz zauważyć, że istnieje jedna górna granica i trzy dolne granice wskazane przez wszystkie metody. Zastanawiam się, czy właściwe jest usunięcie tych wystąpień z danych? Czy jest to rodzaj oszustwa …

15 regression machine-learning multiple-regression predictive-models outliers

1

Bezstronny estymator stosunku dwóch współczynników regresji?

Załóżmy, że pasujesz do regresji liniowej / logistycznej , w celu obiektywnego oszacowania . Jesteś bardzo pewny, że zarówno jak i są bardzo pozytywne w stosunku do hałasu w swoich oszacowaniach.g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2a1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 Jeśli masz wspólną kowariancję , możesz obliczyć lub przynajmniej zasymulować odpowiedź. …

15 regression regression-coefficients unbiased-estimator ratio

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

Zrozumienie rozkładu QR

Mam sprawdzony przykład (w R), który próbuję zrozumieć dalej. Używam Limmy do stworzenia modelu liniowego i staram się zrozumieć, co dzieje się krok po kroku w obliczeniach zmiany zagięcia. Głównie próbuję dowiedzieć się, co się dzieje, aby obliczyć współczynniki. Z tego, co mogę zrozumieć, rozkład QR jest używany do uzyskania …

15 r regression linear-model

1

Inne obiektywne estymatory niż NIEBIESKI (rozwiązanie OLS) dla modeli liniowych

W przypadku modelu liniowego rozwiązanie OLS zapewnia najlepszy liniowy obiektywny estymator parametrów. Oczywiście możemy wymieniać nastawienie na niższe wariancje, np. Regresję grzbietu. Ale moje pytanie dotyczy braku uprzedzeń. Czy istnieją inne powszechnie stosowane estymatory, które są obiektywne, ale mają większą wariancję niż parametry szacowane OLS? Gdybym miał ogromny zestaw danych, …

15 regression least-squares linear unbiased-estimator blue

2

Pytanie o kompromis wariancji odchylenia

Próbuję zrozumieć kompromis wariancji odchylenia, związek między odchyleniem estymatora a odchyleniem modelu oraz związek między wariancją estymatora a wariancją modelu. Doszedłem do tych wniosków: Mamy tendencję do przewyższania danych, gdy zaniedbujemy odchylenie estymatora, to znaczy, gdy staramy się jedynie zminimalizować odchylenie modelu zaniedbując wariancję modelu (innymi słowy, staramy się jedynie …

15 regression variance bias bias-variance-tradeoff

1

Regresja w ustawieniu

Próbuję zobaczyć, czy wybrać regresję grzbietu , LASSO , regresję głównego składnika (PCR), czy częściowe najmniejsze kwadraty (PLS) w sytuacji, gdy istnieje duża liczba zmiennych / cech ( ppp ) i mniejsza liczba próbek ( n<pn<pn np>10np>10np>10n Zmienne ( i Y ) są skorelowane ze sobą w różnym stopniu.XXXYYY Moje …

15 regression pca lasso ridge-regression partial-least-squares

3

Prognozowanie wariancji danych heteroscedastycznych

Próbuję wykonać regresję danych heteroscedastycznych, w których próbuję przewidzieć wariancje błędów, a także wartości średnie w odniesieniu do modelu liniowego. Coś takiego: y(x,t)ξ(x,t)y¯(x,t)σ(x,t)=y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} Słowami, dane składa się z powtarzalnych pomiarów przy różnych wartościach i . Sądzę pomiary …

15 regression spss variance residuals heteroscedasticity

4

Pułapki, których należy unikać podczas przekształcania danych?

Osiągnąłem silną liniową zależność między moją zmienną XXX i YYY po podwójnej transformacji odpowiedzi. Model to Y∼XY∼XY\sim X ale przekształciłem go w YX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X} poprawyR2R2R^2od .19 do .76. Najwyraźniej zrobiłem porządną operację związaną z tym związkiem. Czy ktoś może dyskutować o pułapkach takich działań, takich jak niebezpieczeństwo nadmiernych przekształceń lub …

15 regression data-transformation r-squared

1

Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?

Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

4

Jak przeprowadzić regresję danych nienormalnych, które po przekształceniu pozostają nienormalne?

Mam pewne dane (158 przypadków), które pochodzą z odpowiedzi w skali Likerta na 21 pozycji kwestionariusza. Naprawdę chcę / muszę przeprowadzić analizę regresji, aby zobaczyć, które pozycje w kwestionariuszu przewidują odpowiedź na ogólny element (zadowolenie). Odpowiedzi nie są normalnie dystrybuowane (zgodnie z testami KS) i przekształciłem je pod każdym względem, …

15 regression distributions nonparametric

2

Dokładne znaczenie i porównanie między wpływowym punktem, wysokim punktem dźwigni i wartością odstającą?

Z Wikipedii Obserwacje wpływowe to te obserwacje, które mają stosunkowo duży wpływ na przewidywania modelu regresji. Z Wikipedii Punkty dźwigni to ewentualne obserwacje dokonane przy ekstremalnych lub odległych wartościach zmiennych niezależnych, tak że brak obserwacji sąsiednich oznacza, że dopasowany model regresji przejdzie blisko tej konkretnej obserwacji. Dlaczego poniższe porównanie z …

15 regression outliers leverage

Pytania otagowane jako regression