Statystyki i duże zbiory danych

4

Próbowałem zreplikować wyniki opcji Stata robustw R. Użyłem rlmpolecenia z pakietu MASS, a także polecenia lmrobz pakietu „robustbase”. W obu przypadkach wyniki są zupełnie inne niż „solidna” opcja w Stacie. Czy ktoś może zasugerować coś w tym kontekście? Oto wyniki, które uzyskałem, gdy uruchomiłem solidną opcję w Stata: . reg …

39 r stata robust robust-standard-error

3

Czy potrzebna jest standaryzacja przed dopasowaniem regresji logistycznej?

Moje pytanie brzmi: czy musimy dopasować zestaw danych, aby upewnić się, że wszystkie zmienne mają tę samą skalę, między [0,1], przed dopasowaniem regresji logistycznej. Formuła jest następująca: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} Mój zestaw danych ma 2 zmienne, opisują to samo dla dwóch kanałów, ale głośność jest inna. Powiedzmy, że jest to liczba odwiedzin …

39 regression logistic standardization

3

Empiryczne uzasadnienie dla jednej standardowej reguły błędu przy zastosowaniu weryfikacji krzyżowej

Czy są jakieś badania empiryczne uzasadniające stosowanie jednej standardowej reguły błędu na korzyść parsimony? Oczywiście zależy to od procesu generowania danych, ale wszystko, co analizuje duży zbiór zbiorów danych, byłoby bardzo interesujące. „Jedna standardowa reguła błędu” jest stosowana przy wyborze modeli poprzez walidację krzyżową (lub bardziej ogólnie za pomocą dowolnej …

39 cross-validation model-selection regularization

1

Ranga w R - kolejność malejąca [zamknięty]

Szukam rankingu danych, które w niektórych przypadkach większa wartość ma rangę 1. Jestem stosunkowo nowy w R, ale nie widzę, jak mogę dostosować to ustawienie w funkcji rangi. x <- c(23,45,12,67,34,89) rank(x) generuje: [1] 2 4 1 5 3 6 kiedy chcę, żeby to było: [1] 5 3 6 2 …

39 r

5

Wartości ujemne dla AICc (poprawione kryterium informacyjne Akaike)

Obliczyłem AIC i AICc, aby porównać dwa ogólne liniowe modele mieszane; Wartości AIC są dodatnie, a model 1 ma niższy AIC niż model 2. Jednak wartości AICc są ujemne (model 1 wciąż jest <model 2). Czy można używać i porównywać ujemne wartości AICc?

39 mixed-model model-selection aic

1

W jaki sposób centrowanie danych pozbywa się przechwytywania w regresji i PCA?

Ciągle czytam o przypadkach, w których centrujemy dane (np. Z regularyzacją lub PCA) w celu usunięcia przechwytywania (jak wspomniano w tym pytaniu ). Wiem, że to proste, ale trudno mi intuicyjnie to zrozumieć. Czy ktoś mógłby podać intuicję lub odniesienie, które mogę przeczytać?

39 regression pca centering

5

Jaka jest różnica między populacją a próbą?

Jaka jest różnica między populacją a próbą? Jakie wspólne zmienne i statystyki są używane dla każdej z nich i jak się one ze sobą wiążą?

38 standard-deviation variance sample population

3

Dlaczego drzewa decyzyjne nie są drogie obliczeniowo?

We wstępie do nauki statystycznej z aplikacjami w R autorzy piszą, że dopasowanie drzewa decyzyjnego jest bardzo szybkie, ale nie ma to dla mnie sensu. Algorytm musi przejść przez każdą funkcję i podzielić ją na wszystkie możliwe sposoby, aby znaleźć optymalny podział. W przypadku operacji numerycznych z obserwacjami może to …

38 cart

6

Dlaczego otrzymuję drzewo decyzyjne 100% dokładności?

Otrzymuję 100% dokładność dla mojego drzewa decyzyjnego. Co ja robię źle? To jest mój kod: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = …

38 machine-learning python cart accuracy

2

Kiedy preferowany estymator jest lepszy niż obiektywny?

Wielokrotnie oczywiste jest, dlaczego preferuje się obiektywny estymator. Ale czy są jakieś okoliczności, w których moglibyśmy faktycznie preferować stronniczy estymator od obiektywnego?

38 bias unbiased-estimator estimators

5

Czy minimalizowanie błędu kwadratu jest równoważne minimalizowaniu błędu bezwzględnego? Dlaczego błąd kwadratowy jest bardziej popularny niż ten drugi?

Kiedy przeprowadzamy regresję liniową aby dopasować kilka punktów danych , klasyczne podejście minimalizuje błąd kwadratu. Od dawna zastanawia mnie pytanie, które zminimalizowanie błędu kwadratu da taki sam wynik, jak zminimalizowanie błędu absolutnego ? Jeśli nie, dlaczego minimalizacja błędu kwadratu jest lepsza? Czy istnieje powód inny niż „funkcja celu jest różniczkowalna”?y=ax+by=ax+by=ax+b(x1,y1),(x2,y2),...,(xn,yn)(x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n) …

38 least-squares error

4

Czy podczas pisania z R powinienem nauczyć się ggplot2 lub ggvis?

Czy podczas pisania z R powinienem nauczyć się ggplot2 lub ggvis? Niekoniecznie chcę się uczyć obu, jeśli jeden z nich jest pod każdym względem lepszy. Dlaczego społeczność R wciąż tworzy nowe pakiety z nakładającymi się funkcjami? W blogu wprowadzającym nie wspomniano ani słowa o tym, dlaczego ggvis jest tworzony, skoro …

38 r data-visualization software

3

Jakie jest znaczenie przedziału ufności wziętego z próbek ładowanych ponownie?

Patrzyłem na wiele pytań na tej stronie dotyczących ładowania początkowego i przedziałów ufności, ale nadal jestem zdezorientowany. Jednym z powodów mojego zamieszania jest prawdopodobnie to, że nie jestem wystarczająco zaawansowany w mojej wiedzy statystycznej, aby zrozumieć wiele odpowiedzi. Jestem mniej więcej w połowie kursu wprowadzającego, a mój poziom matematyki dotyczy …

38 confidence-interval bootstrap

3

Dlaczego regresja wielomianowa jest uważana za szczególny przypadek wielokrotnej regresji liniowej?

Jeśli regresja wielomianowa modeluje relacje nieliniowe, to jak można to uznać za szczególny przypadek wielokrotnej regresji liniowej? Wikipedia zauważa, że „Chociaż regresja wielomianowa pasuje do danych do modelu nieliniowego, jako problem estymacji statystycznej jest ona liniowa, w tym sensie, że funkcja regresji jest liniowa dla nieznanych parametrów, które są szacowane …

38 regression multiple-regression linear-model nonlinear-regression polynomial

2

Jaka jest różnica między warunkową i bezwarunkową regresją kwantową?

Estymator warunkowej regresji kwantyli autorstwa Koenkera i Basset (1978) dla kwantyla jest zdefiniowany jako gdzie \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0)) to funkcja ponownego ważenia (zwana funkcją „sprawdź”) reszt u_i .τthτth\tau^{th} βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau (y_i - X'_i b_\tau) ρτ=ui⋅(τ−1(ui<0))ρτ=ui⋅(τ−1(ui<0))\rho_\tau …

38 quantile-regression