Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

4
Replikacja „solidnej” opcji Staty w R.
Próbowałem zreplikować wyniki opcji Stata robustw R. Użyłem rlmpolecenia z pakietu MASS, a także polecenia lmrobz pakietu „robustbase”. W obu przypadkach wyniki są zupełnie inne niż „solidna” opcja w Stacie. Czy ktoś może zasugerować coś w tym kontekście? Oto wyniki, które uzyskałem, gdy uruchomiłem solidną opcję w Stata: . reg …

3
Czy potrzebna jest standaryzacja przed dopasowaniem regresji logistycznej?
Moje pytanie brzmi: czy musimy dopasować zestaw danych, aby upewnić się, że wszystkie zmienne mają tę samą skalę, między [0,1], przed dopasowaniem regresji logistycznej. Formuła jest następująca: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} Mój zestaw danych ma 2 zmienne, opisują to samo dla dwóch kanałów, ale głośność jest inna. Powiedzmy, że jest to liczba odwiedzin …

3
Empiryczne uzasadnienie dla jednej standardowej reguły błędu przy zastosowaniu weryfikacji krzyżowej
Czy są jakieś badania empiryczne uzasadniające stosowanie jednej standardowej reguły błędu na korzyść parsimony? Oczywiście zależy to od procesu generowania danych, ale wszystko, co analizuje duży zbiór zbiorów danych, byłoby bardzo interesujące. „Jedna standardowa reguła błędu” jest stosowana przy wyborze modeli poprzez walidację krzyżową (lub bardziej ogólnie za pomocą dowolnej …

1
Ranga w R - kolejność malejąca [zamknięty]
Szukam rankingu danych, które w niektórych przypadkach większa wartość ma rangę 1. Jestem stosunkowo nowy w R, ale nie widzę, jak mogę dostosować to ustawienie w funkcji rangi. x <- c(23,45,12,67,34,89) rank(x) generuje: [1] 2 4 1 5 3 6 kiedy chcę, żeby to było: [1] 5 3 6 2 …
39 r 




3
Dlaczego drzewa decyzyjne nie są drogie obliczeniowo?
We wstępie do nauki statystycznej z aplikacjami w R autorzy piszą, że dopasowanie drzewa decyzyjnego jest bardzo szybkie, ale nie ma to dla mnie sensu. Algorytm musi przejść przez każdą funkcję i podzielić ją na wszystkie możliwe sposoby, aby znaleźć optymalny podział. W przypadku operacji numerycznych z obserwacjami może to …
38 cart 

6
Dlaczego otrzymuję drzewo decyzyjne 100% dokładności?
Otrzymuję 100% dokładność dla mojego drzewa decyzyjnego. Co ja robię źle? To jest mój kod: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = …


5
Czy minimalizowanie błędu kwadratu jest równoważne minimalizowaniu błędu bezwzględnego? Dlaczego błąd kwadratowy jest bardziej popularny niż ten drugi?
Kiedy przeprowadzamy regresję liniową aby dopasować kilka punktów danych , klasyczne podejście minimalizuje błąd kwadratu. Od dawna zastanawia mnie pytanie, które zminimalizowanie błędu kwadratu da taki sam wynik, jak zminimalizowanie błędu absolutnego ? Jeśli nie, dlaczego minimalizacja błędu kwadratu jest lepsza? Czy istnieje powód inny niż „funkcja celu jest różniczkowalna”?y=ax+by=ax+by=ax+b(x1,y1),(x2,y2),...,(xn,yn)(x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n) …


3
Jakie jest znaczenie przedziału ufności wziętego z próbek ładowanych ponownie?
Patrzyłem na wiele pytań na tej stronie dotyczących ładowania początkowego i przedziałów ufności, ale nadal jestem zdezorientowany. Jednym z powodów mojego zamieszania jest prawdopodobnie to, że nie jestem wystarczająco zaawansowany w mojej wiedzy statystycznej, aby zrozumieć wiele odpowiedzi. Jestem mniej więcej w połowie kursu wprowadzającego, a mój poziom matematyki dotyczy …

3
Dlaczego regresja wielomianowa jest uważana za szczególny przypadek wielokrotnej regresji liniowej?
Jeśli regresja wielomianowa modeluje relacje nieliniowe, to jak można to uznać za szczególny przypadek wielokrotnej regresji liniowej? Wikipedia zauważa, że ​​„Chociaż regresja wielomianowa pasuje do danych do modelu nieliniowego, jako problem estymacji statystycznej jest ona liniowa, w tym sensie, że funkcja regresji jest liniowa dla nieznanych parametrów, które są szacowane …

2
Jaka jest różnica między warunkową i bezwarunkową regresją kwantową?
Estymator warunkowej regresji kwantyli autorstwa Koenkera i Basset (1978) dla kwantyla jest zdefiniowany jako gdzie \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0)) to funkcja ponownego ważenia (zwana funkcją „sprawdź”) reszt u_i .τthτth\tau^{th} βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau (y_i - X'_i b_\tau) ρτ=ui⋅(τ−1(ui<0))ρτ=ui⋅(τ−1(ui<0))\rho_\tau …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.