Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych


3
Czy można mieć parę losowych zmiennych Gaussa, dla których rozkład połączeń nie jest Gaussowski?
Ktoś zadał mi to pytanie podczas rozmowy kwalifikacyjnej, a ja odpowiedziałem, że ich wspólna dystrybucja jest zawsze gaussowska. Myślałem, że zawsze potrafię napisać dwuwymiarowy gaussowski za pomocą jego środków, wariancji i kowariancji. Zastanawiam się, czy może istnieć przypadek, w którym łączne prawdopodobieństwo dwóch Gaussów nie jest Gaussowskie?


5
Dlaczego ANOVA jest nauczana / stosowana tak, jakby była inną metodologią badawczą niż regresja liniowa?
ANOVA jest równoważna regresji liniowej z użyciem odpowiednich zmiennych fikcyjnych. Wnioski pozostają takie same, niezależnie od tego, czy używasz ANOVA czy regresji liniowej. Czy w świetle ich równoważności istnieje jakikolwiek powód, dla którego stosuje się ANOVA zamiast regresji liniowej? Uwaga: Jestem szczególnie zainteresowany słyszeniem o technicznych przyczynach zastosowania ANOVA zamiast …
91 regression  anova 


11
Kiedy regresję liniową należy nazwać „uczeniem maszynowym”?
W ostatnim kolokwium streszczenie mówcy twierdziło, że korzysta z uczenia maszynowego. Podczas rozmowy jedyną rzeczą związaną z uczeniem maszynowym było to, że wykonują regresję liniową na swoich danych. Po obliczeniu współczynników najlepszego dopasowania w przestrzeni parametrów 5D, porównali te współczynniki w jednym systemie z współczynnikami najlepszego dopasowania w innych systemach. …


4
Wyjaśnienie PCA i proporcji wariancji
Ogólnie, co należy rozumieć przez powiedzenie, że część wariancji w analizie takiej jak PCA jest wyjaśniona przez pierwszy główny składnik? Czy ktoś może to wyjaśnić intuicyjnie, ale również podać dokładną matematyczną definicję tego, co oznacza „wyjaśniona wariancja” w kategoriach analizy głównego składnika (PCA)?xxx Dla prostej regresji liniowej r-kwadrat linii najlepszego …

7
Jak skutecznie zarządzać projektem analizy statystycznej?
Często słyszymy o zarządzaniu projektami i wzorcach projektowych w informatyce, ale rzadziej w analizie statystycznej. Wydaje się jednak, że decydującym krokiem w kierunku opracowania skutecznego i trwałego projektu statystycznego jest utrzymanie porządku. Często opowiadam się za użyciem R i spójnej organizacji plików w oddzielnych folderach (plik danych surowych, plik danych …


1
Interpretowanie plot.lm ()
Miałem pytanie dotyczące interpretacji wykresów generowanych przez wykres (lm) w R. Zastanawiałem się, czy moglibyście mi powiedzieć, jak interpretować wykresy położenia skali i wykresy rezydualne dźwigni? Wszelkie uwagi będą mile widziane. Zakłada podstawową wiedzę na temat statystyki, regresji i ekonometrii.

4
Po co normalizować obrazy, odejmując średnią obrazową zestawu danych, zamiast aktualnej średniej w głębokim uczeniu się?
Istnieją pewne warianty normalizacji obrazów, ale większość wydaje się używać tych dwóch metod: Odejmij średnią na kanał obliczoną dla wszystkich zdjęć (np. VGG_ILSVRC_16_layers ) Odejmij według pikseli / kanałów obliczonych na wszystkich obrazach (np. CNN_S , zobacz także sieć referencyjną Caffe ) Moim zdaniem naturalne podejście do normalizacji każdego obrazu. …

4
Wykresy diagnostyczne dla regresji zliczania
Jakie wykresy diagnostyczne (i być może testy formalne) są najbardziej przydatne dla regresji, w których wynikiem jest zmienna licząca? Szczególnie interesują mnie modele Poissona i modele dwumianowe ujemne, a także ich odpowiedniki zerowe i przeszkodowe. Większość źródeł, które znalazłem, po prostu kreśli wartości resztkowe w stosunku do dopasowanych wartości bez …

1
Skrzyżowane i zagnieżdżone efekty losowe: czym się różnią i jak są poprawnie określone w lme4?
Oto jak zrozumiałem zagnieżdżone vs. skrzyżowane efekty losowe: Zagnieżdżone efekty losowe występują, gdy niższy współczynnik poziomu pojawia się tylko w określonym poziomie współczynnika wyższego poziomu. Na przykład uczniowie w ramach klas w ustalonym momencie. W lme4Myślałem, że reprezentują losowe efekty dla zagnieżdżonych danych w jednym z dwóch równoważnych sposobów: (1|class/pupil) …

4
Kiedy stosować GLM gamma?
Rozkład gamma może przybierać dość szeroki zakres kształtów, a biorąc pod uwagę związek między średnią a wariancją poprzez jego dwa parametry, wydaje się on odpowiedni do radzenia sobie z heteroskedastycznością w danych nieujemnych, w sposób, w jaki transformowany logarytmicznie OLS może nie obejdzie się bez WLS ani jakiegoś estymatora VCV …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.