Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

4
Wybór pomiędzy LM i GLM dla zmiennej odpowiedzi przekształconej logarytmicznie
Staram się zrozumieć filozofię stojącą za używaniem Uogólnionego Modelu Liniowego (GLM) vs Modelu Liniowego (LM). Poniżej utworzyłem przykładowy zestaw danych, w którym: log( y) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon W przykładzie nie ma błędu w funkcji wielkości y , więc założyłbym , że najlepszy byłby model liniowy …

9
Zaawansowane książki z zaleceniami statystycznymi
Na tej stronie znajduje się kilka wątków z zaleceniami dotyczącymi książek na temat statystyk wprowadzających i uczenia maszynowego, ale szukam tekstu na temat zaawansowanych statystyk, w tym w kolejności priorytetów: maksymalne prawdopodobieństwo, uogólnione modele liniowe, analiza głównych składników, modele nieliniowe . Próbowałem modeli statystycznych AC Davisona, ale szczerze mówiąc musiałem …

3
Pytania dotyczące sposobu określania efektów losowych w lmer
Niedawno zmierzyłem, w jaki sposób znaczenie nowego słowa jest uzyskiwane na podstawie wielokrotnych ekspozycji (ćwiczenie: od 1 do 10 dnia) poprzez pomiar ERP (EEG), gdy słowo było oglądane w różnych kontekstach. Kontrolowałem także właściwości kontekstu, na przykład jego przydatność do odkrywania nowego znaczenia słowa (wysoki kontra niski). Szczególnie interesuje mnie …


10
Kim są częstokroć?
Mieliśmy już wątek z pytaniem, kim są Bayesianie, i jeden z pytaniem, czy częsterzy to Bayesianie , ale nie było wątku, w którym pytano bezpośrednio, kto jest częstokroć ? To pytanie zostało zadane przez @whuber jako komentarz do tego wątku i wymaga odpowiedzi. Czy istnieją (czy są jacyś samozidentyfikowani częstokroć)? …

6
Alternatywy dla regresji logistycznej w R.
Chciałbym mieć tyle algorytmów, które wykonują to samo zadanie, co regresja logistyczna. To są algorytmy / modele, które mogą przewidywać odpowiedź binarną (Y) za pomocą zmiennej objaśniającej (X). Byłbym zadowolony, jeśli po nazwiesz algorytm, pokażesz również, jak go zaimplementować w R. Oto kod, który można zaktualizować za pomocą innych modeli: …

7
Który pseudo
Mam SPSSdane wyjściowe dla modelu regresji logistycznej. Dane wyjściowe zgłaszają dwie miary dopasowania modelu Cox & Snelloraz Nagelkerke. Więc z reguły, które z tych mierników jako pasujące do modelu?R2R²R^² Lub który z tych dopasowanych wskaźników jest zwykle zgłaszany w czasopismach? Niektóre tło: Regresja próbuje przewidzieć obecność lub nieobecność ptaka (głuszca) …


5
Korzystanie z głębokiego uczenia się do prognozowania szeregów czasowych
Jestem nowy w dziedzinie głębokiego uczenia się i dla mnie pierwszym krokiem było przeczytanie interesujących artykułów ze strony deeplearning.net. W artykułach o głębokim uczeniu się Hinton i inni mówią głównie o zastosowaniu go do problemów z obrazem. Czy ktoś może mi odpowiedzieć, czy można to zastosować do problemu przewidywania wartości …

2
Podstawowe pytanie o macierz informacji Fishera i związek z błędami hesyjskimi i standardowymi
Ok, to dość podstawowe pytanie, ale jestem trochę zdezorientowany. W mojej pracy magisterskiej piszę: Błędy standardowe można znaleźć, obliczając odwrotność pierwiastka kwadratowego elementów ukośnych (obserwowanej) macierzy informacji Fishera: sμ^,σ^2=1I(μ^,σ^2)−−−−−−√sμ^,σ^2=1I(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*} Ponieważ polecenie optymalizacji w R minimalizuje (zaobserwowaną) macierz informacji Fishera można znaleźć, obliczając odwrotność Hesji: −logL−log⁡L-\log\mathcal{L}I(μ^,σ^2)=H−1I(μ^,σ^2)=H−1\begin{align*} \mathbf{I}(\hat{\mu},\hat{\sigma}^2)=\mathbf{H}^{-1} \end{align*} Moje …

9
W jaki sposób R i Python uzupełniają się w informatyce?
W wielu samouczkach lub instrukcjach narracja wydaje się sugerować, że R i Python współistnieją jako uzupełniające się elementy procesu analizy. Jednak dla mojego niedoświadczonego oka wydaje się, że oba języki robią to samo. Moje pytanie brzmi więc, czy istnieją naprawdę wyspecjalizowane nisze dla tych dwóch języków, czy może to tylko …
54 r  python  software 


9
Czy wyolbrzymiamy znaczenie założenia i oceny modelu w czasach, gdy analizy są często przeprowadzane przez laików
Podsumowując , im więcej dowiaduję się o statystykach, tym mniej ufam opublikowanym artykułom w mojej dziedzinie; Po prostu uważam, że naukowcy nie robią wystarczająco dobrych statystyk. Jestem laikiem, że tak powiem. Mam wykształcenie biologiczne, ale nie mam formalnego wykształcenia w dziedzinie statystyki lub matematyki. Lubię R i często staram się …

5
Przykłady podejścia bayesowskiego i częstego dającego różne odpowiedzi
Uwaga: Jestem świadomy filozoficznych różnic między statystykami bayesowskimi i częstymi. Na przykład „jakie jest prawdopodobieństwo, że moneta na stole jest głowami”, nie ma sensu w statystykach częstych, ponieważ ma już wylądowane głowy lub reszki - nie ma w tym nic probabilistycznego. Zatem pytanie nie ma odpowiedzi w kategoriach częstych. Ale …

3
Korzystanie z analizy głównych składników (PCA) do wyboru funkcji
Jestem nowy w wyborze funkcji i zastanawiałem się, w jaki sposób użyjesz PCA do przeprowadzenia wyboru funkcji. Czy PCA oblicza względny wynik dla każdej zmiennej wejściowej, której można użyć do odfiltrowania nieinformacyjnych zmiennych wejściowych? Zasadniczo chcę móc zamówić oryginalne funkcje w danych według wariancji lub ilości zawartych informacji.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.