Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

6
Zmienny wybór do modelowania predykcyjnego naprawdę potrzebny w 2016 roku?
To pytanie zostało zadane w CV kilka lat temu, wydaje się, że warto je przesłać w świetle 1) lepszej technologii obliczeniowej rzędu wielkości (np. Obliczenia równoległe, HPC itp.) I 2) nowszych technik, np. [3]. Po pierwsze, jakiś kontekst. Załóżmy, że celem nie jest testowanie hipotez, nie szacowanie efektów, ale przewidywanie …

2
Jaki jest związek między analizą niezależnych składników a analizą czynnikową?
Jestem nowy w Independent Component Analysis (ICA) i mam tylko podstawowe zrozumienie tej metody. Wydaje mi się, że ICA jest podobna do analizy czynnikowej (FA) z jednym wyjątkiem: ICA zakłada, że ​​obserwowane zmienne losowe są liniową kombinacją niezależnych składników / czynników niegaussowskich, podczas gdy klasyczny model FA zakłada, że ​​obserwowane …

10
Czy istnieje jakakolwiek * matematyczna * podstawa dla debaty bayesowskiej i częstej?
W Wikipedii jest napisane, że: matematyka [prawdopodobieństwa] jest w dużej mierze niezależna od jakiejkolwiek interpretacji prawdopodobieństwa. Pytanie: Zatem jeśli chcemy być matematycznie poprawni, czy nie powinniśmy nie dopuścić do jakiejkolwiek interpretacji prawdopodobieństwa? Tj. Czy zarówno bayesowski, jak i częstościowy są matematycznie niepoprawne? Nie lubię filozofii, ale lubię matematykę i chcę …

3
Właściwy sposób wykorzystania rekurencyjnej sieci neuronowej do analizy szeregów czasowych
Nawracające sieci neuronowe różnią się od „zwykłych” siecią tym, że mają warstwę „pamięci”. Z powodu tej warstwy rekurencyjne NN powinny być przydatne w modelowaniu szeregów czasowych. Nie jestem jednak pewien, czy dobrze rozumiem, jak ich używać. Powiedzmy, że mam następujące szeregi czasowe (od lewej do prawej): [0, 1, 2, 3, …


6
Konwergencja prawdopodobieństwa a prawie pewna konwergencja
Nigdy tak naprawdę nie zastanawiałem się nad różnicą między tymi dwiema miarami konwergencji. (Lub, właściwie, każdy z różnych rodzajów zbieżności, ale wymieniam te dwa w szczególności ze względu na słabe i silne prawa wielkich liczb). Jasne, mogę zacytować definicję każdego z nich i podać przykład, w którym różnią się one, …


5
Jak dokładnie statystycy zgodzili się używać (n-1) jako obiektywnego estymatora wariancji populacji bez symulacji?
Wzór na wariancję obliczeniową ma w mianowniku:(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} Zawsze zastanawiałem się dlaczego. Wydaje się jednak, że czytanie i oglądanie kilku dobrych filmów o tym „dlaczego” jest dobrym obiektywnym oszacowaniem wariancji populacji. Natomiast nie docenia i przecenia wariancję populacji.n ( n - 2 )(n−1)(n−1)(n-1)nnn(n−2)(n−2)(n-2) Ciekawe, czy …

1
Jaka korelacja czyni macierz osobliwością i jakie są implikacje osobliwości lub bliskości osobliwości?
Robię obliczenia na różnych macierzach (głównie w regresji logistycznej) i często pojawia się błąd „Matryca jest pojedyncza”, gdzie muszę wrócić i usunąć skorelowane zmienne. Moje pytanie brzmi: co uważasz za „wysoce” skorelowaną macierz? Czy istnieje wartość progowa korelacji reprezentująca to słowo? Na przykład, jeśli zmienna była skorelowana z 0,97 względem …

5
Ładunki a wektory własne w PCA: kiedy używać jednego lub drugiego?
W analizie głównego składnika (PCA) otrzymujemy wektory własne (wektory jednostkowe) i wartości własne. Teraz zdefiniujmy ładunki jako Loadings=Eigenvectors⋅Eigenvalues−−−−−−−−−−√.Loadings=Eigenvectors⋅Eigenvalues.\text{Loadings} = \text{Eigenvectors} \cdot \sqrt{\text{Eigenvalues}}. Wiem, że wektory własne to tylko kierunki, a obciążenia (jak zdefiniowano powyżej) obejmują również wariancję wzdłuż tych kierunków. Ale dla lepszego zrozumienia chciałbym wiedzieć, gdzie powinienem używać ładunków …
67 pca 


9
Czy ta tabela pokazuje prawdopodobieństwo ataku terrorystycznego statystycznie przydatna?
Często widzę ten obraz. Mam przeczucie, że informacje podane w ten sposób są w jakiś sposób niepełne lub nawet błędne, ale statystyki nie są wystarczająco dobrze zorientowane w statystykach, aby zareagować. Przypomina mi się ten komiks xkcd , że nawet przy solidnych danych historycznych pewne sytuacje mogą zmienić sposób przewidywania. …

4
Spójrz, a znajdziesz (korelację)
Mam kilkaset pomiarów. Teraz rozważam wykorzystanie jakiegoś oprogramowania do skorelowania każdej miary z każdą miarą. Oznacza to, że istnieją tysiące korelacji. Wśród nich powinna być (statystycznie) wysoka korelacja, nawet jeśli dane są całkowicie losowe (każda miara ma tylko około 100 punktów danych). Kiedy znajdę korelację, w jaki sposób mogę dołączyć …

7
Ile do zapłaty? Praktyczny problem
To nie jest pytanie do pracy w domu, ale prawdziwy problem, przed którym stoi nasza firma. Niedawno (2 dni temu) zamówiliśmy u dystrybutora 10000 etykiet produktów. Dealer jest niezależną osobą. Otrzymuje etykiety wyprodukowane z zewnątrz, a firma dokonuje płatności na rzecz dealera. Każda etykieta kosztuje dokładnie 1 USD dla firmy. …

7
Po co optymalizować maksymalne prawdopodobieństwo dziennika zamiast prawdopodobieństwa
W większości zadań uczenia maszynowego, w których można sformułować pewne prawdopodobieństwo które należy zmaksymalizować, faktycznie zoptymalizowalibyśmy prawdopodobieństwo zamiast prawdopodobieństwa dla niektórych parametrów . Np. W treningu z maksymalnym prawdopodobieństwem jest to zwykle logarytm prawdopodobieństwa. W przypadku tej metody gradientowej wiąże się to z czynnikiem:ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.