Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

4
Czy bootstrap może być postrzegany jako „lekarstwo” na małą próbkę?
To pytanie zostało wywołane przez coś, co przeczytałem w tym podręczniku do statystyki dla absolwentów, a także (niezależnie) usłyszałem podczas tej prezentacji na seminarium statystycznym. W obu przypadkach stwierdzenie było zgodne z „ponieważ wielkość próbki jest dość mała, postanowiliśmy przeprowadzić oszacowanie za pomocą bootstrap zamiast (lub wraz z) tą metodą …

8
Wygeneruj zmienną losową ze zdefiniowaną korelacją z istniejącą zmienną (zmiennymi)
Dla badań symulacyjnych mam do generowania zmiennych losowych, które wykazują prefined (populacji) korelację do istniejącej zmiennej .YYY I spojrzał w Ropakowaniach copula, a CDVinektóre mogą powodować przypadkowe wielowymiarowych rozkładów danej struktury zależności. Nie można jednak naprawić jednej z powstałych zmiennych do istniejącej zmiennej. Wszelkie pomysły i linki do istniejących funkcji …

4
Jak wizualizować, co robi analiza kanoniczna (w porównaniu z tym, co robi analiza głównych składowych)?
Kanoniczna analiza korelacji (CCA) jest techniką związaną z analizą głównych składników (PCA). Chociaż łatwo jest nauczyć się PCA lub regresji liniowej za pomocą wykresu punktowego (zobacz kilka tysięcy przykładów w wyszukiwaniu obrazów w Google), nie widziałem podobnego intuicyjnego dwuwymiarowego przykładu dla CCA. Jak wizualnie wyjaśnić, co robi liniowy CCA?

12
Jakie są najczęstsze nieporozumienia na temat regresji liniowej?
Ciekawe, dla tych z was, którzy mają duże doświadczenie we współpracy z innymi badaczami, jakie są najczęstsze nieporozumienia na temat regresji liniowej, które napotykasz? Myślę, że może to być przydatne ćwiczenie, aby pomyśleć o typowych nieporozumieniach przed czasem, aby to zrobić Przewiduj błędy ludzi i potrafisz wyartykułować, dlaczego niektóre nieporozumienia …

5
Wykorzystanie k-krotnej walidacji krzyżowej do wyboru modelu szeregów czasowych
Pytanie: Chcę się czegoś upewnić, czy stosowanie k-krotnej walidacji krzyżowej z szeregami czasowymi jest proste, czy też należy na to zwrócić szczególną uwagę? Tło: modeluję 6-letni szereg czasowy (z łańcuchem pół-markowa), z próbką danych co 5 minut. Aby porównać kilka modeli, używam 6-krotnej walidacji krzyżowej, dzieląc dane na 6 lat, …


9
Jakie są główne filozoficzne, metodologiczne i terminologiczne różnice między ekonometrią a innymi dziedzinami statystycznymi?
Ekonometria w znacznym stopniu pokrywa się z tradycyjnymi statystykami, ale często używa własnego żargonu na różne tematy („identyfikacja”, „egzogeniczny” itp.). Kiedyś usłyszałem, jak profesor statystyki stosowanej w innym polu skomentował, że często terminologia jest inna, ale pojęcia są takie same. Ale ma też własne metody i filozoficzne rozróżnienia (przychodzi na …

9
Dlaczego możliwe jest uzyskanie istotnej statystyki F (p <0,001), ale nieistotnych testów t regresora?
Dlaczego w wielokrotnej regresji liniowej możliwe jest uzyskanie bardzo istotnej statystyki F (p &lt;0,001), ale bardzo wysokich wartości p we wszystkich testach t regresora? W moim modelu jest 10 regresorów. Jeden ma wartość p 0,1, a reszta jest powyżej 0,9 Aby poradzić sobie z tym problemem, patrz pytanie uzupełniające .

15
Praktyczne przemyślenia na temat modelowania objaśniającego vs. predykcyjnego
W kwietniu uczestniczyłem w przemówieniu na cyklicznym seminarium grupowym UMD Math Department Statistics zatytułowanym „Wyjaśnić czy przewidzieć?”. Rozmowę wygłosił prof. Galit Shmueli, który wykłada w Smith Business School w UMD. Jej przemówienie opierało się na badaniach, które przeprowadziła dla artykułu zatytułowanego „Modelowanie predykcyjne vs. model wyjaśniający w badaniach IS” oraz …


2
Kształt przedziału ufności dla przewidywanych wartości w regresji liniowej
Zauważyłem, że przedział ufności dla przewidywanych wartości w regresji liniowej jest zwykle wąski wokół średniej predyktora, a tłuszcz wokół minimalnych i maksymalnych wartości predyktora. Można to zobaczyć na wykresach tych 4 regresji liniowych: Początkowo myślałem, że dzieje się tak, ponieważ większość wartości predyktorów była skoncentrowana wokół średniej predyktora. Zauważyłem jednak, …


1
Jak podzielić zestaw danych w celu weryfikacji krzyżowej, krzywej uczenia się i oceny końcowej?
Jaka jest odpowiednia strategia podziału zestawu danych? Pytam o opinie na następujące podejście (nie na poszczególnych parametrów, takich jak test_sizeczy n_iter, ale jeśli kiedyś X, y, X_train, y_train, X_test, a y_testwłaściwie i czy sekwencja ma sens): (rozszerzenie tego przykładu z dokumentacji scikit-learn) 1. Załaduj zestaw danych from sklearn.datasets import load_digits …

9
Jakiego algorytmu należy użyć do wykrywania nieprawidłowości w szeregach czasowych?
tło Pracuję w Network Operations Center, monitorujemy systemy komputerowe i ich wydajność. Jednym z kluczowych wskaźników do monitorowania jest liczba odwiedzających \ klientów aktualnie podłączonych do naszych serwerów. Aby to pokazać, zbieramy takie dane, jak dane szeregów czasowych i rysujemy wykresy. Grafit pozwala nam to zrobić, ma dość bogaty interfejs …

4
Jaka jest różnica między funkcjami R prcomp i princomp?
Porównałem ?prcompi ?princompznalazłem coś na temat analizy głównego składnika w trybie Q i R (PCA). Ale szczerze mówiąc - nie rozumiem tego. Czy ktoś może wyjaśnić różnicę, a może nawet wyjaśnić, kiedy zastosować?
69 r  pca 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.