Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

3
Zrozumienie stratyfikacji krzyżowej
Jaka jest różnica między walidacją krzyżową a walidacją krzyżową ? Wikipedia mówi: W warstwowej walidacji krzyżowej k-krotnie fałdy są wybierane tak, aby średnia wartość odpowiedzi była w przybliżeniu równa we wszystkich fałdach. W przypadku klasyfikacji dychotomicznej oznacza to, że każda fałda zawiera w przybliżeniu te same proporcje dwóch rodzajów etykiet …

4
Jak wygenerować skorelowane liczby losowe (podane średnie, wariancje i stopień korelacji)?
Przepraszam, jeśli wydaje się to trochę zbyt proste, ale myślę, że tylko chcę tutaj potwierdzić zrozumienie. Wydaje mi się, że musiałbym to zrobić w dwóch krokach i zacząłem próbować analizować macierze korelacji, ale to zaczyna wydawać się naprawdę zaangażowane. Szukam zwięzłego wyjaśnienia (najlepiej ze wskazówkami dotyczącymi rozwiązania pseudokodu) dobrego, idealnie …


3
Interfejsy API / kanały danych dostępne jako pakiety w języku R
EDYCJA: Widok zadań CRAN technologii internetowych i usług zawiera znacznie bardziej wyczerpującą listę źródeł danych i interfejsów API dostępnych w R. Możesz wysłać żądanie ściągnięcia na github, jeśli chcesz dodać pakiet do widoku zadania. Tworzę listę różnych plików danych, które są już podłączone do R lub są łatwe do skonfigurowania. …
53 r  references  dataset 

6
Wydajna regresja liniowa online
Analizuję niektóre dane, w których chciałbym przeprowadzić zwykłą regresję liniową, jednak nie jest to możliwe, ponieważ mam do czynienia z ustawieniem on-line z ciągłym strumieniem danych wejściowych (które szybko stają się zbyt duże dla pamięci) i potrzebują zaktualizować oszacowania parametrów podczas ich zużycia. tzn. nie mogę po prostu załadować wszystkiego …

5
Najlepsza praktyka podczas analizowania projektów kontroli przed zabiegiem
Wyobraź sobie następujący wspólny projekt: 100 uczestników jest losowo przydzielanych do grupy terapeutycznej lub kontrolnej zmienna zależna jest liczbowa i mierzona przed i po leczeniu Trzy oczywiste opcje analizy takich danych to: Przetestuj grupę według efektu interakcji czasowej w mieszanej ANOVA Wykonaj ANCOVA z warunkiem jako IV, a wstępną miarą …

10
Uczenie maszynowe przy użyciu Pythona
Rozważam użycie bibliotek Python do przeprowadzania eksperymentów z uczeniem maszynowym. Do tej pory polegałem na WEKA, ale ogólnie byłem dość niezadowolony. Wynika to przede wszystkim z tego, że uważam, że WEKA nie jest tak dobrze wspierana (bardzo niewiele przykładów, dokumentacja jest rzadka, a wsparcie społeczności jest mniej niż pożądane z …

9
Pomiar entropii / informacji / wzorów matrycy binarnej 2d
Chcę zmierzyć entropię / gęstość informacji / podobieństwo wzorca dwuwymiarowej macierzy binarnej. Pokażę kilka zdjęć w celu wyjaśnienia: Ten ekran powinien mieć raczej wysoką entropię: ZA) To powinno mieć średnią entropię: B) Wreszcie te zdjęcia powinny mieć entropię bliską zeru: DO) RE) MI) Czy istnieje jakiś indeks, który przechwytuje entropię, …


5
Jakie są wady modeli przestrzeni stanów i filtra Kalmana do modelowania szeregów czasowych?
Biorąc pod uwagę wszystkie dobre właściwości modeli przestrzeni stanów i KF, zastanawiam się - jakie są wady modelowania przestrzeni stanów i używania filtra Kalmana (lub EKF, UKF lub filtra cząstek) do oszacowania? Ponad, powiedzmy, konwencjonalne metodologie, takie jak ARIMA, VAR lub metody ad-hoc / heurystyczne. Czy trudno je skalibrować? Czy …

7
Wykrywanie okresu ogólnych szeregów czasowych
Ten post jest kontynuacją kolejnego postu związanego z ogólną metodą wykrywania wartości odstających w szeregach czasowych . Zasadniczo w tym momencie interesuje mnie solidny sposób odkrywania okresowości / sezonowości ogólnych szeregów czasowych dotkniętych dużym hałasem. Z punktu widzenia programisty chciałbym prosty interfejs, taki jak: unsigned int discover_period(vector<double> v); Gdzie vjest …

6
Optymalizator Adama z rozkładem wykładniczym
W większości kodów Tensorflow widziałem, że Adam Optimizer jest używany ze stałą szybkością uczenia się 1e-4(tj. 0,0001). Kod zwykle wygląda następująco: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

2
Co oznacza „stała wariancja” w modelu regresji liniowej?
Co oznacza „stała wariancja” w wyrażeniu błędu? Widzę, że mamy dane z jedną zmienną zależną i jedną zmienną niezależną. Stała wariancja jest jednym z założeń regresji liniowej. Zastanawiam się, co oznacza homoscedastyczność. Ponieważ nawet jeśli mam 500 wierszy, miałbym jedną wartość wariancji, która jest oczywiście stała. Z jaką zmienną powinienem …

3
Dlaczego tak bardzo zależy nam na normalnie rozłożonych terminach błędów (i homoskedastyczności) w regresji liniowej, kiedy nie musimy?
Przypuszczam, że denerwuję się za każdym razem, gdy słyszę, jak ktoś mówi, że nienormalność reszt i / lub heteroskedastyczność narusza założenia OLS. Do oszacowania parametrów w modelu OLS żadne z tych założeń nie jest konieczne w twierdzeniu Gaussa-Markowa. Widzę, jak to ma znaczenie w testowaniu hipotez dla modelu OLS, ponieważ …

3
Czy przeprowadzić normalizację funkcji przed czy w ramach walidacji modelu?
Powszechną dobrą praktyką w uczeniu maszynowym jest normalizacja funkcji lub standaryzacja danych zmiennych predykcyjnych, to znaczy, wyśrodkowanie danych odejmując średnią i normalizując ją dzieląc przez wariancję (lub też odchylenie standardowe). W celu zapewnienia sobie samowystarczalności i dla mojego zrozumienia robimy to, aby osiągnąć dwie główne rzeczy: Unikaj bardzo małych odważników …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.