Statystyki i duże zbiory danych

3

Zmienne są często korygowane (np. Standaryzowane) przed wykonaniem modelu - kiedy jest to dobry pomysł, a kiedy zły?

W jakich okolicznościach chciałbyś skalować lub standaryzować zmienną przed dopasowaniem modelu? A jakie są zalety / wady skalowania zmiennej?

56 modeling predictive-models feature-selection theory standardization

6

Jaką metodę można zastosować do wykrycia sezonowości danych?

Chcę wykryć sezonowość w danych, które otrzymuję. Znalazłem kilka metod, takich jak wykres sezonowych podserii i wykres autokorelacji, ale chodzi o to, że nie rozumiem, jak czytać wykres, czy ktoś mógłby pomóc? Inną kwestią jest to, czy istnieją inne metody wykrywania sezonowości z końcowym wynikiem na wykresie lub bez?

56 time-series seasonality

12

Oprogramowanie potrzebne do zeskrobywania danych z wykresu [zamknięte]

Czy ktoś ma jakieś doświadczenie z oprogramowaniem (najlepiej darmowym, najlepiej open source), które zrobi zdjęcie danych wykreślonych na współrzędnych kartezjańskich (standardowy, codzienny wykres) i wyodrębni współrzędne punktów wykreślonych na wykresie? Zasadniczo jest to problem eksploracji danych i problem odwrotnej wizualizacji danych.

56 data-visualization data-mining software

8

Po co nadal uczyć i stosować testowanie hipotez (gdy dostępne są przedziały ufności)?

Po co dalej uczyć i stosować testowanie hipotez (ze wszystkimi jego trudnymi pojęciami i które należą do najbardziej statystycznych grzechów) w przypadku problemów, w których istnieje estymator przedziałów (pewność, bootstrap, wiarygodność lub cokolwiek innego)? Jakie jest najlepsze wyjaśnienie (jeśli w ogóle) dla studentów? Tylko tradycja? Widoki będą bardzo mile widziane.

56 hypothesis-testing confidence-interval teaching

13

Jakie są przełomy w statystykach z ostatnich 15 lat?

Wciąż pamiętam dokument Annals of Statistics o Boostingu autorstwa Friedmana-Hastie-Tibshirani oraz komentarze innych autorów na ten temat (w tym Freunda i Schapire'a). W tamtym czasie wyraźnie wzmocnienie było postrzegane jako przełom pod wieloma względami: wykonalne obliczeniowo, metoda złożona, z doskonałym, ale tajemniczym wykonaniem. Mniej więcej w tym samym czasie SVM …

56 mathematical-statistics history

2

Jaka jest różnica między częściowym prawdopodobieństwem, prawdopodobieństwem profilu i prawdopodobieństwem krańcowym?

Widzę, że te terminy są używane i ciągle je mieszam. Czy istnieje proste wyjaśnienie różnic między nimi?

56 estimation maximum-likelihood

4

Jak rozkłada się minimum zestawu zmiennych losowych?

Jeśli są niezależnymi zmiennymi losowymi o identycznym rozkładzie, co ogólnie można powiedzieć o rozkładzie ?X1,...,XnX1,...,XnX_1, ..., X_nmin(X1,...,Xn)min(X1,...,Xn)\min(X_1, ..., X_n)

56 distributions random-variable minimum

6

Jakiej implementacji testu permutacji w R użyć zamiast testów t (sparowanych i niesparowanych)?

Mam dane z eksperymentu, który przeanalizowałem za pomocą testów t. Zmienna zależna jest skalowana w odstępach czasu, a dane są niesparowane (tj. 2 grupy) lub sparowane (tj. W obrębie osobników). Np. (W ramach przedmiotów): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, …

56 r t-test nonparametric permutation-test

5

Jak dokładnie „model efektów losowych” w ekonometrii odnosi się do modeli mieszanych poza ekonometrią?

Kiedyś myślałem, że „model efektów losowych” w ekonometrii odpowiada „modelowi mieszanemu z przypadkowym przechwytywaniem” poza ekonometrią, ale teraz nie jestem pewien. Czy to? Ekonometria używa terminów takich jak „efekty stałe” i „efekty losowe” nieco inaczej niż w literaturze na temat modeli mieszanych, co powoduje notoryczne zamieszanie. Rozważmy prostą sytuację, w …

56 mixed-model econometrics panel-data lme4-nlme plm

8

Jak symulować dane spełniające określone ograniczenia, takie jak posiadanie określonej średniej i odchylenia standardowego?

To pytanie jest motywowane moim pytaniem dotyczącym metaanalizy . Ale wyobrażam sobie, że przydałoby się to również w nauczaniu kontekstów, w których chcesz utworzyć zestaw danych, który dokładnie odzwierciedla istniejący opublikowany zestaw danych. Wiem, jak generować losowe dane z danej dystrybucji. Na przykład, jeśli przeczytam o wynikach badania, które: średnio …

56 r dataset simulation random-generation

2

Bardziej ostateczne omówienie wyboru zmiennych

tło Prowadzę badania kliniczne w medycynie i odbyłem kilka kursów statystycznych. Nigdy nie publikowałem pracy z wykorzystaniem regresji liniowej / logistycznej i chciałbym prawidłowo dokonywać wyboru zmiennych. Interpretowalność jest ważna, więc nie ma wymyślnych technik uczenia maszynowego. Podsumowałem moje rozumienie wyboru zmiennych - czy ktoś mógłby rzucić światło na jakieś …

55 regression feature-selection model-selection

2

Dlaczego skurcz działa?

W celu rozwiązania problemów związanych z wyborem modelu, szereg metod (LASSO, regresja kalenicy itp.) Zmniejszy współczynniki zmiennych predykcyjnych w kierunku zera. Szukam intuicyjnego wyjaśnienia, dlaczego poprawia to zdolność przewidywania. Jeśli prawdziwy efekt zmiennej był w rzeczywistości bardzo duży, dlaczego skurczenie parametru nie spowoduje gorszej prognozy?

55 lasso regularization ridge-regression intuition shrinkage

10

Jakie są przykłady praktyk anachronicznych w statystyce?

Mam na myśli praktyki, które nadal utrzymują swoją obecność, mimo że problemy (zwykle obliczeniowe), z którymi zostały zaprojektowane, zostały w większości rozwiązane. Na przykład wymyślono korektę ciągłości Yatesa w celu przybliżenia dokładnego testu Fishera za pomocą testu , ale nie jest to już praktyczne, ponieważ oprogramowanie może teraz obsługiwać test …

55 references philosophical

1

Test Walda na regresję logistyczną

O ile rozumiem test Walda w kontekście regresji logistycznej służy do ustalenia, czy określona zmienna predykcyjna jest znacząca, czy nie. Odrzuca hipotezę zerową odpowiadającego współczynnikowi równego zero.XXX Test polega na podzieleniu wartości współczynnika przez błąd standardowy .σσ\sigma Mylę się, że jest również znany jako Z-score i wskazuje, jak prawdopodobne jest, …

55 logistic z-statistic

3

Co jest takiego fajnego w twierdzeniu o reprezentacji de Finetti?

Z teorii statystyki Mark J. Schervish (strona 12): Chociaż twierdzenie DeFinetti o reprezentacji 1.49 ma zasadnicze znaczenie dla motywowania modeli parametrycznych, w rzeczywistości nie jest wykorzystywane w ich implementacji. W jaki sposób twierdzenie jest kluczowe dla modeli parametrycznych?

55 probability modeling mathematical-statistics parametric