Statystyki i duże zbiory danych dataset

14

Czy duże zestawy danych są nieodpowiednie do testowania hipotez?

W ostatnim artykule z Amstat Nowiny , autorzy (Mark van der Laan i Sherri ROSE) stwierdził, że: „Wiemy, że dla dostatecznie dużych rozmiarach próbki, co study-włączając te, w których hipoteza zerowa nie efekt jest prawdziwe - będzie zadeklarować statystycznie istotny efekt. ”. Cóż, ja nie wiedziałem o tym. Czy to …

129 hypothesis-testing sample-size dataset large-data

25

Lokalizowanie swobodnie dostępnych próbek danych

Pracowałem nad nową metodą analizy i analizy zestawów danych w celu identyfikacji i izolacji podgrup populacji bez uprzedniej wiedzy o cechach podgrup. Chociaż metoda działa wystarczająco dobrze ze sztucznymi próbkami danych (tj. Zestawami danych utworzonymi specjalnie w celu identyfikacji i segregacji podzbiorów populacji), chciałbym spróbować przetestować ją z danymi na …

98 dataset sample population teaching

6

Niezbędne testy sprawdzające dane

W swojej roli zawodowej często pracuję z zestawami danych innych osób, nie-eksperci dostarczają mi dane kliniczne i pomagam im je podsumować i przeprowadzić testy statystyczne. Problem, który mam, polega na tym, że zestawy danych, które przynoszę, są prawie zawsze pełne literówek, niespójności i wszelkiego rodzaju innych problemów. Interesuje mnie to, …

93 dataset outliers checking

8

Jak symulować dane spełniające określone ograniczenia, takie jak posiadanie określonej średniej i odchylenia standardowego?

To pytanie jest motywowane moim pytaniem dotyczącym metaanalizy . Ale wyobrażam sobie, że przydałoby się to również w nauczaniu kontekstów, w których chcesz utworzyć zestaw danych, który dokładnie odzwierciedla istniejący opublikowany zestaw danych. Wiem, jak generować losowe dane z danej dystrybucji. Na przykład, jeśli przeczytam o wynikach badania, które: średnio …

56 r dataset simulation random-generation

3

Interfejsy API / kanały danych dostępne jako pakiety w języku R

EDYCJA: Widok zadań CRAN technologii internetowych i usług zawiera znacznie bardziej wyczerpującą listę źródeł danych i interfejsów API dostępnych w R. Możesz wysłać żądanie ściągnięcia na github, jeśli chcesz dodać pakiet do widoku zadania. Tworzę listę różnych plików danych, które są już podłączone do R lub są łatwe do skonfigurowania. …

53 r references dataset

3

Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie

Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

9

Małe (prawdziwe) zbiory danych do dawania przykładów w klasie?

Nauczając klasę wprowadzającą, znani nauczyciele mają tendencję do wymyślania pewnych liczb i historii w celu zilustrowania metody, której nauczają. Wolałbym opowiedzieć prawdziwą historię z prawdziwymi liczbami. Historie te muszą jednak odnosić się do bardzo małego zestawu danych, który umożliwia ręczne obliczenia. Wszelkie sugestie dotyczące takich zestawów danych będą bardzo mile …

43 dataset references teaching

8

Jak sprawić, by ludzie lepiej dbali o dane?

Moje miejsce pracy ma pracowników z bardzo różnych dziedzin, więc generujemy dane w wielu różnych formach. W związku z tym każdy zespół opracował własny system przechowywania danych. Niektórzy korzystają z baz danych Access lub SQL; niektóre zespoły (ku mojemu przerażeniu) polegają prawie całkowicie na arkuszach kalkulacyjnych Excel. Często formaty danych …

42 dataset reproducible-research quality-control

2

Jak wyciągnąć prawidłowe wnioski z „dużych zbiorów danych”?

„Big data” jest wszędzie w mediach. Wszyscy mówią, że „duże zbiory danych” są najważniejsze w 2012 r., Np. Sondaż KDNuggets na gorące tematy w 2012 r . Mam jednak głębokie obawy. W przypadku dużych zbiorów danych wydaje się, że wszyscy są szczęśliwi, gdy tylko coś wyciągną. Ale czy nie naruszamy …

40 data-mining dataset large-data validation

2

Jak znormalizować dane między -1 a 1?

Widziałem formułę normalizacji min-max, ale normalizuje ona wartości od 0 do 1. W jaki sposób normalizowałbym moje dane od -1 do 1? Mam zarówno ujemne, jak i dodatnie wartości w mojej macierzy danych.

36 dataset normalization

5

Darmowy zestaw danych do bardzo wysokiej klasyfikacji wymiarowej [zamknięty]

Jaki jest swobodnie dostępny zestaw danych do klasyfikacji z ponad 1000 cech (lub punktów próbkowania, jeśli zawiera krzywe)? Istnieje już wiki społeczności o wolnych zestawach danych: Lokalizowanie swobodnie dostępnych próbek danych Ale tutaj byłoby miło mieć bardziej szczegółową listę, z której można wygodniej korzystać , proponuję również następujące zasady: Jeden …

35 machine-learning classification dataset large-data

5

Co jeśli moje dane regresji liniowej zawierają kilka współzależnych zależności liniowych?

Powiedzmy, że badam, jak żonkile reagują na różne warunki glebowe. Zebrałem dane na temat pH gleby w porównaniu do dojrzałej wysokości żonkila. Oczekuję relacji liniowej, więc zaczynam o regresji liniowej. Jednak nie zdawałem sobie sprawy, kiedy rozpocząłem badanie, że populacja zawiera dwie odmiany żonkila, z których każda reaguje bardzo różnie …

34 regression linear-model dataset

3

Zestawy danych zbudowane w celu podobnym do kwartetu Anscombe

Właśnie natknąłem się na kwartet Anscombe (cztery zestawy danych, które mają prawie nie do odróżnienia statystyki opisowe, ale wyglądają zupełnie inaczej po wydrukowaniu) i jestem ciekawy, czy istnieją inne mniej lub bardziej znane zestawy danych, które zostały stworzone, aby pokazać znaczenie niektórych aspektów analiz statystycznych.

32 regression data-visualization dataset

2

Przeprowadzanie testu statystycznego po wizualizacji danych - pogłębianie danych?

Zaproponuję to pytanie za pomocą przykładu. Załóżmy, że mam zestaw danych, na przykład zestaw danych cen mieszkań w Bostonie, w którym mam zmienne ciągłe i kategoryczne. Tutaj mamy zmienną „jakości”, od 1 do 10, oraz cenę sprzedaży. Mogę rozdzielić dane na domy o „niskiej”, „średniej” i „wysokiej” jakości (arbitralnie), tworząc …

31 hypothesis-testing data-visualization p-value dataset inference

3

Wizualizacja skrzyżowań wielu zbiorów

Czy istnieje model wizualizacji, który jest dobry do pokazywania nakładania się przecięcia wielu zbiorów? Myślę o czymś takim jak diagramy Venna, ale to może jakoś lepiej nadawać się do większej liczby zestawów, takich jak 10 lub więcej. Wikipedia pokazuje kilka wyższych zestawów diagramów Venna, ale nawet 4 zestawy diagramów są …

30 data-visualization dataset

Pytania otagowane jako dataset