Statystyki i duże zbiory danych dataset

3

Często widzę ludzi, którzy określają wymiar / cechę zestawu danych jako zero-średnią poprzez usunięcie średniej ze wszystkich elementów. Ale nigdy nie rozumiałem, dlaczego to robić? Jaki jest efekt robienia tego jako etapu wstępnego przetwarzania? Czy poprawia to klasyfikację? Czy pomaga odpowiedzieć na coś o zestawie danych? Czy pomaga w wizualizacji …

12 data-mining dataset

2

Dlaczego niektórzy ludzie testują założenia modelu przypominającego regresję na swoich surowych danych, a inni testują je na poziomie resztkowym?

Jestem doktorantem z psychologii eksperymentalnej i staram się doskonalić swoje umiejętności i wiedzę na temat analizy moich danych. Do piątego roku studiów w psychologii myślałem, że modele podobne do regresji (np. ANOVA) zakładają następujące rzeczy: normalność danych jednorodność wariancji danych i tak dalej Moje studia licencjackie doprowadziły mnie do przekonania, …

12 regression dataset residuals assumptions

4

Najlepszy sposób na proste przechowywanie danych do analizy statystycznej w języku R [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 6 lat temu . Od pewnego czasu używam plików tekstowych do przechowywania moich danych w R. Ale w ostatnim projekcie rozmiary plików stają się zbyt …

12 r dataset

1

Różnice między PROC Mixed i lme / lmer w R - stopnie swobody

Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

4

Przykłady kosztownych konsekwencji niewłaściwego użycia narzędzi statystycznych

Podejrzewam, że większość użytkowników narzędzi statystycznych to użytkownicy pomocniczy (ludzie, którzy nie mieli formalnego szkolenia statystycznego). Bardzo kuszące jest, aby badacze i inni profesjonaliści zastosowali metody statystyczne do swoich danych po prostu dlatego, że widzieli to „wcześniej” w recenzowanych artykułach, szarej literaturze, Internecie lub na konferencji. Jednak zrobienie tego bez …

12 dataset methodology

2

Optymalne binowanie w odniesieniu do danej zmiennej odpowiedzi

Szukam optymalnej metody binowania (dyskretyzacji) zmiennej ciągłej w odniesieniu do danej zmiennej binarnej odpowiedzi (celu) i maksymalnej liczby interwałów jako parametru. przykład: mam zestaw obserwacji ludzi ze zmiennymi „wzrost” (ciągłe cyfry) i „has_back_pains” (binarne). Chcę dyskretyzować wzrost na 3 przedziały (grupy) co najwyżej z różnym odsetkiem osób z bólami pleców, …

12 r dataset optimization discrete-data binning

2

Najlepsze praktyki tworzenia „uporządkowanych danych”

Hadley Wickham napisał w zeszłym roku w JSS gwiezdny artykuł zatytułowany „Tidy Data” ( link ) na temat manipulacji danymi i doprowadzenia danych do stanu „optymalnego” w celu przeprowadzenia analizy. Zastanawiałem się jednak, jakie były najlepsze praktyki w zakresie prezentacji danych tabelarycznych w środowisku pracy? Powiedzmy, że twój współpracownik prosi …

12 dataset tables

2

Czy dzielenie danych na zestawy testowe i szkoleniowe to czysto „statystyki”?

Jestem studentem fizyki studiującym uczenie maszynowe / informatykę, więc nie mam na myśli, aby to pytanie wywoływało jakiekolwiek konflikty :) Jednak dużą częścią każdego programu licencjackiego z fizyki jest przeprowadzanie laboratoriów / eksperymentów, co oznacza dużo danych przetwarzanie i analiza statystyczna. Zauważam jednak wyraźną różnicę między sposobem, w jaki fizycy …

11 regression machine-learning cross-validation dataset experiment-design

3

Praktyczny samouczek PCA z danymi

Wyszukiwanie w Internecie samouczka PCA daje tysiące wyników (nawet wideo). Wiele samouczków jest bardzo dobrych. Ale nie jestem w stanie znaleźć żadnego praktycznego przykładu, w którym wyjaśniono PCA przy użyciu niektórych zestawów danych, których mogę użyć do demonstracji. Potrzebuję samouczka, który zapewnia niewielki zestaw danych, który jest łatwy do wykreślenia …

11 data-visualization dataset pca data-mining

14

Ile informacji możesz wydobyć z imienia?

Imię: pierwsze, ewentualnie środkowe i nazwisko. Jestem ciekawy, ile informacji możesz wydobyć z nazwy, używając publicznie dostępnych zestawów danych. Wiem, że możesz uzyskać następujące z dowolnym między niskim a wysokim prawdopodobieństwem (w zależności od danych wejściowych) przy użyciu danych ze spisu powszechnego w USA: 1) Płeć. 2) Wyścig. Na przykład …

11 dataset data-mining census

3

Jakiego algorytmu należy użyć, aby zgrupować ogromny binarny zestaw danych w kilka kategorii?

Mam dużą (650K wierszy * 62 kolumny) macierz danych binarnych (tylko wpisy 0-1). Matryca jest w większości rzadka: około 8% jest wypełnione. Chciałbym podzielić go na 5 grup - powiedzmy nazwanych od 1 do 5. Próbowałem zgrupować hierarchicznie i nie byłem w stanie obsłużyć rozmiaru. Użyłem również algorytmu grupowania k-średnich …

11 clustering dataset k-means binary-data

3

Dobre książki dotyczące technik wstępnego przetwarzania danych i wykrywania wartości odstających

Jak tytuł mówi, czy ktoś wie o dobrej, aktualnej książce, która ogólnie obejmuje wstępne przetwarzanie danych, a szczególnie techniki wykrywania wartości odstających? Książka nie musi skupiać się wyłącznie na tym, ale powinna wyczerpująco omawiać wyżej wymienione tematy - nie byłbym zadowolony z czegoś, co stanowi punkt wyjścia i cytuje listę …

11 dataset data-mining references outliers

4

Co dokładnie oznacza „zbiór danych”?

Czy to tylko agregacja punktów danych? A może reprezentacja punktów danych dla różnych elementów w formacie tabelarycznym ułożonym z wartościami różnych zmiennych? Czym różni się od surowych danych?

10 dataset terminology definition

1

Czy błędy przetwarzania danych są już „wycenione” w analizie statystycznej?

Ok, uczciwe ostrzeżenie - to filozoficzne pytanie, które nie zawiera liczb. Dużo zastanawiałem się nad tym, jak błędy wkradają się do zestawów danych w czasie i jak analitycy powinni to potraktować - czy może to naprawdę ma znaczenie? Na przykład robię analizę długoterminowego badania, które obejmuje wiele zbiorów danych zebranych …

10 dataset error

2

Czy typy danych (nominalne / porządkowe / interwałowe / stosunek) naprawdę powinny być uważane za typy zmiennych?

Oto na przykład definicje, które otrzymuję ze standardowych podręczników Zmienna - charakterystyczna dla populacji lub próby. dawny. Cena akcji lub oceny na teście Dane - rzeczywiste obserwowane wartości Tak więc dla raportu dwukolumnowego [Nazwa | Dochód] nazwami kolumn byłyby zmienne, a rzeczywiste zaobserwowane wartości {dave | 100K}, {jim | 200 …

10 dataset ordinal-data categorical-data ratio

Pytania otagowane jako dataset