Pytania otagowane jako dataset

Żądania dotyczące zestawów danych są w tej witrynie nie na temat. Użyj tego znacznika do pytań dotyczących tworzenia, przetwarzania lub utrzymywania zestawów danych.

3
Pomysł tworzenia danych ma wartość zero
Często widzę ludzi, którzy określają wymiar / cechę zestawu danych jako zero-średnią poprzez usunięcie średniej ze wszystkich elementów. Ale nigdy nie rozumiałem, dlaczego to robić? Jaki jest efekt robienia tego jako etapu wstępnego przetwarzania? Czy poprawia to klasyfikację? Czy pomaga odpowiedzieć na coś o zestawie danych? Czy pomaga w wizualizacji …

2
Dlaczego niektórzy ludzie testują założenia modelu przypominającego regresję na swoich surowych danych, a inni testują je na poziomie resztkowym?
Jestem doktorantem z psychologii eksperymentalnej i staram się doskonalić swoje umiejętności i wiedzę na temat analizy moich danych. Do piątego roku studiów w psychologii myślałem, że modele podobne do regresji (np. ANOVA) zakładają następujące rzeczy: normalność danych jednorodność wariancji danych i tak dalej Moje studia licencjackie doprowadziły mnie do przekonania, …


1
Różnice między PROC Mixed i lme / lmer w R - stopnie swobody
Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

4
Przykłady kosztownych konsekwencji niewłaściwego użycia narzędzi statystycznych
Podejrzewam, że większość użytkowników narzędzi statystycznych to użytkownicy pomocniczy (ludzie, którzy nie mieli formalnego szkolenia statystycznego). Bardzo kuszące jest, aby badacze i inni profesjonaliści zastosowali metody statystyczne do swoich danych po prostu dlatego, że widzieli to „wcześniej” w recenzowanych artykułach, szarej literaturze, Internecie lub na konferencji. Jednak zrobienie tego bez …

2
Optymalne binowanie w odniesieniu do danej zmiennej odpowiedzi
Szukam optymalnej metody binowania (dyskretyzacji) zmiennej ciągłej w odniesieniu do danej zmiennej binarnej odpowiedzi (celu) i maksymalnej liczby interwałów jako parametru. przykład: mam zestaw obserwacji ludzi ze zmiennymi „wzrost” (ciągłe cyfry) i „has_back_pains” (binarne). Chcę dyskretyzować wzrost na 3 przedziały (grupy) co najwyżej z różnym odsetkiem osób z bólami pleców, …

2
Najlepsze praktyki tworzenia „uporządkowanych danych”
Hadley Wickham napisał w zeszłym roku w JSS gwiezdny artykuł zatytułowany „Tidy Data” ( link ) na temat manipulacji danymi i doprowadzenia danych do stanu „optymalnego” w celu przeprowadzenia analizy. Zastanawiałem się jednak, jakie były najlepsze praktyki w zakresie prezentacji danych tabelarycznych w środowisku pracy? Powiedzmy, że twój współpracownik prosi …
12 dataset  tables 

2
Czy dzielenie danych na zestawy testowe i szkoleniowe to czysto „statystyki”?
Jestem studentem fizyki studiującym uczenie maszynowe / informatykę, więc nie mam na myśli, aby to pytanie wywoływało jakiekolwiek konflikty :) Jednak dużą częścią każdego programu licencjackiego z fizyki jest przeprowadzanie laboratoriów / eksperymentów, co oznacza dużo danych przetwarzanie i analiza statystyczna. Zauważam jednak wyraźną różnicę między sposobem, w jaki fizycy …

3
Praktyczny samouczek PCA z danymi
Wyszukiwanie w Internecie samouczka PCA daje tysiące wyników (nawet wideo). Wiele samouczków jest bardzo dobrych. Ale nie jestem w stanie znaleźć żadnego praktycznego przykładu, w którym wyjaśniono PCA przy użyciu niektórych zestawów danych, których mogę użyć do demonstracji. Potrzebuję samouczka, który zapewnia niewielki zestaw danych, który jest łatwy do wykreślenia …

14
Ile informacji możesz wydobyć z imienia?
Imię: pierwsze, ewentualnie środkowe i nazwisko. Jestem ciekawy, ile informacji możesz wydobyć z nazwy, używając publicznie dostępnych zestawów danych. Wiem, że możesz uzyskać następujące z dowolnym między niskim a wysokim prawdopodobieństwem (w zależności od danych wejściowych) przy użyciu danych ze spisu powszechnego w USA: 1) Płeć. 2) Wyścig. Na przykład …

3
Jakiego algorytmu należy użyć, aby zgrupować ogromny binarny zestaw danych w kilka kategorii?
Mam dużą (650K wierszy * 62 kolumny) macierz danych binarnych (tylko wpisy 0-1). Matryca jest w większości rzadka: około 8% jest wypełnione. Chciałbym podzielić go na 5 grup - powiedzmy nazwanych od 1 do 5. Próbowałem zgrupować hierarchicznie i nie byłem w stanie obsłużyć rozmiaru. Użyłem również algorytmu grupowania k-średnich …

3
Dobre książki dotyczące technik wstępnego przetwarzania danych i wykrywania wartości odstających
Jak tytuł mówi, czy ktoś wie o dobrej, aktualnej książce, która ogólnie obejmuje wstępne przetwarzanie danych, a szczególnie techniki wykrywania wartości odstających? Książka nie musi skupiać się wyłącznie na tym, ale powinna wyczerpująco omawiać wyżej wymienione tematy - nie byłbym zadowolony z czegoś, co stanowi punkt wyjścia i cytuje listę …



2
Czy typy danych (nominalne / porządkowe / interwałowe / stosunek) naprawdę powinny być uważane za typy zmiennych?
Oto na przykład definicje, które otrzymuję ze standardowych podręczników Zmienna - charakterystyczna dla populacji lub próby. dawny. Cena akcji lub oceny na teście Dane - rzeczywiste obserwowane wartości Tak więc dla raportu dwukolumnowego [Nazwa | Dochód] nazwami kolumn byłyby zmienne, a rzeczywiste zaobserwowane wartości {dave | 100K}, {jim | 200 …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.