Pytania otagowane jako eda

EDA to skrót od „Exploratory data analysis”. Opracowany przez Tukey w przeciwieństwie do Confirmatory Data Analysis lub CDA (formalne testowanie hipotez). EDA zazwyczaj zajmuje się opisywaniem danych liczbowo i graficznie, aby ułatwić zrozumienie danych i uzyskać nowe spostrzeżenia.

5
Czy lepiej jest przeprowadzać eksploracyjną analizę danych tylko w zestawie danych szkoleniowych?
Wykonuję eksploracyjną analizę danych (EDA) na zbiorze danych. Następnie wybiorę niektóre funkcje, aby przewidzieć zmienną zależną. Pytanie brzmi: czy powinienem wykonywać EDA tylko na moim zestawie danych szkoleniowych? A może powinienem dołączyć do zestawu danych szkoleniowych i testowych, a następnie wykonać na nich EDA i wybrać funkcje oparte na tej …

2
Czy istnieją różnice w bayesowskim i częstym podejściu do EDA?
Mówiąc najprościej: czy są jakieś różnice w podejściu Bayesa i Frequentist do analizy danych eksploracyjnych? Nie znam żadnych nieodłącznych uprzedzeń w metodach EDA, ponieważ histogram jest histogramem, wykres rozrzutu jest wykresem rozrzutu itp., Ani nie znalazłem przykładów różnic w sposobie nauczania lub prezentacji EDA (ignorując szczególnie teoretyczny artykuł A. Gelmana) …



4
Najlepsze sposoby na agregację i analizę danych
Niedawno zacząłem uczyć się uczenia maszynowego i analizy danych. Uderzam w ścianę z powodu potrzeby tworzenia i wyszukiwania dużych zestawów danych. Chciałbym pobrać dane, które gromadzę w życiu zawodowym i osobistym, i przeanalizować je, ale nie jestem pewien, jak najlepiej wykonać następujące czynności: Jak powinienem przechowywać te dane? Przewyższać? SQL? …

2
Różnica między eksploracyjną i potwierdzającą analizą czynnikową w określaniu niezależności konstruktu
Badacze często używają dwóch miar, które mają bardzo podobne elementy i twierdzą, że mierzą różne rzeczy (np. „Zawsze martwię się, gdy jestem w pobliżu samochodów”; „Boję się samochodów”). Nazwijmy hipotetyczne miary miarą strachu przed samochodami i niepokojem ze skali samochodów. Interesuje mnie testowanie empiryczne, jeśli rzeczywiście oceniają różne konstrukcje utajone …

2
Jeśli mój histogram pokazuje krzywą w kształcie dzwonu, czy mogę powiedzieć, że moje dane są zwykle dystrybuowane?
Stworzyłem histogram dla wieku respondenta i udało mi się uzyskać bardzo ładną krzywą w kształcie dzwonu, z której doszedłem do wniosku, że rozkład jest normalny. Następnie przeprowadziłem test normalności w SPSS, przy n = 169. p (Sig.) Testu Kołmogorowa-Smirnowa jest mniejsza niż 0,05, a zatem dane naruszyły założenie normalności. Dlaczego …

1
Jak interpretować wycięte wykresy pudełkowe
Wykonując EDA postanowiłem użyć wykresu pudełkowego, aby zilustrować różnicę między dwoma poziomami czynnika. Sposób, w jaki ggplot renderował wykres pudełkowy, był zadowalający, ale nieco uproszczony (pierwszy wykres poniżej). Podczas badania właściwości wykresów pudełkowych zacząłem eksperymentować z wycięciami. Rozumiem, że wycięcia wyświetlają CI wokół mediany i że jeśli wycięcia dwóch pól …

2
Co oznacza „Niech dane mówią same za siebie”?
Czytając następujący artykuł , natknąłem się na następujące oświadczenie: Jak wspomniano, często jest przedstawiany bez odniesienia do modeli probabilistycznych, zgodnie z pomysłem Benzecri [1973], aby „pozwolić, aby dane mówiły same za siebie”. (cytat z JP Benzécri. L'analyse des données. Tome II: L'analyse des korespondencji. Dunod, 1973). Z tego, jak czytam …
10 eda  quotation 


4
Wskazówki i porady dotyczące modelowania statystycznego?
Pracuję w dziedzinie eksploracji danych i miałem bardzo mało formalnego wykształcenia statystycznego. Ostatnio czytam dużo pracy, która koncentruje się na bayesowskich paradygmatach uczenia się i wydobywania, które uważam za bardzo interesujące. Moje pytanie brzmi (w kilku częściach), biorąc pod uwagę problem, czy istnieją ogólne ramy, dzięki którym można zbudować model …

4
Dlaczego fakt, że 1 mediana jest niższa niż inna mediana, nie oznacza, że ​​większość w grupie 1 jest mniejsza niż większość w grupie 2?
Uważałem, że poniższe wykresy pudełkowe można interpretować jako „większość mężczyzn jest szybsza niż większość kobiet” (w tym zbiorze danych), przede wszystkim dlatego, że mediana czasu mężczyzn była krótsza niż mediana czasu kobiet. Ale kurs EdX na temat R i quizu statystycznego powiedział mi, że jest niepoprawny. Pomóż mi zrozumieć, dlaczego …

2
Parametryczne, półparametryczne i nieparametryczne ładowanie początkowe dla modeli mieszanych
Z tego artykułu pochodzą następujące przeszczepy . Jestem nowicjuszem w bootstrapie i próbuję zaimplementować parametryczne, semiparametryczne i nieparametryczne bootstrapowanie dla liniowego modelu mieszanego z R bootpakietem. Kod R. Oto mój Rkod: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
Wytyczne dotyczące odkrywania nowej wiedzy w danych
Knuję coś, aby wskazać na siebie lub kogoś innego. Zazwyczaj pytanie rozpoczyna ten proces i często osoba pytająca ma nadzieję na konkretną odpowiedź. Jak mogę dowiedzieć się ciekawych rzeczy na temat danych w mniej stronniczy sposób? W tej chwili z grubsza stosuję tę metodę: Statystyki podsumowujące. Wykres paskowy. Wykres punktowy. …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.