Statystyki i duże zbiory danych data-visualization

4

Jak wizualizować niezależny test t dwóch próbek?

Jakie są najbardziej akceptowane sposoby wizualizacji wyników niezależnego testu t dla dwóch próbek? Czy częściej używana jest tablica numeryczna czy jakiś wykres? Celem jest, aby przypadkowy obserwator spojrzał na postać i od razu zobaczył, że prawdopodobnie pochodzą z dwóch różnych populacji.

11 data-visualization t-test

6

Jak zmniejszyć liczbę punktów danych w serii?

Nie studiowałem statystyk przez ponad 10 lat (a potem tylko podstawowy kurs), więc może moje pytanie jest trochę trudne do zrozumienia. W każdym razie chcę zmniejszyć liczbę punktów danych w serii. Oś X jest liczbą milisekund od początku pomiaru, a oś Y jest odczytem tego punktu. Często istnieją tysiące punktów …

11 data-visualization

2

Czy paradoks Simpsona obejmuje wszystkie przypadki odwrócenia się od ukrytej zmiennej?

Poniżej znajduje się pytanie dotyczące wielu wizualizacji przedstawionych jako „dowód za obrazem” istnienia paradoksu Simpsona i być może pytanie dotyczące terminologii. Paradoks Simpsona jest dość prostym zjawiskiem, które można opisać i podać numeryczne przykłady (powód, dla którego może się to zdarzyć, jest głęboki i interesujący). Paradoks polega na tym, że …

10 mathematical-statistics data-visualization causality contingency-tables simpsons-paradox

1

Wycięcia na wykresie ramkowym vs. interwał Tukeya-Kramera

W „wycięcie” dokument pomocy ( lub tekst oryginalny ) z wykresu pudełkowego w „R” daje następujące elementy: Jeżeli wycięcia dwóch wykresów nie pokrywają się, jest to „mocny dowód”, że dwie mediany różnią się (Chambers i in., 1983, s. 62). Zastosowane obliczenia znajdują się w boxplot.stats. a „ boxplot.stats ” podaje: …

10 data-visualization median boxplot tukey-hsd

1

Wykreślanie przewidywanych wartości w szeregach czasowych ARIMA w R.

Prawdopodobnie istnieje więcej niż jedno poważne nieporozumienie w tym pytaniu, ale nie ma ono na celu poprawnego obliczenia, ale raczej zmotywowanie uczenia się szeregów czasowych z pewnym uwzględnieniem. Próbując zrozumieć zastosowanie szeregów czasowych, wydaje się, że usunięcie danych z trendów czyni prognozowanie przyszłych wartości niemożliwym. Na przykład gtempszereg czasowy z …

10 r time-series data-visualization

2

Jak nazywa się ten typ wykresu z równolegle wycentrowanymi poziomymi słupkami gęstości?

Jak nazwałbyś tego typu fabułę i czy można je utworzyć w R? EDYCJA: wielkie dzięki wszystkim - bardzo pomocne. Najlepszy jak dotąd tytuł: skwantowane wykresy skrzypcowe!

10 r data-visualization

1

Co należy rozumieć przez zachowanie przez PCA jedynie dużych par odległości?

Obecnie czytam technikę wizualizacji t-SNE i wspomniano, że jedną z wad stosowania analizy głównych składników (PCA) do wizualizacji danych wielowymiarowych jest to, że zachowuje ona jedynie duże parowe odległości między punktami. Znaczące punkty, które są daleko od siebie w przestrzeni wielowymiarowej, również pojawią się daleko od siebie w niskiej przestrzeni …

10 machine-learning data-visualization pca tsne

1

Wyjaśnienia dotyczące czytania nomogramu

Poniżej znajduje się nomogram utworzony z zestawu danych mtcars z pakietem rms dla formuły: mpg ~ wt + am + qsec Sam model wydaje się dobry z R2 wynoszącym 0,85 i P <0,00001 > mod Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) …

10 regression multiple-regression data-visualization predictive-models regression-strategies

3

Podejście i przykład grupowania wykresów w „R”

Szukam do grupowania / scalania węzłów na wykresie za pomocą klastrowania wykresów w 'r'. Oto oszałamiająco zabawkowa odmiana mojego problemu. Istnieją dwa „klastry” Istnieje „most” łączący klastry Oto sieć kandydacka: Kiedy patrzę na odległość połączenia, „hopcount”, jeśli wolisz, mogę uzyskać następującą macierz: mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), …

10 r clustering data-visualization numerics

2

Jak wizualizować wartości procentowe w porównaniu z liczbą wpisów.

Staram się znaleźć najlepszy sposób na wizualizację poniższej tabeli i podkreślenie skuteczności leczenia w odniesieniu do liczby pacjentów, którzy próbowali leczenia. Oto link do faktycznej strony: http://curetogether.com/cluster-headaches/treatments/ Jaki jest najlepszy sposób na podkreślenie skuteczności przy jednoczesnym ułatwieniu porównania leczenia i sprawdzenia, ilu pacjentów oceniało każdego z nich? Myślałem o tym, …

10 data-visualization pie-chart

3

Jak wyodrębnić informacje z macierzy rozrzutu, gdy masz duże N, dane dyskretne i wiele zmiennych?

Bawię się zestawem danych dotyczących raka piersi i stworzyłem wykres rozproszenia wszystkich atrybutów, aby dowiedzieć się, które z nich mają największy wpływ na przewidywanie klasy malignant(niebieskiej) benign(czerwonej). Rozumiem, że wiersz reprezentuje oś x, a kolumna reprezentuje oś y, ale nie widzę, jakie spostrzeżenia mogę poczynić na temat danych lub atrybutów …

10 r data-visualization interpretation scatterplot

1

Wizualizacja wielu rozkładów pochylonych w lewo

Mam serię rozkładów skośnych / grubych ogonów, które chciałbym pokazać. Istnieje 42 dystrybucje na trzech czynników (oznaczony jako A, Ba Cponiżej). Różnica maleje również w zależności od czynnika B. Problemem jest to, że rozkłady trudno jest rozróżnić w skali wyniku (stosunek lub zmiana krotności): Wydaje się, że rejestrowanie danych nadmiernie …

10 data-visualization multivariate-analysis heteroscedasticity skewness boxplot

2

Czy planujesz statystyki podsumowujące ze średnimi, sd, min i max?

Pochodzę ze środowisk ekonomicznych i zazwyczaj w tej dyscyplinie statystyki podsumowujące zmienne są przedstawione w tabeli. Chciałbym je jednak nakreślić. Mógłbym zmodyfikować wykres pudełkowy, aby wyświetlał średnią, odchylenie standardowe, minimum i maksimum, ale nie chcę tego robić, ponieważ wykresy pudełkowe są tradycyjnie używane do wyświetlania median oraz Q1 i Q3. …

10 r data-visualization boxplot

2

Badanie macierzy wykresów punktowych dla wielu zmiennych

Analizuję zestaw danych z wieloma parametrami (powiedzmy 50-200) i jestem zainteresowany spojrzeniem na relacje między zmiennymi (np. Pod względem wykresów rozproszenia 2 zmiennych lub histogramów 2d). Jednak dla tej liczby parametrów wydaje się niewykonalne narysowanie tablicy o wymiarach 200 x 200 (chyba że wydrukuję ją i powiesię na ścianie). Z …

10 correlation data-visualization multivariate-analysis scatterplot

3

Jak wizualizować bayesowską dobroć do regresji logistycznej

Dla problemu bayesowskiej regresji logistycznej stworzyłem rozkład predykcyjny boczny. Próbuję z rozkładu predykcyjnego i otrzymuję tysiące próbek (0,1) dla każdej mojej obserwacji. Wizualizacja dobroci dopasowania jest mniej niż interesująca, na przykład: Ten wykres pokazuje 10 000 próbek + zaobserwowany punkt odniesienia (sposób w lewo można dostrzec czerwoną linię: tak, to …

10 bayesian data-visualization classification goodness-of-fit binary-data

Pytania otagowane jako data-visualization