Statystyki i duże zbiory danych data-visualization

2

Różnica między PCA a grupowaniem widmowym dla małego zestawu próbek cech logicznych

Mam zestaw danych 50 próbek. Każda próbka składa się z 11 (prawdopodobnie skorelowanych) cech logicznych. Chciałbym przedstawić, w jaki sposób wizualizować te próbki na wykresie 2D i sprawdzić, czy wśród 50 próbek znajdują się klastry / grupy. Wypróbowałem następujące dwa podejścia: (a) Uruchom PCA na matrycy 50x11 i wybierz pierwsze …

10 clustering data-visualization pca k-means spectral-analysis

4

Model historii zdarzeń dyskretnych (przeżycie) w R.

Próbuję dopasować model czasu dyskretnego do R, ale nie jestem pewien, jak to zrobić. Czytałem, że możesz zorganizować zmienną zależną w różnych wierszach, po jednym dla każdej obserwacji czasu, i użyć glmfunkcji z łączem logit lub cloglog. W tym sensie, mam trzy kolumny: ID, Event(1 lub 0, w każdym okresie …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

3

Czy istnieje górna granica liczby interwałów w histogramie?

Przeczytałem kilka artykułów i fragmentów książek, które wyjaśniają, jak wybrać dobrą liczbę interwałów (pojemników) dla histogramu zestawu danych, ale zastanawiam się, czy istnieje twarda maksymalna liczba interwałów na podstawie liczby punktów w zestaw danych lub inne kryterium. Wstęp: Powód, dla którego pytam, jest to, że próbuję napisać oprogramowanie na podstawie …

10 distributions data-visualization histogram

1

R regresja liniowa zmienna kategorialna „ukryta” wartość

To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

3

Jak utworzyć diagram słupkowy, w którym słupki są obok siebie w R

Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Chcę utworzyć bardiagram dla tych danych w R (odczytany z pliku CVS): Experiment_Name MetricA MetricB Just_X 2 10 Just_X_i_Y 3 20 mieć następujący schemat: Jestem …

9 r data-visualization barplot

1

Który model głębokiego uczenia może klasyfikować kategorie, które nie wykluczają się wzajemnie

Przykłady: w opisie stanowiska mam zdanie: „Starszy inżynier Java w Wielkiej Brytanii”. Chcę użyć modelu głębokiego uczenia się, aby przewidzieć go jako 2 kategorie: English i IT jobs. Jeśli użyję tradycyjnego modelu klasyfikacji, może on przewidzieć tylko 1 etykietę z softmaxfunkcją na ostatniej warstwie. Dlatego mogę użyć 2 modelowych sieci …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

Jak mogę wyróżnić hałaśliwe łatki w szeregu czasowym?

Mam wiele danych szeregów czasowych - poziomy wody i prędkości w funkcji czasu. Jest to wynik symulacji modelu hydraulicznego. W ramach procesu przeglądu, aby potwierdzić, że model działa zgodnie z oczekiwaniami, muszę wykreślić każdy szereg czasowy, aby upewnić się, że w danych nie ma żadnych „wahnięć” (patrz przykład mniejszego wahania …

9 time-series data-visualization change-point

1

Co wskazuje na kształt klina wykresu PCA?

W swojej pracy w autoencoders do klasyfikacji tekst Hinton i Salakhutdinov wykazały wykres wytwarzanego przez 2 wymiarowe LSA (co jest ściśle związane z PCA) . Stosując PCA do absolutnie różnych nieco nieco wymiarowych danych, otrzymałem podobnie wyglądający wykres: (z wyjątkiem tego przypadku naprawdę chciałem wiedzieć, czy jest jakaś struktura wewnętrzna). …

9 data-visualization pca

2

Jakie dziedziny naukowe badają, w jaki sposób ludzie interpretują podsumowania ilościowe i wizualizacje?

Istnieje mnóstwo dobrze znanych zasobów oferujących porady dotyczące wizualizacji danych. (Np. Tufte, Stephen Few i in. , Nathan Yau .) Ale do jakich dziedzin można się zwrócić w celu uzyskania odpowiedzi na takie pytania: Czy krytyka wykresu kołowego jest istotna w praktyce? Czy ludzie znacznie lepiej interpretują długość skali liniowej …

9 data-visualization interpretation terminology presentation

5

Jaki jest dobry sposób graficznego przedstawienia bardzo dużej liczby sparowanych punktów danych?

W mojej dziedzinie zwykłym sposobem wykreślania sparowanych danych jest seria cienkich nachylonych segmentów linii, nakładających je na medianę i CI mediany dla dwóch grup: Jednak ten rodzaj wykresu staje się znacznie trudniejszy do odczytania, ponieważ liczba punktów danych staje się bardzo duża (w moim przypadku mam rzędu 10000 par): Zmniejszenie …

9 generalized-linear-model data-visualization modeling interpretation paired-data

2

Jak przedstawić zużycie kWh na rok względem średniej temperatury?

Dla zabawy chcę zobrazować moje miesięczne zużycie energii w gospodarstwach domowych w ujęciu rocznym. Chciałbym jednak dołączyć pewne odniesienie do miesięcznej temperatury, dzięki czemu mogę ustalić, czy mój dom lub zachowanie poprawia się, pogarsza lub utrzymuje stałe w odniesieniu do zużycia kWh. Dane, z którymi pracuję: +----------+--------+-----------+----------------+----------+-----------+------------+ | Month | …

9 data-visualization

3

Funkcja przenoszenia w modelach prognostycznych - interpretacja

Zajmuję się modelowaniem ARIMA wzbogaconym o zmienne egzogeniczne do celów modelowania promocyjnego i trudno mi to wytłumaczyć użytkownikom biznesowym. W niektórych przypadkach pakiety oprogramowania kończą się prostą funkcją przesyłania, tj. Parametrem * Zmienna egzogeniczna. W tym przypadku interpretacja jest łatwa, tzn. Działanie promocyjne X (reprezentowane przez egzogenną zmienną binarną) wpływa …

9 time-series data-visualization forecasting arima causality

2

Jak powstaje wykres „United States of Reddit”?

Poniżej znajduje się wykres z p. 202 Christiana Ruddera Dataclysm , choć został stworzony przez Jamesa Dowdella. To ilustruje relacje między różnymi 200 najpopularniejszymi subredditami, które są obszarami zainteresowania na reddit.com, gdzie użytkownicy mogą przesyłać linki, komentarze i głosy. Są one podobne do tagów na tej stronie. Rozmiar regionów subredditów …

9 clustering data-visualization

2

Wizualne podsumowanie bałaganu skierowanych segmentów linii

Mam zestaw danych milionów ukierunkowanych segmentów linii. Segmenty linii są sekwencyjne - jest to zmienna klimatyczna (ciepło jawne), z obserwowanymi i symulowanymi wartościami w odstępach półgodzinnych. Staram się szukać wzorców w działaniu symulacji. Patrzę na wykres rozrzutu wartości obs vs vs i łączę je z segmentami linii (strzałki wskazują kierunek …

9 descriptive-statistics vector-fields data-visualization

4

Pomóc zinterpretować fabułę interakcji?

Mam problem z interpretacją wykresów interakcji, gdy występuje interakcja między dwiema zmiennymi niezależnymi. Poniższe wykresy pochodzą z tej strony: Tutaj i są zmiennymi niezależnymi, a jest zmienną zależną.ZAAAbBBD V.DVDV Pytanie: Występuje interakcja i główny efekt , ale brak głównego efektuZAAAbBB Można zauważyć, że im wyższa wartość , tym wyższa wartość …

9 data-visualization interaction interpretation

Pytania otagowane jako data-visualization