Statystyki i duże zbiory danych data-visualization

8

Graficzny przegląd danych (podsumowanie) w R

Jestem pewien, że wcześniej spotkałem taką funkcję w pakiecie R. Ale po rozległym Googlingu nigdzie nie mogę jej znaleźć. Funkcja, o której myślę, wygenerowała podsumowanie graficzne dla danej zmiennej, generując dane wyjściowe z niektórymi wykresami (histogram i być może wykres z pudełkiem i wąsami) oraz tekstem zawierającym takie szczegóły, jak …

39 r data-visualization descriptive-statistics eda

4

Czy podczas pisania z R powinienem nauczyć się ggplot2 lub ggvis?

Czy podczas pisania z R powinienem nauczyć się ggplot2 lub ggvis? Niekoniecznie chcę się uczyć obu, jeśli jeden z nich jest pod każdym względem lepszy. Dlaczego społeczność R wciąż tworzy nowe pakiety z nakładającymi się funkcjami? W blogu wprowadzającym nie wspomniano ani słowa o tym, dlaczego ggvis jest tworzony, skoro …

38 r data-visualization software

3

Czy PCA będzie działać dla typów danych boolowskich (binarnych)?

Chcę zmniejszyć wymiarowość układów wyższego rzędu i uchwycić większość kowariancji na polu najlepiej dwuwymiarowym lub jednowymiarowym. Rozumiem, że można to zrobić za pomocą analizy głównych składników, i używałem PCA w wielu scenariuszach. Jednak nigdy nie użyłem go z typami danych boolowskich i zastanawiałem się, czy warto robić PCA z tym …

38 pca data-visualization binary-data dimensionality-reduction correspondence-analysis

5

Jak wizualizować / zrozumieć, co robi sieć neuronowa?

Sieci neuronowe są często traktowane jako „czarne skrzynki” ze względu na ich złożoną strukturę. Nie jest to idealne, ponieważ często korzystne jest intuicyjne zrozumienie, w jaki sposób model działa wewnętrznie. Jakie są metody wizualizacji działania wyszkolonej sieci neuronowej? Alternatywnie, w jaki sposób możemy wyodrębnić łatwo przyswajalne opisy sieci (np. Ten …

37 data-visualization neural-networks

2

Kiedy t-SNE wprowadza w błąd?

Cytując jednego z autorów: t-Distributed Stochastic Neighbor Embedding (t-SNE) to ( nagradzana ) technika redukcji wymiarowości, która szczególnie dobrze nadaje się do wizualizacji wysokowymiarowych zestawów danych. Brzmi więc całkiem nieźle, ale tak mówi Autor. Kolejny cytat autora (dotyczy: wspomnianego wyżej konkursu): Co zabrałeś z tego konkursu? Zawsze najpierw zwizualizuj swoje …

37 data-visualization dimensionality-reduction tsne

3

Dowody eksperymentalne wspierające wizualizacje w stylu Tufte?

P: Czy istnieją eksperymentalne dowody potwierdzające minimalistyczne wizualizacje danych w stylu Tufte nad wizualizacjami śmieciowymi, powiedzmy, Nigela Holmesa ? Zapytałem, jak dodać śmieci z wykresów do wykresów R tutaj, a osoby udzielające odpowiedzi rzuciły we mnie ogromną ilością snarków. Zatem z pewnością muszą istnieć pewne eksperymentalne dowody, do których nie …

36 data-visualization

4

Jak interpretować średnią z fabuły Silhouette?

Próbuję użyć wykresu sylwetki, aby określić liczbę klastrów w moim zestawie danych. Biorąc pod uwagę zestaw danych Train , użyłem następującego kodu Matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` Powstały wykres …

34 data-visualization clustering matlab

3

Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?

Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

2

Czy istnieje wariant boxplot dla danych rozproszonych Poisson?

Chciałbym wiedzieć, czy istnieje wariant boxplot przystosowany do danych rozproszonych Poissona (a może innych dystrybucji)? Przy rozkładzie Gaussa, wąsy umieszczone na L = Q1 - 1,5 IQR i U = Q3 + 1,5 IQR, wykres pudełkowy ma właściwość, że będzie mniej więcej tyle niskich wartości odstających (punkty poniżej L), ile …

33 data-visualization poisson-distribution boxplot

3

Zestawy danych zbudowane w celu podobnym do kwartetu Anscombe

Właśnie natknąłem się na kwartet Anscombe (cztery zestawy danych, które mają prawie nie do odróżnienia statystyki opisowe, ale wyglądają zupełnie inaczej po wydrukowaniu) i jestem ciekawy, czy istnieją inne mniej lub bardziej znane zestawy danych, które zostały stworzone, aby pokazać znaczenie niektórych aspektów analiz statystycznych.

32 regression data-visualization dataset

2

Przeprowadzanie testu statystycznego po wizualizacji danych - pogłębianie danych?

Zaproponuję to pytanie za pomocą przykładu. Załóżmy, że mam zestaw danych, na przykład zestaw danych cen mieszkań w Bostonie, w którym mam zmienne ciągłe i kategoryczne. Tutaj mamy zmienną „jakości”, od 1 do 10, oraz cenę sprzedaży. Mogę rozdzielić dane na domy o „niskiej”, „średniej” i „wysokiej” jakości (arbitralnie), tworząc …

31 hypothesis-testing data-visualization p-value dataset inference

5

Zalecenia dotyczące koloru i grubości linii dla wykresów linii

Wiele napisano na temat wyboru kolorów przyjaznych dla ślepych kolorów dla map, wielokątów i ogólnie zacienionych regionów (patrz na przykład http://colorbrewer2.org ). Nie byłem w stanie znaleźć zaleceń dotyczących kolorów linii i różnej grubości linii dla wykresów linii. Cele to: łatwo rozróżniają linie, nawet gdy się przeplatają linie są łatwe …

31 r data-visualization

2

Jak wykreślić granicę decyzyjną klasyfikatora k-najbliższego sąsiada na podstawie elementów uczenia statystycznego?

Chcę wygenerować fabułę opisaną w książce ElemStatLearn „Elementy statystycznego uczenia się: eksploracja danych, wnioskowanie i przewidywanie. Drugie wydanie” Trevora Hastiego i Roberta Tibshirani i Jerome Friedmana. Fabuła jest: Zastanawiam się, jak mogę stworzyć ten dokładny wykres R, szczególnie zwróć uwagę na grafikę i obliczenia siatki, aby pokazać granicę.

31 r data-visualization k-nearest-neighbour

3

Wizualizacja miliona edycji PCA

Czy możliwe jest zwizualizowanie wyników analizy głównych składników w sposób zapewniający lepszy wgląd niż tylko tabele podsumowań? Czy można to zrobić, gdy liczba obserwacji jest duża, powiedzmy ~ 1e4? I czy można to zrobić w R [mile widziane inne środowiska]?

31 r data-visualization pca biplot

8

Narzędzia Open Source do wizualizacji danych wielowymiarowych?

Jakie narzędzia open source, oprócz gnuplot i ggobi , używają do wizualizacji danych wielowymiarowych? Gnuplot to mniej więcej podstawowy pakiet kreślarski. Ggobi może robić wiele fajnych rzeczy, takich jak: animować dane wzdłuż wymiaru lub między dyskretnymi kolekcjami animować kombinacje liniowe zmieniające współczynniki oblicz główne składniki i inne transformacje wizualizuj i …

31 data-visualization open-source

Pytania otagowane jako data-visualization