Pytania otagowane jako large-data

„Duże dane” oznaczają sytuacje, w których liczba obserwacji (punktów danych) jest tak duża, że ​​wymaga zmian w sposobie myślenia analityka danych lub przeprowadzania analizy. (Nie mylić z „wysoką wymiarowością”).

1
Testowanie dużego zestawu danych pod kątem normalności - jak i czy jest wiarygodny?
Badam część mojego zestawu danych zawierającą 46840 podwójnych wartości od 1 do 1690 pogrupowanych w dwie grupy. Aby przeanalizować różnice między tymi grupami, zacząłem od zbadania rozkładu wartości w celu wybrania właściwego testu. Po poradniku na temat testowania normalności zrobiłem qqplot, histogram i boxplot. To nie wydaje się być normalnym …

4
Testowanie hipotez za pomocą Big Data
Jak przeprowadzasz testy hipotez z użyciem dużych zbiorów danych? Napisałem następujący skrypt MATLAB, aby podkreślić moje zamieszanie. Wystarczy wygenerować dwie losowe serie i przeprowadzić prostą regresję liniową jednej zmiennej na drugiej. Wykonuje tę regresję kilka razy, używając różnych wartości losowych i zgłasza średnie. Co się dzieje, gdy zwiększam rozmiar próbki, …



1
Czy możliwa jest nawet PCA na dużą skalę?
Klasycznym sposobem analizy głównych składowych (PCA) jest wykonanie macierzy danych wejściowych, których kolumny mają zerową średnią (wtedy PCA może „maksymalizować wariancję”). Można to łatwo osiągnąć poprzez centrowanie kolumn. Jednak gdy matryca wejściowa jest rzadka, matryca środkowa będzie już rzadsza i - jeśli matryca jest bardzo duża - nie będzie już …


2
Czy ma sens obliczanie przedziałów ufności i testowanie hipotez, gdy dostępne są dane z całej populacji?
Czy ma sens obliczanie przedziałów ufności i testowanie hipotez, gdy dostępne są dane z całej populacji? Moim zdaniem odpowiedź brzmi „nie”, ponieważ możemy dokładnie obliczyć prawdziwe wartości parametrów. Ale jaka jest maksymalna proporcja danych z pierwotnej populacji, która pozwala nam korzystać z wyżej wymienionych technik?

3
Jak interaktywnie wyświetlać dane dużych szeregów czasowych?
Często mam do czynienia z rozsądną ilością danych szeregów czasowych, 50-200 milionów podwójnych z powiązanymi znacznikami czasu i chciałbym je wizualizować dynamicznie. Czy istnieje oprogramowanie umożliwiające to skutecznie? Co powiesz na biblioteki i formaty danych? Zoom-cache jest jednym z przykładów bibliotek skupiających się na dużych seriach czasowych. W Zoom-cache dane …


3
Podejścia przy uczeniu się z ogromnych zestawów danych?
Zasadniczo istnieją dwa typowe sposoby uczenia się przeciwko ogromnym zestawom danych (gdy napotykasz ograniczenia czasowe / przestrzenne): Oszukiwanie :) - użyj tylko „zarządzalnego” podzbioru do treningu. Utrata dokładności może być nieistotna z uwagi na prawo malejących zwrotów - predykcyjne działanie modelu często spłaszcza się na długo przed włączeniem do niego …

1
K-oznacza: ile iteracji w sytuacjach praktycznych?
Nie mam doświadczenia w branży eksploracji danych ani dużych zbiorów danych, więc chciałbym usłyszeć, jak dzielisz się doświadczeniami. Czy ludzie faktycznie używają k-średnich, PAM, CLARA itp. Na naprawdę dużym zbiorze danych? Czy po prostu losowo wybierają z niego próbkę? Jeśli po prostu pobiorą próbkę zestawu danych, czy wynik byłby wiarygodny, …

2
Regresja procesu Gaussa dla zestawów danych wielowymiarowych
Chciałem tylko sprawdzić, czy ktoś ma jakiekolwiek doświadczenie w stosowaniu regresji procesu Gaussa (GPR) w zestawach danych o dużych wymiarach. Zajmuję się niektórymi z różnych rzadkich metod GPR (np. Rzadkie pseudo-wejściowe GPR), aby zobaczyć, co może zadziałać w przypadku zestawów danych o dużych wymiarach, w których wybór cech jest idealnie …

2
Skalowalna redukcja wymiarów
Biorąc pod uwagę stałą liczbę funkcji, Barnes-Hut t-SNE ma złożoność , losowe projekcje i PCA mają złożoność co czyni je „przystępnymi” dla bardzo dużych zestawów danych.O(nlogn)O(nlog⁡n)O(n\log n)O(n)O(n)O(n) Z drugiej strony metody oparte na skalowaniu wielowymiarowym mają złożoność .O(n2)O(n2)O(n^2) Czy istnieją inne techniki redukcji wymiarów (poza trywialnymi, jak na przykład spojrzenie …


2
Parametryczne, półparametryczne i nieparametryczne ładowanie początkowe dla modeli mieszanych
Z tego artykułu pochodzą następujące przeszczepy . Jestem nowicjuszem w bootstrapie i próbuję zaimplementować parametryczne, semiparametryczne i nieparametryczne bootstrapowanie dla liniowego modelu mieszanego z R bootpakietem. Kod R. Oto mój Rkod: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.