Pytania otagowane jako large-data

„Duże dane” oznaczają sytuacje, w których liczba obserwacji (punktów danych) jest tak duża, że ​​wymaga zmian w sposobie myślenia analityka danych lub przeprowadzania analizy. (Nie mylić z „wysoką wymiarowością”).

4
Jak rzutować nowy wektor na przestrzeń PCA?
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
Czy naprawdę przeprowadzamy analizę regresji wielowymiarowej z * milionami * współczynników / zmiennych niezależnych?
Spędzam trochę czasu ucząc się uczenia maszynowego (przepraszam za rekurencję :) i nie mogłem zaintrygować się regułą wyboru Gradient Descent zamiast bezpośredniego rozwiązywania równań dla obliczania współczynników regresji, w przypadku wielowymiarowej regresji liniowej. Ogólna zasada: jeśli liczba funkcji (współczynniki odczytu / zmienne niezależne) wynosi od lub powyżej miliona, przejdź do …

6
Nieszablonowe opcje analizy danych
Używam SAS profesjonalnie od prawie 5 lat. Mam go zainstalowanego na swoim laptopie i często muszę analizować zestawy danych z 1000-2 000 zmiennych i setkami tysięcy obserwacji. Szukałem alternatyw dla SAS, które pozwalają mi przeprowadzać analizy zbiorów danych o podobnych rozmiarach. Jestem ciekawy, co inni ludzie używają w takich sytuacjach. …
18 r  sas  large-data 

5
Regresja Poissona z dużymi danymi: czy zmiana jednostki miary jest błędna?
Ze względu na silnię w rozkładzie Poissona oszacowanie modeli Poissona (na przykład przy użyciu maksymalnego prawdopodobieństwa) staje się niepraktyczne, gdy obserwacje są duże. Na przykład, jeśli próbuję oszacować model wyjaśniający liczbę samobójstw w danym roku (dostępne są tylko dane roczne) i powiedzmy, że są tysiące samobójstw każdego roku, czy błędne …

5
Algorytm online dla średniego bezwzględnego odchylenia i dużego zestawu danych
Mam mały problem, który doprowadza mnie do szału. Muszę napisać procedurę dla procesu akwizycji online wielowymiarowych szeregów czasowych. Za każdym razem (na przykład 1 sekundę) otrzymuję nową próbkę, która jest w zasadzie wektorem zmiennoprzecinkowym o rozmiarze N. Operacja, którą muszę wykonać, jest nieco trudna: Dla każdej nowej próbki obliczam wartości …

4
Jak mogę poprawić swoją analizę wpływu reputacji na głosowanie?
Niedawno przeprowadziłem analizę wpływu reputacji na opinie (patrz blog ), a następnie miałem kilka pytań na temat być może bardziej pouczającej (lub bardziej odpowiedniej) analizy i grafiki. Tak więc kilka pytań (i nie krępuj się odpowiadać każdemu w szczególności i ignoruj ​​pozostałe): W obecnym wcieleniu nie miałem na myśli wyśrodkowania …

5
Dobry sposób na wyświetlanie wielu danych w formie graficznej
Pracuję nad projektem, który obejmuje 14 zmiennych i 345 000 obserwacji danych mieszkaniowych (takich jak rok budowy, powierzchnia, sprzedana cena, okręg zamieszkania itp.). Niepokoję się próbą znalezienia dobrych technik graficznych i bibliotek R, które zawierają niezłe techniki kreślenia. Już widzę, co w ggplot i sieci będą ładnie działały, i myślę …

4
Przedziały ufności, gdy wielkość próbki jest bardzo duża
Moje pytanie można by sformułować jako „jak ocenić błąd próbkowania przy użyciu dużych zbiorów danych”, szczególnie w przypadku publikacji w czasopiśmie. Oto przykład ilustrujący wyzwanie. Z bardzo dużego zestawu danych (> 100 000 unikalnych pacjentów i ich przepisanych leków ze 100 szpitali) chciałem oszacować odsetek pacjentów przyjmujących określony lek. Uzyskanie …


3
Klaster Big Data w R i czy próbkowanie jest istotne?
Jestem nowy w nauce o danych i mam problem ze znalezieniem klastrów w zestawie danych z 200 000 wierszy i 50 kolumnami w R. Ponieważ dane mają zarówno zmienne liczbowe, jak i nominalne, metody takie jak K-średnie, które wykorzystują euklidesową miarę odległości, nie wydają się właściwym wyborem. Zwracam się więc …

5
Dlaczego spadek gradientu jest nieefektywny w przypadku dużych zbiorów danych?
Załóżmy, że nasz zestaw danych zawiera 1 milion przykładów, tj. , i chcemy użyć opadania gradientu, aby przeprowadzić regresję logistyczną lub liniową na tym zestawie danych.x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} Co to jest z metodą opadania gradientu, która sprawia, że ​​jest nieefektywna? Przypomnijmy, że krok opadania gradientu w czasie jest określony przez:ttt …


3
Jak uruchomić regresję liniową w sposób równoległy / rozproszony dla ustawienia dużych zbiorów danych?
Pracuję nad bardzo dużym problemem z regresją liniową, przy czym rozmiar danych jest tak duży, że muszą być przechowywane na klastrze maszyn. Będzie o wiele za duży, aby zgrupować wszystkie próbki w pamięci jednego komputera (nawet dysku) Aby wykonać regresję tych danych, myślę o podejściu równoległym, tj. Uruchom regresję dla …

5
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Dobroć dopasowania dla bardzo dużych próbek
Codziennie zbieram bardzo duże próbki (> 1 000 000) danych kategorycznych i chcę, aby dane wyglądały „znacząco” różnie między poszczególnymi dniami w celu wykrycia błędów w gromadzeniu danych. Myślałem, że użycie testu dobrego dopasowania (w szczególności testu G) byłoby dobrym dopasowaniem (gra słów). Oczekiwany rozkład wynika z rozkładu z poprzedniego …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.