„Duże dane” oznaczają sytuacje, w których liczba obserwacji (punktów danych) jest tak duża, że wymaga zmian w sposobie myślenia analityka danych lub przeprowadzania analizy. (Nie mylić z „wysoką wymiarowością”).
Badam część mojego zestawu danych zawierającą 46840 podwójnych wartości od 1 do 1690 pogrupowanych w dwie grupy. Aby przeanalizować różnice między tymi grupami, zacząłem od zbadania rozkładu wartości w celu wybrania właściwego testu. Po poradniku na temat testowania normalności zrobiłem qqplot, histogram i boxplot. To nie wydaje się być normalnym …
Jak przeprowadzasz testy hipotez z użyciem dużych zbiorów danych? Napisałem następujący skrypt MATLAB, aby podkreślić moje zamieszanie. Wystarczy wygenerować dwie losowe serie i przeprowadzić prostą regresję liniową jednej zmiennej na drugiej. Wykonuje tę regresję kilka razy, używając różnych wartości losowych i zgłasza średnie. Co się dzieje, gdy zwiększam rozmiar próbki, …
Szukam modelu między cenami energii a pogodą. Mam cenę MWatt kupioną między krajami Europy i wiele wartości pogodowych (pliki Grib). Co godzinę przez okres 5 lat (2011-2015). Cena za dzień To jest dziennie przez jeden rok. Mam to na godziny przez 5 lat. Przykład pogody 3Dscatterplot, w kelwinach, przez godzinę. …
Jestem R noobem, który jest zobowiązany do przeprowadzania różnego rodzaju analiz na dużych zestawach danych w R. Tak więc, rozglądając się po tej stronie i gdzie indziej, wydawało mi się, że wiąże się z nią wiele ezoterycznych i mniej znanych problemów - takich jak z którego pakietu skorzystać, jakie przekształcenia …
Klasycznym sposobem analizy głównych składowych (PCA) jest wykonanie macierzy danych wejściowych, których kolumny mają zerową średnią (wtedy PCA może „maksymalizować wariancję”). Można to łatwo osiągnąć poprzez centrowanie kolumn. Jednak gdy matryca wejściowa jest rzadka, matryca środkowa będzie już rzadsza i - jeśli matryca jest bardzo duża - nie będzie już …
Aby lepiej zadać moje pytanie, podałem poniżej niektóre wyniki zarówno modelu zmiennego 16 ( fit), jak i modelu zmiennego 17 ( fit2) (wszystkie zmienne predykcyjne w tych modelach są ciągłe, a jedyną różnicą między tymi modelami jest to, że fitnie zawierają zmienną 17 (var17)): fit Model Likelihood Discrimination Rank Discrim. …
Czy ma sens obliczanie przedziałów ufności i testowanie hipotez, gdy dostępne są dane z całej populacji? Moim zdaniem odpowiedź brzmi „nie”, ponieważ możemy dokładnie obliczyć prawdziwe wartości parametrów. Ale jaka jest maksymalna proporcja danych z pierwotnej populacji, która pozwala nam korzystać z wyżej wymienionych technik?
Często mam do czynienia z rozsądną ilością danych szeregów czasowych, 50-200 milionów podwójnych z powiązanymi znacznikami czasu i chciałbym je wizualizować dynamicznie. Czy istnieje oprogramowanie umożliwiające to skutecznie? Co powiesz na biblioteki i formaty danych? Zoom-cache jest jednym z przykładów bibliotek skupiających się na dużych seriach czasowych. W Zoom-cache dane …
Mam dostęp do bardzo dużego zestawu danych. Dane pochodzą z nagrań MEG osób słuchających fragmentów muzycznych z jednego z czterech gatunków. Dane są następujące: 6 tematów 3 eksperymentalne powtórzenia (epoki) 120 prób na epokę 8 sekund danych na próbę przy 500 Hz (= 4000 próbek) z 275 kanałów MEG Każdy …
Zasadniczo istnieją dwa typowe sposoby uczenia się przeciwko ogromnym zestawom danych (gdy napotykasz ograniczenia czasowe / przestrzenne): Oszukiwanie :) - użyj tylko „zarządzalnego” podzbioru do treningu. Utrata dokładności może być nieistotna z uwagi na prawo malejących zwrotów - predykcyjne działanie modelu często spłaszcza się na długo przed włączeniem do niego …
Nie mam doświadczenia w branży eksploracji danych ani dużych zbiorów danych, więc chciałbym usłyszeć, jak dzielisz się doświadczeniami. Czy ludzie faktycznie używają k-średnich, PAM, CLARA itp. Na naprawdę dużym zbiorze danych? Czy po prostu losowo wybierają z niego próbkę? Jeśli po prostu pobiorą próbkę zestawu danych, czy wynik byłby wiarygodny, …
Chciałem tylko sprawdzić, czy ktoś ma jakiekolwiek doświadczenie w stosowaniu regresji procesu Gaussa (GPR) w zestawach danych o dużych wymiarach. Zajmuję się niektórymi z różnych rzadkich metod GPR (np. Rzadkie pseudo-wejściowe GPR), aby zobaczyć, co może zadziałać w przypadku zestawów danych o dużych wymiarach, w których wybór cech jest idealnie …
Biorąc pod uwagę stałą liczbę funkcji, Barnes-Hut t-SNE ma złożoność , losowe projekcje i PCA mają złożoność co czyni je „przystępnymi” dla bardzo dużych zestawów danych.O(nlogn)O(nlogn)O(n\log n)O(n)O(n)O(n) Z drugiej strony metody oparte na skalowaniu wielowymiarowym mają złożoność .O(n2)O(n2)O(n^2) Czy istnieją inne techniki redukcji wymiarów (poza trywialnymi, jak na przykład spojrzenie …
Skalowalne algorytmy uczenia maszynowego wydają się być gwarem w dzisiejszych czasach. Każda firma obsługuje wyłącznie duże zbiory danych . Czy istnieje podręcznik omawiający, jakie algorytmy uczenia maszynowego można skalować za pomocą architektur równoległych, takich jak Map-Reduce, a które nie mogą? Lub jakieś odpowiednie dokumenty?
Z tego artykułu pochodzą następujące przeszczepy . Jestem nowicjuszem w bootstrapie i próbuję zaimplementować parametryczne, semiparametryczne i nieparametryczne bootstrapowanie dla liniowego modelu mieszanego z R bootpakietem. Kod R. Oto mój Rkod: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.