„Duże dane” oznaczają sytuacje, w których liczba obserwacji (punktów danych) jest tak duża, że wymaga zmian w sposobie myślenia analityka danych lub przeprowadzania analizy. (Nie mylić z „wysoką wymiarowością”).
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
Spędzam trochę czasu ucząc się uczenia maszynowego (przepraszam za rekurencję :) i nie mogłem zaintrygować się regułą wyboru Gradient Descent zamiast bezpośredniego rozwiązywania równań dla obliczania współczynników regresji, w przypadku wielowymiarowej regresji liniowej. Ogólna zasada: jeśli liczba funkcji (współczynniki odczytu / zmienne niezależne) wynosi od lub powyżej miliona, przejdź do …
Używam SAS profesjonalnie od prawie 5 lat. Mam go zainstalowanego na swoim laptopie i często muszę analizować zestawy danych z 1000-2 000 zmiennych i setkami tysięcy obserwacji. Szukałem alternatyw dla SAS, które pozwalają mi przeprowadzać analizy zbiorów danych o podobnych rozmiarach. Jestem ciekawy, co inni ludzie używają w takich sytuacjach. …
Ze względu na silnię w rozkładzie Poissona oszacowanie modeli Poissona (na przykład przy użyciu maksymalnego prawdopodobieństwa) staje się niepraktyczne, gdy obserwacje są duże. Na przykład, jeśli próbuję oszacować model wyjaśniający liczbę samobójstw w danym roku (dostępne są tylko dane roczne) i powiedzmy, że są tysiące samobójstw każdego roku, czy błędne …
Mam mały problem, który doprowadza mnie do szału. Muszę napisać procedurę dla procesu akwizycji online wielowymiarowych szeregów czasowych. Za każdym razem (na przykład 1 sekundę) otrzymuję nową próbkę, która jest w zasadzie wektorem zmiennoprzecinkowym o rozmiarze N. Operacja, którą muszę wykonać, jest nieco trudna: Dla każdej nowej próbki obliczam wartości …
Niedawno przeprowadziłem analizę wpływu reputacji na opinie (patrz blog ), a następnie miałem kilka pytań na temat być może bardziej pouczającej (lub bardziej odpowiedniej) analizy i grafiki. Tak więc kilka pytań (i nie krępuj się odpowiadać każdemu w szczególności i ignoruj pozostałe): W obecnym wcieleniu nie miałem na myśli wyśrodkowania …
Pracuję nad projektem, który obejmuje 14 zmiennych i 345 000 obserwacji danych mieszkaniowych (takich jak rok budowy, powierzchnia, sprzedana cena, okręg zamieszkania itp.). Niepokoję się próbą znalezienia dobrych technik graficznych i bibliotek R, które zawierają niezłe techniki kreślenia. Już widzę, co w ggplot i sieci będą ładnie działały, i myślę …
Moje pytanie można by sformułować jako „jak ocenić błąd próbkowania przy użyciu dużych zbiorów danych”, szczególnie w przypadku publikacji w czasopiśmie. Oto przykład ilustrujący wyzwanie. Z bardzo dużego zestawu danych (> 100 000 unikalnych pacjentów i ich przepisanych leków ze 100 szpitali) chciałem oszacować odsetek pacjentów przyjmujących określony lek. Uzyskanie …
Tradycyjnie używamy modelu mieszanego do modelowania danych podłużnych, tj. Danych takich jak: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 możemy przyjąć losowe przechwytywanie lub nachylenie dla różnych …
Jestem nowy w nauce o danych i mam problem ze znalezieniem klastrów w zestawie danych z 200 000 wierszy i 50 kolumnami w R. Ponieważ dane mają zarówno zmienne liczbowe, jak i nominalne, metody takie jak K-średnie, które wykorzystują euklidesową miarę odległości, nie wydają się właściwym wyborem. Zwracam się więc …
Załóżmy, że nasz zestaw danych zawiera 1 milion przykładów, tj. , i chcemy użyć opadania gradientu, aby przeprowadzić regresję logistyczną lub liniową na tym zestawie danych.x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} Co to jest z metodą opadania gradientu, która sprawia, że jest nieefektywna? Przypomnijmy, że krok opadania gradientu w czasie jest określony przez:ttt …
Mając ograniczoną wiedzę na temat SVM, jest to dobre dla krótkiej i grubej macierzy danych (wiele funkcji i niezbyt wielu instancji), ale nie dla dużych zbiorów danych.XXX Rozumiem, że jednym z powodów jest to, że macierz jądra jest macierzą , gdzie to liczba wystąpień w danych. Jeśli powiemy, 100K danych, …
Pracuję nad bardzo dużym problemem z regresją liniową, przy czym rozmiar danych jest tak duży, że muszą być przechowywane na klastrze maszyn. Będzie o wiele za duży, aby zgrupować wszystkie próbki w pamięci jednego komputera (nawet dysku) Aby wykonać regresję tych danych, myślę o podejściu równoległym, tj. Uruchom regresję dla …
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
Codziennie zbieram bardzo duże próbki (> 1 000 000) danych kategorycznych i chcę, aby dane wyglądały „znacząco” różnie między poszczególnymi dniami w celu wykrycia błędów w gromadzeniu danych. Myślałem, że użycie testu dobrego dopasowania (w szczególności testu G) byłoby dobrym dopasowaniem (gra słów). Oczekiwany rozkład wynika z rozkładu z poprzedniego …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.