Drugi komentarz @ suncoolsu: wymiarowość twojego zestawu danych nie jest jedynym kryterium, które powinno zorientować cię w kierunku konkretnego oprogramowania. Na przykład, jeśli planujesz po prostu wykonywać bezobsługowe tworzenie klastrów lub używać PCA, istnieje kilka dedykowanych narzędzi, które radzą sobie z dużymi zestawami danych, jak zwykle spotyka się w badaniach genomowych.
Teraz, R (64 bity) obsługuje dużych danych całkiem dobrze, i nadal mieć możliwość używania pamięci dyskowej zamiast dostępu do pamięci RAM, ale zobaczyć CRAN Zadanie Zobacz wysoka wydajność i obliczeń równoległych z R . Standardowy GLM z łatwością pomieści 20 000 obs. (ale patrz także speedglm ) w rozsądnym czasie, jak pokazano poniżej:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Aby dać bardziej konkretną ilustrację, użyłem R do przetworzenia i analizy dużych danych genetycznych (800 osobników x 800 tys. SNP , gdzie głównym modelem statystycznym był warstwowy GLM z kilkoma współzmiennymi (2 min); było to możliwe dzięki wydajnemu R i Kody C dostępne w pakiecie snpMatrix (dla porównania, ten sam rodzaj modelu zajął około 8 minut przy użyciu dedykowanego oprogramowania C ++ ( plink ). Pracowałem również nad badaniem klinicznym (12 tys. Pacjentów x 50 zmiennych) i R odpowiada moim potrzebom Wreszcie, o ile mi wiadomo, pakiet lme4 jest jedynym oprogramowaniem, które pozwala dopasować model efektów mieszanych do niezrównoważonych i dużych zbiorów danych (jak ma to miejsce w przypadku oceny edukacyjnej na dużą skalę).
Stata / SE to kolejne oprogramowanie, które może obsługiwać duży zestaw danych . SAS i SPSS to oprogramowanie oparte na plikach, więc będą obsługiwać duże ilości danych. Porównawczy przegląd oprogramowania do analizy danych jest dostępny w Narzędziu Data Mining: Które jest najlepsze dla CRM . Do wizualizacji istnieje również wiele opcji; być może dobrym początkiem jest grafika dużych zbiorów danych: wizualizacja miliona ( sprawdzona w JSS przez P Murrella) i wszystkie powiązane wątki na tej stronie.