Jestem nowy w nauce o danych i mam problem ze znalezieniem klastrów w zestawie danych z 200 000 wierszy i 50 kolumnami w R.
Ponieważ dane mają zarówno zmienne liczbowe, jak i nominalne, metody takie jak K-średnie, które wykorzystują euklidesową miarę odległości, nie wydają się właściwym wyborem. Zwracam się więc do PAM, agnes i hclust, który przyjmuje jako dane macierz odległości.
Metoda daisy może działać na danych mieszanych, ale macierz odległości jest po prostu zbyt duża: 200 000 razy 200 000 jest znacznie większa niż 2 ^ 31-1 (limit długości wektora przed R 3.0.0.)
Nowy R 3.0.0 wydany wczoraj obsługuje długie wektory o długości większej niż 2 ^ 31-1. Ale podwójna matryca 200 000 na 200 000 wymaga ciągłej pamięci RAM większej niż 16 Gb, co nie jest możliwe na moim komputerze.
Czytam o obliczeniach równoległych i pakiecie bigmemory i nie jestem pewien, czy one pomogą: jeśli użyję daisy, wygeneruje dużą matrycę, która i tak nie zmieści się w pamięci.
Przeczytałem również o poście o pobieraniu próbek: czy pobieranie próbek jest istotne w czasach „dużych zbiorów danych”?
Czy w moim przypadku istotne jest zastosowanie próbkowania w zbiorze danych, skupienie w próbce, a następnie wywnioskowanie struktury całego zestawu danych?
Czy możesz prosić o sugestie? Dziękuję Ci!
O mojej maszynie:
Wersja R 3.0.0 (2013-04-03)
Platforma: x86_64-w64-mingw32 / x64 (64-bit)
System operacyjny: Windows 7 64bit
RAM: 16,0 GB