Nie ma powodu, aby przeglądać całe dane wyjściowe dużej ramki danych. Wyświetlanie dużych ramek danych lub manipulowanie nimi niepotrzebnie zużywa duże ilości zasobów komputera.
Cokolwiek robisz, możesz zrobić w miniaturze. Znacznie łatwiej jest pracować nad kodowaniem i manipulowaniem danymi, gdy ramka danych jest mała. Najlepszym sposobem pracy z dużymi danymi jest utworzenie nowej ramki danych, która pobiera tylko niewielką część lub małą próbkę dużej ramki danych. Następnie możesz eksplorować dane i kodować w mniejszej ramce danych. Po przejrzeniu danych i uruchomieniu kodu, wystarczy użyć tego kodu w większej ramce danych.
Najprostszym sposobem jest po prostu pobranie pierwszego n, liczby pierwszych wierszy z ramki danych za pomocą funkcji head (). Funkcja głowy drukuje tylko n, liczbę rzędów. Możesz utworzyć mini ramkę danych, używając funkcji head na dużej ramce danych. Poniżej wybrałem pierwsze 50 wierszy i przekazałem ich wartość do small_df. Zakłada się, że BigData jest plikiem danych pochodzącym z biblioteki otwartej dla tego projektu.
library(namedPackage)
df <- data.frame(BigData) # Assign big data to df
small_df <- head(df, 50) # Assign the first 50 rows to small_df
Będzie to działało przez większość czasu, ale czasami ramka dużych danych jest dostarczana ze wstępnie ustawionymi zmiennymi lub ze zmiennymi już zgrupowanymi. Jeśli duże dane są w ten sposób, należy pobrać losową próbkę wierszy z dużych danych. Następnie użyj następującego kodu:
df <- data.frame(BigData)
set.seed(1016) # set your own seed
df_small <- df[sample(nrow(df),replace=F,size=.03*nrow(df)),] # samples 3% rows
df_small # much smaller df