Pytania otagowane jako dplyr

Użyj tego tagu w przypadku pytań dotyczących funkcji z pakietu dplyr, takich jak group_by, summarize, filter i select.

1
Czy dplyr może łączyć na wielu kolumnach lub kluczu złożonym?
Zdaję sobie sprawę, że dplyrwersja 3.0 pozwala na dołączanie do różnych zmiennych: left_join(x, y, by = c("a" = "b")będzie pasować x.adoy.b Czy jednak można połączyć kombinację zmiennych, czy też muszę wcześniej dodać klucz złożony? Coś takiego: left_join(x, y, by = c("a c" = "b d")aby dopasować konkatenację [ x.ai x.c] …
111 r  dplyr 

5
Zbierz wiele zestawów kolumn
Mam dane z ankiety internetowej, w której respondenci 1-3 razy przechodzą przez pętlę pytań. Program badania (Qualtrics) zapisuje te dane w wielu kolumnach, to znaczy Q3.2 w badaniu będą miały kolumny Q3.2.1., Q3.2.2.oraz Q3.2.3.: df <- data.frame( id = 1:10, time = as.Date('2009-01-01') + 0:9, Q3.2.1. = rnorm(10, 0, 1), …
108 r  reshape  dplyr  qualtrics  tidyr 

6
Suma wielu kolumn za pomocą dplyr
Moje pytanie polega na zsumowaniu wartości w wielu kolumnach ramki danych i utworzeniu nowej kolumny odpowiadającej temu podsumowaniu za pomocą dplyr. Wpisy danych w kolumnach są binarne (0,1). Myślę o wierszowym odpowiedniku funkcji summarise_eachlub mutate_eachfunkcji dplyr. Poniżej znajduje się minimalny przykład ramki danych: library(dplyr) df=data.frame( x1=c(1,0,0,NA,0,1,1,NA,0,1), x2=c(1,1,NA,1,1,0,NA,NA,0,1), x3=c(0,1,0,1,1,0,NA,NA,0,1), x4=c(1,0,NA,1,0,0,NA,0,0,1), x5=c(1,1,NA,1,1,1,NA,1,0,1)) …
104 r  dplyr 

6
filtrowanie pełnych obserwacji w data.frame przy użyciu dplyr (usuwanie z uwzględnieniem wielkości liter)
Czy jest możliwe filtrowanie data.frame dla pełnych przypadków przy użyciu dplyr? complete.casesoczywiście z listą wszystkich zmiennych. Ale to jest a) rozwlekłe, gdy jest dużo zmiennych ib) niemożliwe, gdy nazwy zmiennych nie są znane (np. W funkcji przetwarzającej dowolną ramkę data.frame). library(dplyr) df = data.frame( x1 = c(1,2,3,NA), x2 = c(1,2,NA,5) …
98 r  dplyr  magrittr 

4
dplyr summarize: Odpowiednik „.drop = FALSE”, aby zachować grupy o zerowej długości na wyjściu
Podczas korzystania summarisez plyr„s ddplyfunkcji, puste kategorie są odrzucane domyślnie. Możesz zmienić to zachowanie, dodając .drop = FALSE. Jednak to nie działa w przypadku korzystania summarisez dplyr. Czy jest inny sposób na zachowanie pustych kategorii w wyniku? Oto przykład z fałszywymi danymi. library(dplyr) df = data.frame(a=rep(1:3,4), b=rep(1:2,6)) # Now add …
97 r  dplyr  plyr  tidyr 

6
dplyr: „Błąd w n (): funkcja nie powinna być wywoływana bezpośrednio”
Próbuję odtworzyć jeden z przykładów w pakiecie dplyr, ale pojawia się ten komunikat o błędzie. Spodziewam się, że nowa kolumna n będzie tworzona z częstotliwością każdej kombinacji. czego mi brakuje? Trzykrotnie sprawdziłem, czy pakiet jest załadowany. library(dplyr) # summarise peels off a single layer of grouping by_vs_am <- group_by(mtcars, vs, …

8
R dplyr: Upuść wiele kolumn
Mam ramkę danych i listę kolumn w tej ramce danych, które chciałbym usunąć. Użyjmy iriszbioru danych jako przykładu. Chciałbym spadać Sepal.Lengthi Sepal.Widthi używać tylko pozostałe kolumny. Jak to zrobić za pomocą selectlub select_z dplyrpakietu? Oto, czego próbowałem do tej pory: drop.cols <- c('Sepal.Length', 'Sepal.Width') iris %>% select(-drop.cols) Błąd w -drop.cols: …
96 r  dplyr 

6
Uzyskiwanie najwyższych wartości według grup
Oto przykładowa ramka danych: d <- data.frame( x = runif(90), grp = gl(3, 30) ) Chcę, aby podzbiór dzawierał wiersze z 5 górnymi wartościami xdla każdej wartości grp. Używając base-R, moje podejście wyglądałoby mniej więcej tak: ordered <- d[order(d$x, decreasing = TRUE), ] splits <- split(ordered, ordered$grp) heads <- lapply(splits, …
93 r  data.table  dplyr 

5
R Ocena warunkowa przy użyciu operatora potoku%>%
Przy użyciu operatora rury %>%z pakietów, takich jak dplyr, ggvis, dychartsitp, jak to zrobić krok warunkowo? Na przykład; step_1 %>% step_2 %>% if(condition) step_3 Te podejścia wydają się nie działać: step_1 %>% step_2 if(condition) %>% step_3 step_1 %>% step_2 %>% if(condition) step_3 Droga jest długa: if(condition) { step_1 %>% step_2 …
93 r  dplyr  ggvis  magrittr 

4
dplyr na data.table, czy naprawdę używam data.table?
Jeśli używam składni dplyr na szczycie datatable , czy uzyskam wszystkie korzyści związane z szybkością datatable, nadal używając składni dplyr? Innymi słowy, czy niewłaściwie używam datatable, jeśli wykonuję zapytanie za pomocą składni dplyr? Czy też muszę używać czystej składni datatable, aby wykorzystać całą jego moc. Z góry dziękuję za wszelkie …
91 r  data.table  dplyr 

2
Jak określić nazwy kolumn dla x i y podczas łączenia w dplyr?
Mam dwie ramki danych, które chcę połączyć za pomocą dplyr. Jedna to ramka danych zawierająca imiona. test_data <- data.frame(first_name = c("john", "bill", "madison", "abby", "zzz"), stringsAsFactors = FALSE) Druga ramka danych zawiera uporządkowaną wersję korpusu nazw Kantrowitza, identyfikującą płeć. Oto minimalny przykład: kantrowitz <- structure(list(name = c("john", "bill", "madison", "abby", …
89 r  join  left-join  dplyr 

3
dplyr mutate z wartościami warunkowymi
W dużej ramce danych („myfile”) z czterema kolumnami muszę dodać piątą kolumnę z wartościami warunkowo opartymi na pierwszych czterech kolumnach. Preferuj odpowiedzi z dplyri mutate, głównie ze względu na szybkość w dużych zbiorach danych. Moja ramka danych wygląda następująco: V1 V2 V3 V4 1 1 2 3 5 2 2 …
87 r  dplyr  mutate 

12
dplyr mutuje / zamienia kilka kolumn w podzbiorze wierszy
Jestem w trakcie wypróbowywania przepływu pracy opartego na dplyr (zamiast używania głównie data.table, do czego jestem przyzwyczajony) i napotkałem problem, do którego nie mogę znaleźć równoważnego rozwiązania dplyr . Często spotykam się ze scenariuszem, w którym muszę warunkowo zaktualizować / wymienić kilka kolumn na podstawie jednego warunku. Oto przykładowy kod …
85 r  data.table  dplyr 


4
Wybierz kolumny na podstawie dopasowania ciągów - dplyr :: select
Mam ramkę danych („dane”) z dużą ilością kolumn. Niektóre kolumny zawierają określony ciąg („ciąg_wyszukiwania”). Jak mogę użyć dplyr::select()podzbioru zawierającego tylko kolumny zawierające ciąg? Próbowałem: # columns as boolean vector select(data, grepl("search_string",colnames(data))) # columns as vector of column names names select(data, colnames(data)[grepl("search_string",colnames(data))]) Żadne z nich nie działa. Wiem, że select()akceptuje wektory …
83 r  regex  dplyr 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.