Usuwanie zduplikowanej ramki danych wierszy w R [zamknięte]

71

Jak mogę usunąć zduplikowane wiersze z tej przykładowej ramki danych?

Chciałbym usunąć duplikaty na podstawie obu kolumn:

Porządek nie jest ważny.

r

— Jana
źródło

@ Whuber nie powinien zostać przeniesiony do SO?

— llrs

@Llopis Tak, ale jest już za późno, aby to zrobić - i było za późno, kiedy pierwotnie go zamknęliśmy. Tego rodzaju pytanie było rozważane (graniczne) na wiele lat temu, ale obecnie będzie szybko migrowane.

— whuber

115

unique()rzeczywiście odpowiada na twoje pytanie, ale inną pokrewną i interesującą funkcją osiągnięcia tego samego celu jest duplicated().

Daje to możliwość sprawdzenia, które wiersze są duplikowane.

a <- c(rep("A", 3), rep("B", 3), rep("C",2))
b <- c(1,1,2,4,1,1,2,2)
df <-data.frame(a,b)

duplicated(df)
[1] FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE  TRUE

> df[duplicated(df), ]
  a b
2 A 1
6 B 1
8 C 2

> df[!duplicated(df), ]
  a b
1 A 1
3 A 2
4 B 4
5 B 1
7 C 2

— Rahul
źródło

2

Dziękujemy za wzmiankę o „zduplikowanej” funkcji. Można go użyć do usunięcia zduplikowanych wierszy na podstawie podzbioru kolumn.

— Joko,

51

Szukasz unique().

a <- c(rep("A", 3), rep("B", 3), rep("C",2))
b <- c(1,1,2,4,1,1,2,2)
df <-data.frame(a,b)
unique(df)

> unique(df)
  a b
1 A 1
3 A 2
4 B 4
5 B 1
7 C 2

— Bernd Weiss
źródło

1

Dzięki Bernd. Myślałem, że unikatowy można zastosować tylko do określonej kolumny. Nie wiedziałem, że można go również zastosować do całej ramki danych. jeszcze raz dziękuję

— Jana