Jak połączyć (scalić) ramki danych (wewnętrzne, zewnętrzne, lewe, prawe)


1231

Biorąc pod uwagę dwie ramki danych:

df1 = data.frame(CustomerId = c(1:6), Product = c(rep("Toaster", 3), rep("Radio", 3)))
df2 = data.frame(CustomerId = c(2, 4, 6), State = c(rep("Alabama", 2), rep("Ohio", 1)))

df1
#  CustomerId Product
#           1 Toaster
#           2 Toaster
#           3 Toaster
#           4   Radio
#           5   Radio
#           6   Radio

df2
#  CustomerId   State
#           2 Alabama
#           4 Alabama
#           6    Ohio

Jak mogę łączyć styl bazy danych, tj. Styl sql, łączy ? To znaczy, jak mogę uzyskać:


Dodatkowy kredyt:

Jak mogę wykonać instrukcję wyboru w stylu SQL?


4
stat545-ubc.github.io/bit001_dplyr-cheatsheet.html ← moja ulubiona odpowiedź na to pytanie
izomorfizm

Transformacja danych z kartą ściągającą dplyr utworzoną i utrzymywaną przez RStudio ma również ładne infografiki na temat tego, jak działają połączenia w dplyr rstudio.com/resources/cheatsheets
Arthur Yip

2
Jeśli przyszedłeś tutaj i chcesz wiedzieć o scalaniu ramek danych pand , ten zasób można znaleźć tutaj .
cs95,

Odpowiedzi:


1347

Korzystając z mergefunkcji i jej opcjonalnych parametrów:

Łączenie wewnętrzne: merge(df1, df2) będzie działać w tych przykładach, ponieważ R automatycznie łączy ramki według wspólnych nazw zmiennych, ale najprawdopodobniej chciałbyś określić,merge(df1, df2, by = "CustomerId")aby upewnić się, że dopasowujesz tylko żądane pola. Możesz także użyćparametrówby.xiby.y, jeśli pasujące zmienne mają różne nazwy w różnych ramkach danych.

Przyłączenie zewnętrzne: merge(x = df1, y = df2, by = "CustomerId", all = TRUE)

Lewy zewnętrzny: merge(x = df1, y = df2, by = "CustomerId", all.x = TRUE)

Prawa zewnętrzna: merge(x = df1, y = df2, by = "CustomerId", all.y = TRUE)

Połącz krzyżowo: merge(x = df1, y = df2, by = NULL)

Podobnie jak w przypadku łączenia wewnętrznego, prawdopodobnie chciałbyś jawnie przekazać „CustomerId” do R jako dopasowanej zmiennej. Myślę, że prawie zawsze najlepiej jest wyraźnie określić identyfikatory, z którymi chcesz się połączyć; bezpieczniej jest, gdy dane wejściowe. ramki zmieniają się nieoczekiwanie, a później łatwiej je odczytać.

Możesz scalić wiele kolumn, podając bywektor, np by = c("CustomerId", "OrderId").

Jeśli nazwy kolumn do scalenia nie są takie same, możesz określić, np. by.x = "CustomerId_in_df1", by.y = "CustomerId_in_df2"Gdzie CustomerId_in_df1jest nazwa kolumny w pierwszej ramce danych i CustomerId_in_df2nazwa kolumny w drugiej ramce danych. (Mogą to być również wektory, jeśli chcesz scalić wiele kolumn).


2
@MattParker Używam pakietu sqldf do całego szeregu złożonych zapytań przeciwko ramkom danych, naprawdę potrzebowałem go, aby wykonać samodzielne połączenie (tj. Samo połączenie danych.frame) Zastanawiam się, jak to wygląda z punktu widzenia wydajności ... . ???
Nicholas Hamilton

9
@ ADP Tak naprawdę nigdy nie korzystałem z sqldf, więc nie jestem pewien szybkości. Jeśli wydajność jest dla Ciebie poważnym problemem, powinieneś również zajrzeć do data.tablepakietu - to zupełnie nowy zestaw składni złączenia, ale jest radykalnie szybszy niż cokolwiek, o czym tutaj mówimy.
Matt Parker,

5
Z większą jasnością i objaśnieniem ..... mkmanu.wordpress.com/2016/04/08/…
Manoj Kumar

42
Drobny dodatek, który był dla mnie pomocny - Gdy chcesz połączyć za pomocą więcej niż jednej kolumny:merge(x=df1,y=df2, by.x=c("x_col1","x_col2"), by.y=c("y_col1","y_col2"))
Dileep Kumar Patchigolla

8
Działa to data.tableteraz, ta sama funkcja jest po prostu szybsza.
marbel

222

Polecam sprawdzenie pakietu sqldf Gabora Grothendiecka , który pozwala wyrazić te operacje w SQL.

library(sqldf)

## inner join
df3 <- sqldf("SELECT CustomerId, Product, State 
              FROM df1
              JOIN df2 USING(CustomerID)")

## left join (substitute 'right' for right join)
df4 <- sqldf("SELECT CustomerId, Product, State 
              FROM df1
              LEFT JOIN df2 USING(CustomerID)")

Uważam, że składnia SQL jest prostsza i bardziej naturalna niż jej odpowiednik R (ale może to tylko odzwierciedlać moją stronniczość RDBMS).

Aby uzyskać więcej informacji na temat złączeń, zobacz GldHub Gabor's sqldf .


198

Istnieje podejście data.table dla łączenia wewnętrznego, które jest bardzo wydajne pod względem czasu i pamięci (i konieczne w przypadku niektórych większych ramek data.frames):

library(data.table)

dt1 <- data.table(df1, key = "CustomerId") 
dt2 <- data.table(df2, key = "CustomerId")

joined.dt1.dt.2 <- dt1[dt2]

mergedziała również na data.tables (ponieważ jest ogólny i wywołuje merge.data.table)

merge(dt1, dt2)

data.table udokumentowane przy stosie przepływu:
jak wykonać operację scalania data.table
Tłumaczenie SQL łączy klucze obce na R składnia data.table
Efektywne alternatywy scalania dla większych data.frames R
Jak wykonać podstawowe lewe zewnętrzne połączenie z data.table w R?

Jeszcze inną opcją jest joinfunkcja znajdująca się w pakiecie plyr

library(plyr)

join(df1, df2,
     type = "inner")

#   CustomerId Product   State
# 1          2 Toaster Alabama
# 2          4   Radio Alabama
# 3          6   Radio    Ohio

Opcje dla type: inner, left, right, full.

Od ?join: W przeciwieństwie do merge[ join] zachowuje kolejność x bez względu na używany typ łączenia.


8
+1 za wzmiankę plyr::join. Mikrodrukowanie oznacza, że ​​działa około 3 razy szybciej niż merge.
Beasterfield

20
Jest jednak data.tableznacznie szybszy niż oba. Jest także świetne wsparcie w SO, nie widzę tu wielu pisarzy odpowiadających na pytania tak często, jak data.tablepisarz lub współpracownicy.
marbel

1
Jaka jest data.tableskładnia scalania listy ramek danych ?
Aleksandr Blekh

5
Uwaga: dt1 [dt2] jest prawym złączem zewnętrznym (a nie „czystym” złączeniem wewnętrznym), więc WSZYSTKIE wiersze z dt2 będą częścią wyniku, nawet jeśli w dt1 nie ma pasującego wiersza. Wpływ: Wynik ma potencjalnie niechciane wiersze, jeśli masz wartości kluczy w dt2, które nie pasują do wartości kluczy dt1.
R Yoda,

8
@RYoda możesz po prostu określić nomatch = 0Lw takim przypadku.
David Arenburg,

181

Możesz także dołączać, korzystając z niesamowitego pakietu Hadley Wickham .

library(dplyr)

#make sure that CustomerId cols are both type numeric
#they ARE not using the provided code in question and dplyr will complain
df1$CustomerId <- as.numeric(df1$CustomerId)
df2$CustomerId <- as.numeric(df2$CustomerId)

Mutowanie złączeń: dodaj kolumny do df1, używając dopasowań w df2

#inner
inner_join(df1, df2)

#left outer
left_join(df1, df2)

#right outer
right_join(df1, df2)

#alternate right outer
left_join(df2, df1)

#full join
full_join(df1, df2)

Filtrowanie złączeń: odfiltruj wiersze w df1, nie modyfikuj kolumn

semi_join(df1, df2) #keep only observations in df1 that match in df2.
anti_join(df1, df2) #drops all observations in df1 that match in df2.

16
Dlaczego musisz przekonwertować CustomerIdna numeryczne? Nie widzę żadnych wzmianek w dokumentacji (dla obu plyri dplyr) na temat tego rodzaju ograniczeń. Czy Twój kod działałby niepoprawnie, gdyby kolumna scalania była charactertypu (szczególnie zainteresowana plyr)? Czy coś brakuje?
Aleksandr Blekh

Czy można użyć semi_join (df1, df2, df3, df4), aby zachować tylko obserwacje w df1, które pasują do reszty kolumn?
Ghose Bishwajit

@GhoseBishwajit Zakładając, że masz na myśli resztę ramek danych zamiast kolumn, możesz użyć rbind na df2, df3 i df4, jeśli mają taką samą strukturę, np. Semi_join (df1, rbind (df2, df3, df4))
abhy3

Tak, miałem na myśli ramkę danych. Ale nie są one taką samą strukturą, jak niektórych brakuje w niektórych rzędach. W przypadku czterech ramek danych mam dane dotyczące czterech różnych wskaźników (PKB, GNP GINI, MMR) dla różnej liczby krajów. Chcę dołączyć do ramek danych w taki sposób, aby tylko te kraje były obecne dla wszystkich czterech wskaźników.
Ghose Bishwajit

86

Istnieje kilka dobrych przykładów zrobienia tego na Wiki Wiki . Ukradnę tutaj parę:

Metoda scalania

Ponieważ twoje klucze mają takie same nazwy, krótki sposób wykonania połączenia wewnętrznego to merge ():

merge(df1,df2)

pełne sprzężenie wewnętrzne (wszystkie rekordy z obu tabel) można utworzyć za pomocą słowa kluczowego „all”:

merge(df1,df2, all=TRUE)

lewe połączenie zewnętrzne df1 i df2:

merge(df1,df2, all.x=TRUE)

prawe połączenie zewnętrzne df1 i df2:

merge(df1,df2, all.y=TRUE)

możesz je obrócić, uderzyć i pocierać, aby uzyskać pozostałe dwa zewnętrzne połączenia, o które pytałeś :)

Metoda indeksu dolnego

Lewe połączenie zewnętrzne z df1 po lewej przy użyciu metody indeksu dolnego byłoby:

df1[,"State"]<-df2[df1[ ,"Product"], "State"]

Inną kombinację sprzężeń zewnętrznych można utworzyć, obmywając przykładowy indeks dolnego sprzężenia zewnętrznego. (tak, wiem, że to odpowiednik powiedzenia „Zostawię to jako ćwiczenie dla czytelnika ...”)


4
Link „R Wiki” jest uszkodzony.
zx8754

79

Nowości w 2014 roku:

Zwłaszcza, jeśli interesuje Cię również ogólna manipulacja danymi (w tym sortowanie, filtrowanie, podzbiór, podsumowanie itp.), Zdecydowanie powinieneś się przyjrzeć dplyr, który oferuje różnorodne funkcje zaprojektowane z myślą o ułatwieniu pracy z ramkami danych i niektóre inne typy baz danych. Oferuje nawet dość rozbudowany interfejs SQL, a nawet funkcję konwersji (większości) kodu SQL bezpośrednio na R.

Cztery funkcje związane z łączeniem w pakiecie dplyr to (cytując):

  • inner_join(x, y, by = NULL, copy = FALSE, ...): zwraca wszystkie wiersze z x, w których są zgodne wartości w y, i wszystkie kolumny z x i y
  • left_join(x, y, by = NULL, copy = FALSE, ...): zwraca wszystkie wiersze od x i wszystkie kolumny od x i y
  • semi_join(x, y, by = NULL, copy = FALSE, ...): zwraca wszystkie wiersze z x, w których znajdują się pasujące wartości w y, zachowując tylko kolumny z x.
  • anti_join(x, y, by = NULL, copy = FALSE, ...): zwraca wszystkie wiersze z x, w których nie ma zgodnych wartości w y, zachowując tylko kolumny z x

Wszystko jest tu bardzo szczegółowo.

Wyboru kolumn można dokonać za pomocą select(df,"column"). Jeśli to ci nie wystarcza, istnieje sql()funkcja, w której możesz wprowadzić kod SQL w niezmienionej postaci i wykona on operację określoną przez Ciebie tak, jak pisałeś cały czas w języku R (więcej informacji znajdziesz w do winiety dplyr / baz danych ). Na przykład, jeśli zastosowane poprawnie, sql("SELECT * FROM hflights")wybierze wszystkie kolumny z tabeli „hflights” dplyr („tbl”).


Zdecydowanie najlepsze rozwiązanie, biorąc pod uwagę znaczenie pakietu dplyr w ciągu ostatnich dwóch lat.
Marco Fumagalli,

72

Zaktualizuj metody data.table do łączenia zestawów danych. Zobacz poniższe przykłady dla każdego rodzaju złączenia. Istnieją dwie metody, jedna od [.data.tableprzekazania drugiego data.table jako pierwszego argumentu do podzbioru, innym sposobem jest użycie mergefunkcji, która wywołuje szybką metodę data.table.

df1 = data.frame(CustomerId = c(1:6), Product = c(rep("Toaster", 3), rep("Radio", 3)))
df2 = data.frame(CustomerId = c(2L, 4L, 7L), State = c(rep("Alabama", 2), rep("Ohio", 1))) # one value changed to show full outer join

library(data.table)

dt1 = as.data.table(df1)
dt2 = as.data.table(df2)
setkey(dt1, CustomerId)
setkey(dt2, CustomerId)
# right outer join keyed data.tables
dt1[dt2]

setkey(dt1, NULL)
setkey(dt2, NULL)
# right outer join unkeyed data.tables - use `on` argument
dt1[dt2, on = "CustomerId"]

# left outer join - swap dt1 with dt2
dt2[dt1, on = "CustomerId"]

# inner join - use `nomatch` argument
dt1[dt2, nomatch=NULL, on = "CustomerId"]

# anti join - use `!` operator
dt1[!dt2, on = "CustomerId"]

# inner join - using merge method
merge(dt1, dt2, by = "CustomerId")

# full outer join
merge(dt1, dt2, by = "CustomerId", all = TRUE)

# see ?merge.data.table arguments for other cases

Poniżej testów porównawczych baza R, sqldf, dplyr i data.table.
Benchmark testuje nieprzypisane / nieindeksowane zestawy danych. Benchmark jest wykonywany na zestawach danych wierszy 50M-1, w kolumnie łączącej znajdują się wspólne wartości 50M-2, więc każdy scenariusz (wewnętrzny, lewy, prawy, pełny) można przetestować, a łączenie nadal nie jest trywialne. Jest to rodzaj łączenia, który dobrze algorytmy łączenia naprężeń. Czasy są z sqldf:0.4.11, dplyr:0.7.8, data.table:1.12.0.

# inner
Unit: seconds
   expr       min        lq      mean    median        uq       max neval
   base 111.66266 111.66266 111.66266 111.66266 111.66266 111.66266     1
  sqldf 624.88388 624.88388 624.88388 624.88388 624.88388 624.88388     1
  dplyr  51.91233  51.91233  51.91233  51.91233  51.91233  51.91233     1
     DT  10.40552  10.40552  10.40552  10.40552  10.40552  10.40552     1
# left
Unit: seconds
   expr        min         lq       mean     median         uq        max 
   base 142.782030 142.782030 142.782030 142.782030 142.782030 142.782030     
  sqldf 613.917109 613.917109 613.917109 613.917109 613.917109 613.917109     
  dplyr  49.711912  49.711912  49.711912  49.711912  49.711912  49.711912     
     DT   9.674348   9.674348   9.674348   9.674348   9.674348   9.674348       
# right
Unit: seconds
   expr        min         lq       mean     median         uq        max
   base 122.366301 122.366301 122.366301 122.366301 122.366301 122.366301     
  sqldf 611.119157 611.119157 611.119157 611.119157 611.119157 611.119157     
  dplyr  50.384841  50.384841  50.384841  50.384841  50.384841  50.384841     
     DT   9.899145   9.899145   9.899145   9.899145   9.899145   9.899145     
# full
Unit: seconds
  expr       min        lq      mean    median        uq       max neval
  base 141.79464 141.79464 141.79464 141.79464 141.79464 141.79464     1
 dplyr  94.66436  94.66436  94.66436  94.66436  94.66436  94.66436     1
    DT  21.62573  21.62573  21.62573  21.62573  21.62573  21.62573     1

Należy pamiętać, że istnieją inne rodzaje złączeń, które można wykonać przy użyciu data.table:
- aktualizacji przy łączeniu - jeśli chcesz wyszukać wartości z innej tabeli do tabeli głównej
- agreguj przy łączeniu - jeśli chcesz agregować na kluczu, do którego dołączasz , nie masz materializować wszystko dołączyć wyniki
- nakładających się przyłączyć - jeżeli chcesz połączyć przez zakresach
- walcowanie dołączyć - jeżeli chcesz seryjnej, aby móc dopasować się do wartości z poprzedzającego / następujące wiersze przez walcowanie ich przód lub w tył
- non-equi przyłączyć - jeśli warunek łączenia jest różny

Kod do reprodukcji:

library(microbenchmark)
library(sqldf)
library(dplyr)
library(data.table)
sapply(c("sqldf","dplyr","data.table"), packageVersion, simplify=FALSE)

n = 5e7
set.seed(108)
df1 = data.frame(x=sample(n,n-1L), y1=rnorm(n-1L))
df2 = data.frame(x=sample(n,n-1L), y2=rnorm(n-1L))
dt1 = as.data.table(df1)
dt2 = as.data.table(df2)

mb = list()
# inner join
microbenchmark(times = 1L,
               base = merge(df1, df2, by = "x"),
               sqldf = sqldf("SELECT * FROM df1 INNER JOIN df2 ON df1.x = df2.x"),
               dplyr = inner_join(df1, df2, by = "x"),
               DT = dt1[dt2, nomatch=NULL, on = "x"]) -> mb$inner

# left outer join
microbenchmark(times = 1L,
               base = merge(df1, df2, by = "x", all.x = TRUE),
               sqldf = sqldf("SELECT * FROM df1 LEFT OUTER JOIN df2 ON df1.x = df2.x"),
               dplyr = left_join(df1, df2, by = c("x"="x")),
               DT = dt2[dt1, on = "x"]) -> mb$left

# right outer join
microbenchmark(times = 1L,
               base = merge(df1, df2, by = "x", all.y = TRUE),
               sqldf = sqldf("SELECT * FROM df2 LEFT OUTER JOIN df1 ON df2.x = df1.x"),
               dplyr = right_join(df1, df2, by = "x"),
               DT = dt1[dt2, on = "x"]) -> mb$right

# full outer join
microbenchmark(times = 1L,
               base = merge(df1, df2, by = "x", all = TRUE),
               dplyr = full_join(df1, df2, by = "x"),
               DT = merge(dt1, dt2, by = "x", all = TRUE)) -> mb$full

lapply(mb, print) -> nul

Czy warto dodać przykład pokazujący, jak również używać różnych nazw kolumn on = ?
SymbolixAU,

1
@ Symbolix możemy poczekać na wydanie 1.9.8, ponieważ doda on operatorów non-equi do onarg
jangorecki

Kolejna myśl; czy warto dodać uwagę, że z merge.data.tabledomyślnym sort = TRUEargumentem, który dodaje klucz podczas scalania i pozostawia go tam w wyniku? Należy na to uważać, zwłaszcza jeśli próbujesz uniknąć ustawiania kluczy.
SymbolixAU,

1
Dziwi mnie, że nikt nie wspomniał, że większość z nich nie działa, jeśli są duplikaty ...
statquant

@statquant Możesz zrobić kartezjańskie połączenie data.table, co masz na myśli? Czy możesz być bardziej szczegółowy, proszę.
David Arenburg,

32

dplyr od wersji 0.4 zaimplementował wszystkie te dołączenia, w tym outer_join, ale warto zauważyć, że w pierwszych kilku wersjach wcześniejszych niż 0.4 zwykło się nie oferować , w wyniku czego przez długi czas unosiło się sporo naprawdę złego, zhakowanego kodu użytkownika później (nadal możesz znaleźć taki kod w SO, Kaggle odpowiada, github z tego okresu. Dlatego ta odpowiedź nadal służy pożytecznemu celowi).outer_join

Najważniejsze informacje o wydaniu związanym z dołączeniem :

wersja 0,5 (6/2016)

  • Obsługa typu POSIXct, stref czasowych, duplikatów, różnych poziomów czynników. Lepsze błędy i ostrzeżenia.
  • Nowy argument sufiksu do kontrolowania otrzymywanych duplikatów nazw zmiennych (# 1296)

v0.4.0 (1/2015)

  • Zaimplementuj prawe i zewnętrzne połączenie (# 96)
  • Mutujące sprzężenia, które dodają nowe zmienne do jednej tabeli z pasujących wierszy w drugiej. Filtrowanie złączeń, które filtrują obserwacje z jednej tabeli na podstawie tego, czy pasują do obserwacji z drugiej tabeli.

wersja 0.3 (10/2014)

  • Może teraz left_join według różnych zmiennych w każdej tabeli: df1%>% left_join (df2, c ("var1" = "var2"))

wersja 0.2 (5/2014)

  • * _join () nie zmienia już nazw kolumn (# 324)

wersja 0.1.3 ( 4/2014 )

Rozwiązania dotyczące komentarzy Hadleya w tym numerze:

  • right_join (x, y) jest taki sam jak left_join (y, x) pod względem wierszy, tylko kolumny będą w różnych rzędach. Łatwo pracował z select (new_column_order)
  • external_join jest w zasadzie union (left_join (x, y), right_join (x, y)) - tzn. zachowaj wszystkie wiersze w obu ramkach danych.

1
@Gregor: nie, nie należy go usuwać. Ważne jest, aby użytkownicy R wiedzieli, że brakowało możliwości łączenia przez wiele lat, ponieważ większość kodu tam zawiera obejścia lub ręczne implementacje ad-hoc, lub reklamy z wektorami indeksów, lub, co gorsza, unika korzystania z tych pakietów lub operacje w ogóle. Co tydzień widzę takie pytania na SO. Będziemy rozwiązywać zamieszanie przez wiele lat.
smci

@Gregor i inni, którzy pytali: zaktualizowano, podsumowując historyczne zmiany i czego brakowało przez kilka lat, kiedy zadawano to pytanie. To ilustruje, dlaczego kod z tego okresu był w dużej mierze zhackowany lub unikał łączenia dplyr i wracał do scalania. Jeśli sprawdzisz historyczne bazy kodu na SO i Kaggle, nadal zobaczysz opóźnienie adopcji i poważnie zdezorientowany kod użytkownika. Daj mi znać, jeśli nadal nie znajdziesz tej odpowiedzi.
smci

@Gregor: Ci z nas, którzy przyjęli go w połowie 2014 roku, nie wybrali najlepszego momentu. (Myślałem, że w 2013 r. Pojawiły się wcześniejsze wersje (0.0.x), ale nie, mój błąd.) Niezależnie od tego, w 2015 r. Wciąż było dużo bzdur, co zmotywowało mnie do opublikowania tego, starałem się to wyjaśnić to, co znalazłem na Kaggle, github, SO.
smci

2
Tak, rozumiem i myślę, że dobrze sobie z tym radzisz. (Byłem już MSSF też, a ja nadal jak dplyrskładni, zmiana od lazyevaldo rlangbackendów złamał kilka kodu dla mnie, który zawiózł mnie aby dowiedzieć się więcej data.table, a teraz najczęściej korzystają data.table.)
Gregor Thomas

@Gregor: interesujące, czy możesz wskazać mi jakieś pytania i odpowiedzi (twoje lub innych), które to dotyczą? Wygląda na to, że każde nasze przyjęcie plyr/ dplyr/ data.table/ tidyverse zależy w ogromnym stopniu od tego, w którym roku zaczęliśmy, i od tego, jaki (embrionalny) stan miały wtedy paczki, w przeciwieństwie do teraz ...
smci

25

Łącząc dwie ramki danych z ~ 1 milionem wierszy, jedną z 2 kolumnami, a drugą z ~ 20, niespodziewanie odkryłem, merge(..., all.x = TRUE, all.y = TRUE)że jest szybszy dplyr::full_join(). Dzieje się tak z dplyr v0.4

Scalanie zajmuje ~ 17 sekund, full_join zajmuje ~ 65 sekund.

Na razie trochę jedzenia, ponieważ generalnie domyślnie używam dplyr do zadań manipulacyjnych.


24

W przypadku lewego łącznika o 0..*:0..1liczności lub prawego 0..1:0..*łącznika o liczności możliwe jest przypisanie w miejscu jednostronnych kolumn z łącznika ( 0..1stołu) bezpośrednio do łączonego ( 0..*stołu), a tym samym uniknięcie tworzenia zupełnie nowa tabela danych. Wymaga to dopasowania kluczowych kolumn z łącznika do stolarki i indeksowania + uporządkowania wierszy łącznika odpowiednio do przypisania.

Jeśli klucz jest pojedynczą kolumną, możemy użyć pojedynczego wywołania, match()aby wykonać dopasowanie. Oto przypadek, który omówię w tej odpowiedzi.

Oto przykład oparty na OP, z tym wyjątkiem, że dodałem dodatkowy wiersz df2z identyfikatorem 7, aby przetestować przypadek niepasującego klucza w stolarce. To jest efektywne df1pozostawienie dołączenia df2:

df1 <- data.frame(CustomerId=1:6,Product=c(rep('Toaster',3L),rep('Radio',3L)));
df2 <- data.frame(CustomerId=c(2L,4L,6L,7L),State=c(rep('Alabama',2L),'Ohio','Texas'));
df1[names(df2)[-1L]] <- df2[match(df1[,1L],df2[,1L]),-1L];
df1;
##   CustomerId Product   State
## 1          1 Toaster    <NA>
## 2          2 Toaster Alabama
## 3          3 Toaster    <NA>
## 4          4   Radio Alabama
## 5          5   Radio    <NA>
## 6          6   Radio    Ohio

W powyższym zakodowałem na stałe założenie, że kolumna kluczowa jest pierwszą kolumną obu tabel wejściowych. Twierdziłbym, że generalnie nie jest to nieuzasadnione założenie, ponieważ jeśli masz ramkę danych z kolumną klucza, byłoby dziwne, gdyby nie została ustawiona jako pierwsza kolumna danych. Ramka z początek. Aby to zrobić, zawsze możesz zmienić kolejność kolumn. Korzystną konsekwencją tego założenia jest to, że nazwa kolumny kluczowej nie musi być zakodowana na stałe, chociaż przypuszczam, że po prostu zastępuje jedno założenie innym. Podsumowanie to kolejna zaleta indeksowania liczb całkowitych, a także szybkość. W testach poniżej zmienię implementację, aby używała indeksowania nazw ciągów w celu dopasowania do konkurencyjnych implementacji.

Myślę, że jest to szczególnie odpowiednie rozwiązanie, jeśli masz kilka tabel, które chcesz pozostawić złączone z jednym dużym stołem. Wielokrotne przebudowywanie całej tabeli dla każdego scalenia byłoby niepotrzebne i nieefektywne.

Z drugiej strony, jeśli potrzebujesz, aby osoba dołączona pozostała niezmieniona podczas tej operacji z jakiegokolwiek powodu, to nie można użyć tego rozwiązania, ponieważ bezpośrednio modyfikuje ona osobę dołączoną. Chociaż w takim przypadku możesz po prostu wykonać kopię i wykonać przypisania w miejscu na kopii.


Na marginesie, krótko spojrzałem na możliwe pasujące rozwiązania dla kluczy wielokolumnowych. Niestety, jedyne pasujące rozwiązania, które znalazłem, to:

  • nieefektywne konkatenacje. np. match(interaction(df1$a,df1$b),interaction(df2$a,df2$b))lub ten sam pomysł z paste().
  • nieefektywne połączenia kartezjańskie, np outer(df1$a,df2$a,`==`) & outer(df1$b,df2$b,`==`).
  • bazowe R merge()i równoważne funkcje scalania oparte na pakiecie, które zawsze przydzielają nową tabelę w celu zwrócenia scalonego wyniku, a zatem nie są odpowiednie dla rozwiązania opartego na przypisaniu w miejscu.

Na przykład zobacz Dopasowywanie wielu kolumn w różnych ramkach danych i uzyskiwanie innej kolumny w wyniku , dopasowywanie dwóch kolumn do dwóch innych kolumn , Dopasowywanie w wielu kolumnach i duplikat tego pytania, w którym pierwotnie wymyśliłem rozwiązanie na miejscu, Łączenie dwie ramki danych z różnej liczby wierszy R .


Benchmarking

Zdecydowałem się przeprowadzić własne testy porównawcze, aby zobaczyć, jak podejście do przypisywania na miejscu porównuje się z innymi rozwiązaniami oferowanymi w tym pytaniu.

Kod testowy:

library(microbenchmark);
library(data.table);
library(sqldf);
library(plyr);
library(dplyr);

solSpecs <- list(
    merge=list(testFuncs=list(
        inner=function(df1,df2,key) merge(df1,df2,key),
        left =function(df1,df2,key) merge(df1,df2,key,all.x=T),
        right=function(df1,df2,key) merge(df1,df2,key,all.y=T),
        full =function(df1,df2,key) merge(df1,df2,key,all=T)
    )),
    data.table.unkeyed=list(argSpec='data.table.unkeyed',testFuncs=list(
        inner=function(dt1,dt2,key) dt1[dt2,on=key,nomatch=0L,allow.cartesian=T],
        left =function(dt1,dt2,key) dt2[dt1,on=key,allow.cartesian=T],
        right=function(dt1,dt2,key) dt1[dt2,on=key,allow.cartesian=T],
        full =function(dt1,dt2,key) merge(dt1,dt2,key,all=T,allow.cartesian=T) ## calls merge.data.table()
    )),
    data.table.keyed=list(argSpec='data.table.keyed',testFuncs=list(
        inner=function(dt1,dt2) dt1[dt2,nomatch=0L,allow.cartesian=T],
        left =function(dt1,dt2) dt2[dt1,allow.cartesian=T],
        right=function(dt1,dt2) dt1[dt2,allow.cartesian=T],
        full =function(dt1,dt2) merge(dt1,dt2,all=T,allow.cartesian=T) ## calls merge.data.table()
    )),
    sqldf.unindexed=list(testFuncs=list( ## note: must pass connection=NULL to avoid running against the live DB connection, which would result in collisions with the residual tables from the last query upload
        inner=function(df1,df2,key) sqldf(paste0('select * from df1 inner join df2 using(',paste(collapse=',',key),')'),connection=NULL),
        left =function(df1,df2,key) sqldf(paste0('select * from df1 left join df2 using(',paste(collapse=',',key),')'),connection=NULL),
        right=function(df1,df2,key) sqldf(paste0('select * from df2 left join df1 using(',paste(collapse=',',key),')'),connection=NULL) ## can't do right join proper, not yet supported; inverted left join is equivalent
        ##full =function(df1,df2,key) sqldf(paste0('select * from df1 full join df2 using(',paste(collapse=',',key),')'),connection=NULL) ## can't do full join proper, not yet supported; possible to hack it with a union of left joins, but too unreasonable to include in testing
    )),
    sqldf.indexed=list(testFuncs=list( ## important: requires an active DB connection with preindexed main.df1 and main.df2 ready to go; arguments are actually ignored
        inner=function(df1,df2,key) sqldf(paste0('select * from main.df1 inner join main.df2 using(',paste(collapse=',',key),')')),
        left =function(df1,df2,key) sqldf(paste0('select * from main.df1 left join main.df2 using(',paste(collapse=',',key),')')),
        right=function(df1,df2,key) sqldf(paste0('select * from main.df2 left join main.df1 using(',paste(collapse=',',key),')')) ## can't do right join proper, not yet supported; inverted left join is equivalent
        ##full =function(df1,df2,key) sqldf(paste0('select * from main.df1 full join main.df2 using(',paste(collapse=',',key),')')) ## can't do full join proper, not yet supported; possible to hack it with a union of left joins, but too unreasonable to include in testing
    )),
    plyr=list(testFuncs=list(
        inner=function(df1,df2,key) join(df1,df2,key,'inner'),
        left =function(df1,df2,key) join(df1,df2,key,'left'),
        right=function(df1,df2,key) join(df1,df2,key,'right'),
        full =function(df1,df2,key) join(df1,df2,key,'full')
    )),
    dplyr=list(testFuncs=list(
        inner=function(df1,df2,key) inner_join(df1,df2,key),
        left =function(df1,df2,key) left_join(df1,df2,key),
        right=function(df1,df2,key) right_join(df1,df2,key),
        full =function(df1,df2,key) full_join(df1,df2,key)
    )),
    in.place=list(testFuncs=list(
        left =function(df1,df2,key) { cns <- setdiff(names(df2),key); df1[cns] <- df2[match(df1[,key],df2[,key]),cns]; df1; },
        right=function(df1,df2,key) { cns <- setdiff(names(df1),key); df2[cns] <- df1[match(df2[,key],df1[,key]),cns]; df2; }
    ))
);

getSolTypes <- function() names(solSpecs);
getJoinTypes <- function() unique(unlist(lapply(solSpecs,function(x) names(x$testFuncs))));
getArgSpec <- function(argSpecs,key=NULL) if (is.null(key)) argSpecs$default else argSpecs[[key]];

initSqldf <- function() {
    sqldf(); ## creates sqlite connection on first run, cleans up and closes existing connection otherwise
    if (exists('sqldfInitFlag',envir=globalenv(),inherits=F) && sqldfInitFlag) { ## false only on first run
        sqldf(); ## creates a new connection
    } else {
        assign('sqldfInitFlag',T,envir=globalenv()); ## set to true for the one and only time
    }; ## end if
    invisible();
}; ## end initSqldf()

setUpBenchmarkCall <- function(argSpecs,joinType,solTypes=getSolTypes(),env=parent.frame()) {
    ## builds and returns a list of expressions suitable for passing to the list argument of microbenchmark(), and assigns variables to resolve symbol references in those expressions
    callExpressions <- list();
    nms <- character();
    for (solType in solTypes) {
        testFunc <- solSpecs[[solType]]$testFuncs[[joinType]];
        if (is.null(testFunc)) next; ## this join type is not defined for this solution type
        testFuncName <- paste0('tf.',solType);
        assign(testFuncName,testFunc,envir=env);
        argSpecKey <- solSpecs[[solType]]$argSpec;
        argSpec <- getArgSpec(argSpecs,argSpecKey);
        argList <- setNames(nm=names(argSpec$args),vector('list',length(argSpec$args)));
        for (i in seq_along(argSpec$args)) {
            argName <- paste0('tfa.',argSpecKey,i);
            assign(argName,argSpec$args[[i]],envir=env);
            argList[[i]] <- if (i%in%argSpec$copySpec) call('copy',as.symbol(argName)) else as.symbol(argName);
        }; ## end for
        callExpressions[[length(callExpressions)+1L]] <- do.call(call,c(list(testFuncName),argList),quote=T);
        nms[length(nms)+1L] <- solType;
    }; ## end for
    names(callExpressions) <- nms;
    callExpressions;
}; ## end setUpBenchmarkCall()

harmonize <- function(res) {
    res <- as.data.frame(res); ## coerce to data.frame
    for (ci in which(sapply(res,is.factor))) res[[ci]] <- as.character(res[[ci]]); ## coerce factor columns to character
    for (ci in which(sapply(res,is.logical))) res[[ci]] <- as.integer(res[[ci]]); ## coerce logical columns to integer (works around sqldf quirk of munging logicals to integers)
    ##for (ci in which(sapply(res,inherits,'POSIXct'))) res[[ci]] <- as.double(res[[ci]]); ## coerce POSIXct columns to double (works around sqldf quirk of losing POSIXct class) ----- POSIXct doesn't work at all in sqldf.indexed
    res <- res[order(names(res))]; ## order columns
    res <- res[do.call(order,res),]; ## order rows
    res;
}; ## end harmonize()

checkIdentical <- function(argSpecs,solTypes=getSolTypes()) {
    for (joinType in getJoinTypes()) {
        callExpressions <- setUpBenchmarkCall(argSpecs,joinType,solTypes);
        if (length(callExpressions)<2L) next;
        ex <- harmonize(eval(callExpressions[[1L]]));
        for (i in seq(2L,len=length(callExpressions)-1L)) {
            y <- harmonize(eval(callExpressions[[i]]));
            if (!isTRUE(all.equal(ex,y,check.attributes=F))) {
                ex <<- ex;
                y <<- y;
                solType <- names(callExpressions)[i];
                stop(paste0('non-identical: ',solType,' ',joinType,'.'));
            }; ## end if
        }; ## end for
    }; ## end for
    invisible();
}; ## end checkIdentical()

testJoinType <- function(argSpecs,joinType,solTypes=getSolTypes(),metric=NULL,times=100L) {
    callExpressions <- setUpBenchmarkCall(argSpecs,joinType,solTypes);
    bm <- microbenchmark(list=callExpressions,times=times);
    if (is.null(metric)) return(bm);
    bm <- summary(bm);
    res <- setNames(nm=names(callExpressions),bm[[metric]]);
    attr(res,'unit') <- attr(bm,'unit');
    res;
}; ## end testJoinType()

testAllJoinTypes <- function(argSpecs,solTypes=getSolTypes(),metric=NULL,times=100L) {
    joinTypes <- getJoinTypes();
    resList <- setNames(nm=joinTypes,lapply(joinTypes,function(joinType) testJoinType(argSpecs,joinType,solTypes,metric,times)));
    if (is.null(metric)) return(resList);
    units <- unname(unlist(lapply(resList,attr,'unit')));
    res <- do.call(data.frame,c(list(join=joinTypes),setNames(nm=solTypes,rep(list(rep(NA_real_,length(joinTypes))),length(solTypes))),list(unit=units,stringsAsFactors=F)));
    for (i in seq_along(resList)) res[i,match(names(resList[[i]]),names(res))] <- resList[[i]];
    res;
}; ## end testAllJoinTypes()

testGrid <- function(makeArgSpecsFunc,sizes,overlaps,solTypes=getSolTypes(),joinTypes=getJoinTypes(),metric='median',times=100L) {

    res <- expand.grid(size=sizes,overlap=overlaps,joinType=joinTypes,stringsAsFactors=F);
    res[solTypes] <- NA_real_;
    res$unit <- NA_character_;
    for (ri in seq_len(nrow(res))) {

        size <- res$size[ri];
        overlap <- res$overlap[ri];
        joinType <- res$joinType[ri];

        argSpecs <- makeArgSpecsFunc(size,overlap);

        checkIdentical(argSpecs,solTypes);

        cur <- testJoinType(argSpecs,joinType,solTypes,metric,times);
        res[ri,match(names(cur),names(res))] <- cur;
        res$unit[ri] <- attr(cur,'unit');

    }; ## end for

    res;

}; ## end testGrid()

Oto punkt odniesienia dla przykładu opartego na PO, który pokazałem wcześniej:

## OP's example, supplemented with a non-matching row in df2
argSpecs <- list(
    default=list(copySpec=1:2,args=list(
        df1 <- data.frame(CustomerId=1:6,Product=c(rep('Toaster',3L),rep('Radio',3L))),
        df2 <- data.frame(CustomerId=c(2L,4L,6L,7L),State=c(rep('Alabama',2L),'Ohio','Texas')),
        'CustomerId'
    )),
    data.table.unkeyed=list(copySpec=1:2,args=list(
        as.data.table(df1),
        as.data.table(df2),
        'CustomerId'
    )),
    data.table.keyed=list(copySpec=1:2,args=list(
        setkey(as.data.table(df1),CustomerId),
        setkey(as.data.table(df2),CustomerId)
    ))
);
## prepare sqldf
initSqldf();
sqldf('create index df1_key on df1(CustomerId);'); ## upload and create an sqlite index on df1
sqldf('create index df2_key on df2(CustomerId);'); ## upload and create an sqlite index on df2

checkIdentical(argSpecs);

testAllJoinTypes(argSpecs,metric='median');
##    join    merge data.table.unkeyed data.table.keyed sqldf.unindexed sqldf.indexed      plyr    dplyr in.place         unit
## 1 inner  644.259           861.9345          923.516        9157.752      1580.390  959.2250 270.9190       NA microseconds
## 2  left  713.539           888.0205          910.045        8820.334      1529.714  968.4195 270.9185 224.3045 microseconds
## 3 right 1221.804           909.1900          923.944        8930.668      1533.135 1063.7860 269.8495 218.1035 microseconds
## 4  full 1302.203          3107.5380         3184.729              NA            NA 1593.6475 270.7055       NA microseconds

Tutaj porównuję losowe dane wejściowe, próbując różnych skal i różnych wzorów nakładania się klawiszy między dwiema tabelami wejściowymi. Ten test porównawczy jest nadal ograniczony do przypadku pojedynczej kolumny liczby całkowitej. Ponadto, aby zapewnić, że rozwiązanie na miejscu będzie działać zarówno dla lewego i prawego łączenia tych samych tabel, wszystkie losowe dane testowe wykorzystują 0..1:0..1liczność. Jest to realizowane przez próbkowanie bez zamiany kolumny klucza pierwszej data.frame podczas generowania kolumny klucza drugiej data.frame.

makeArgSpecs.singleIntegerKey.optionalOneToOne <- function(size,overlap) {

    com <- as.integer(size*overlap);

    argSpecs <- list(
        default=list(copySpec=1:2,args=list(
            df1 <- data.frame(id=sample(size),y1=rnorm(size),y2=rnorm(size)),
            df2 <- data.frame(id=sample(c(if (com>0L) sample(df1$id,com) else integer(),seq(size+1L,len=size-com))),y3=rnorm(size),y4=rnorm(size)),
            'id'
        )),
        data.table.unkeyed=list(copySpec=1:2,args=list(
            as.data.table(df1),
            as.data.table(df2),
            'id'
        )),
        data.table.keyed=list(copySpec=1:2,args=list(
            setkey(as.data.table(df1),id),
            setkey(as.data.table(df2),id)
        ))
    );
    ## prepare sqldf
    initSqldf();
    sqldf('create index df1_key on df1(id);'); ## upload and create an sqlite index on df1
    sqldf('create index df2_key on df2(id);'); ## upload and create an sqlite index on df2

    argSpecs;

}; ## end makeArgSpecs.singleIntegerKey.optionalOneToOne()

## cross of various input sizes and key overlaps
sizes <- c(1e1L,1e3L,1e6L);
overlaps <- c(0.99,0.5,0.01);
system.time({ res <- testGrid(makeArgSpecs.singleIntegerKey.optionalOneToOne,sizes,overlaps); });
##     user   system  elapsed
## 22024.65 12308.63 34493.19

Napisałem trochę kodu, aby utworzyć wykresy dziennika dla powyższych wyników. Wygenerowałem osobny wykres dla każdego procentu nakładania się. Jest trochę zagracony, ale lubię mieć wszystkie typy rozwiązań i typy połączeń przedstawione na tym samym wykresie.

Użyłem interpolacji splajnu, aby pokazać gładką krzywą dla każdej kombinacji typu rozwiązanie / połączenie, narysowaną za pomocą pojedynczych symboli pch. Typ łączenia jest uchwycony przez symbol pch, za pomocą kropki dla wewnętrznych, lewej i prawej nawiasów kątowych dla lewej i prawej oraz diamentu dla pełnego. Typ rozwiązania jest przechwytywany przez kolor, jak pokazano w legendzie.

plotRes <- function(res,titleFunc,useFloor=F) {
    solTypes <- setdiff(names(res),c('size','overlap','joinType','unit')); ## derive from res
    normMult <- c(microseconds=1e-3,milliseconds=1); ## normalize to milliseconds
    joinTypes <- getJoinTypes();
    cols <- c(merge='purple',data.table.unkeyed='blue',data.table.keyed='#00DDDD',sqldf.unindexed='brown',sqldf.indexed='orange',plyr='red',dplyr='#00BB00',in.place='magenta');
    pchs <- list(inner=20L,left='<',right='>',full=23L);
    cexs <- c(inner=0.7,left=1,right=1,full=0.7);
    NP <- 60L;
    ord <- order(decreasing=T,colMeans(res[res$size==max(res$size),solTypes],na.rm=T));
    ymajors <- data.frame(y=c(1,1e3),label=c('1ms','1s'),stringsAsFactors=F);
    for (overlap in unique(res$overlap)) {
        x1 <- res[res$overlap==overlap,];
        x1[solTypes] <- x1[solTypes]*normMult[x1$unit]; x1$unit <- NULL;
        xlim <- c(1e1,max(x1$size));
        xticks <- 10^seq(log10(xlim[1L]),log10(xlim[2L]));
        ylim <- c(1e-1,10^((if (useFloor) floor else ceiling)(log10(max(x1[solTypes],na.rm=T))))); ## use floor() to zoom in a little more, only sqldf.unindexed will break above, but xpd=NA will keep it visible
        yticks <- 10^seq(log10(ylim[1L]),log10(ylim[2L]));
        yticks.minor <- rep(yticks[-length(yticks)],each=9L)*1:9;
        plot(NA,xlim=xlim,ylim=ylim,xaxs='i',yaxs='i',axes=F,xlab='size (rows)',ylab='time (ms)',log='xy');
        abline(v=xticks,col='lightgrey');
        abline(h=yticks.minor,col='lightgrey',lty=3L);
        abline(h=yticks,col='lightgrey');
        axis(1L,xticks,parse(text=sprintf('10^%d',as.integer(log10(xticks)))));
        axis(2L,yticks,parse(text=sprintf('10^%d',as.integer(log10(yticks)))),las=1L);
        axis(4L,ymajors$y,ymajors$label,las=1L,tick=F,cex.axis=0.7,hadj=0.5);
        for (joinType in rev(joinTypes)) { ## reverse to draw full first, since it's larger and would be more obtrusive if drawn last
            x2 <- x1[x1$joinType==joinType,];
            for (solType in solTypes) {
                if (any(!is.na(x2[[solType]]))) {
                    xy <- spline(x2$size,x2[[solType]],xout=10^(seq(log10(x2$size[1L]),log10(x2$size[nrow(x2)]),len=NP)));
                    points(xy$x,xy$y,pch=pchs[[joinType]],col=cols[solType],cex=cexs[joinType],xpd=NA);
                }; ## end if
            }; ## end for
        }; ## end for
        ## custom legend
        ## due to logarithmic skew, must do all distance calcs in inches, and convert to user coords afterward
        ## the bottom-left corner of the legend will be defined in normalized figure coords, although we can convert to inches immediately
        leg.cex <- 0.7;
        leg.x.in <- grconvertX(0.275,'nfc','in');
        leg.y.in <- grconvertY(0.6,'nfc','in');
        leg.x.user <- grconvertX(leg.x.in,'in');
        leg.y.user <- grconvertY(leg.y.in,'in');
        leg.outpad.w.in <- 0.1;
        leg.outpad.h.in <- 0.1;
        leg.midpad.w.in <- 0.1;
        leg.midpad.h.in <- 0.1;
        leg.sol.w.in <- max(strwidth(solTypes,'in',leg.cex));
        leg.sol.h.in <- max(strheight(solTypes,'in',leg.cex))*1.5; ## multiplication factor for greater line height
        leg.join.w.in <- max(strheight(joinTypes,'in',leg.cex))*1.5; ## ditto
        leg.join.h.in <- max(strwidth(joinTypes,'in',leg.cex));
        leg.main.w.in <- leg.join.w.in*length(joinTypes);
        leg.main.h.in <- leg.sol.h.in*length(solTypes);
        leg.x2.user <- grconvertX(leg.x.in+leg.outpad.w.in*2+leg.main.w.in+leg.midpad.w.in+leg.sol.w.in,'in');
        leg.y2.user <- grconvertY(leg.y.in+leg.outpad.h.in*2+leg.main.h.in+leg.midpad.h.in+leg.join.h.in,'in');
        leg.cols.x.user <- grconvertX(leg.x.in+leg.outpad.w.in+leg.join.w.in*(0.5+seq(0L,length(joinTypes)-1L)),'in');
        leg.lines.y.user <- grconvertY(leg.y.in+leg.outpad.h.in+leg.main.h.in-leg.sol.h.in*(0.5+seq(0L,length(solTypes)-1L)),'in');
        leg.sol.x.user <- grconvertX(leg.x.in+leg.outpad.w.in+leg.main.w.in+leg.midpad.w.in,'in');
        leg.join.y.user <- grconvertY(leg.y.in+leg.outpad.h.in+leg.main.h.in+leg.midpad.h.in,'in');
        rect(leg.x.user,leg.y.user,leg.x2.user,leg.y2.user,col='white');
        text(leg.sol.x.user,leg.lines.y.user,solTypes[ord],cex=leg.cex,pos=4L,offset=0);
        text(leg.cols.x.user,leg.join.y.user,joinTypes,cex=leg.cex,pos=4L,offset=0,srt=90); ## srt rotation applies *after* pos/offset positioning
        for (i in seq_along(joinTypes)) {
            joinType <- joinTypes[i];
            points(rep(leg.cols.x.user[i],length(solTypes)),ifelse(colSums(!is.na(x1[x1$joinType==joinType,solTypes[ord]]))==0L,NA,leg.lines.y.user),pch=pchs[[joinType]],col=cols[solTypes[ord]]);
        }; ## end for
        title(titleFunc(overlap));
        readline(sprintf('overlap %.02f',overlap));
    }; ## end for
}; ## end plotRes()

titleFunc <- function(overlap) sprintf('R merge solutions: single-column integer key, 0..1:0..1 cardinality, %d%% overlap',as.integer(overlap*100));
plotRes(res,titleFunc,T);

R-merge-benchmark-single-column-integer-key-opcjonalny-one-to-one-99

R-merge-benchmark-single-column-integer-key-opcjonalny-one-to-one-50

R-merge-benchmark-single-column-integer-key-opcjonalny-one-to-one-1


Oto drugi test porównawczy na dużą skalę, który jest bardziej wytrzymały, pod względem liczby i rodzajów kluczowych kolumn, a także liczności. Do tego testu porównawczego używam trzech kluczowych kolumn: jeden znak, jedna liczba całkowita i jedna logiczna, bez ograniczeń liczności (czyli 0..*:0..*). (Zasadniczo nie zaleca się definiowania kolumn kluczowych z podwójnymi lub złożonymi wartościami ze względu na komplikacje zmiennoprzecinkowe i zasadniczo nikt nigdy nie używa surowego typu, a tym bardziej kolumn kluczowych, więc nie zawarłem tych typów w kluczu Ponadto ze względów informacyjnych początkowo próbowałem użyć czterech kolumn kluczowych, włączając kolumnę kluczową POSIXct, ale typ POSIXct z sqldf.indexedjakiegoś powodu nie działał dobrze z rozwiązaniem, prawdopodobnie z powodu anomalii zmiennoprzecinkowych, więc usunąłem.)

makeArgSpecs.assortedKey.optionalManyToMany <- function(size,overlap,uniquePct=75) {

    ## number of unique keys in df1
    u1Size <- as.integer(size*uniquePct/100);

    ## (roughly) divide u1Size into bases, so we can use expand.grid() to produce the required number of unique key values with repetitions within individual key columns
    ## use ceiling() to ensure we cover u1Size; will truncate afterward
    u1SizePerKeyColumn <- as.integer(ceiling(u1Size^(1/3)));

    ## generate the unique key values for df1
    keys1 <- expand.grid(stringsAsFactors=F,
        idCharacter=replicate(u1SizePerKeyColumn,paste(collapse='',sample(letters,sample(4:12,1L),T))),
        idInteger=sample(u1SizePerKeyColumn),
        idLogical=sample(c(F,T),u1SizePerKeyColumn,T)
        ##idPOSIXct=as.POSIXct('2016-01-01 00:00:00','UTC')+sample(u1SizePerKeyColumn)
    )[seq_len(u1Size),];

    ## rbind some repetitions of the unique keys; this will prepare one side of the many-to-many relationship
    ## also scramble the order afterward
    keys1 <- rbind(keys1,keys1[sample(nrow(keys1),size-u1Size,T),])[sample(size),];

    ## common and unilateral key counts
    com <- as.integer(size*overlap);
    uni <- size-com;

    ## generate some unilateral keys for df2 by synthesizing outside of the idInteger range of df1
    keys2 <- data.frame(stringsAsFactors=F,
        idCharacter=replicate(uni,paste(collapse='',sample(letters,sample(4:12,1L),T))),
        idInteger=u1SizePerKeyColumn+sample(uni),
        idLogical=sample(c(F,T),uni,T)
        ##idPOSIXct=as.POSIXct('2016-01-01 00:00:00','UTC')+u1SizePerKeyColumn+sample(uni)
    );

    ## rbind random keys from df1; this will complete the many-to-many relationship
    ## also scramble the order afterward
    keys2 <- rbind(keys2,keys1[sample(nrow(keys1),com,T),])[sample(size),];

    ##keyNames <- c('idCharacter','idInteger','idLogical','idPOSIXct');
    keyNames <- c('idCharacter','idInteger','idLogical');
    ## note: was going to use raw and complex type for two of the non-key columns, but data.table doesn't seem to fully support them
    argSpecs <- list(
        default=list(copySpec=1:2,args=list(
            df1 <- cbind(stringsAsFactors=F,keys1,y1=sample(c(F,T),size,T),y2=sample(size),y3=rnorm(size),y4=replicate(size,paste(collapse='',sample(letters,sample(4:12,1L),T)))),
            df2 <- cbind(stringsAsFactors=F,keys2,y5=sample(c(F,T),size,T),y6=sample(size),y7=rnorm(size),y8=replicate(size,paste(collapse='',sample(letters,sample(4:12,1L),T)))),
            keyNames
        )),
        data.table.unkeyed=list(copySpec=1:2,args=list(
            as.data.table(df1),
            as.data.table(df2),
            keyNames
        )),
        data.table.keyed=list(copySpec=1:2,args=list(
            setkeyv(as.data.table(df1),keyNames),
            setkeyv(as.data.table(df2),keyNames)
        ))
    );
    ## prepare sqldf
    initSqldf();
    sqldf(paste0('create index df1_key on df1(',paste(collapse=',',keyNames),');')); ## upload and create an sqlite index on df1
    sqldf(paste0('create index df2_key on df2(',paste(collapse=',',keyNames),');')); ## upload and create an sqlite index on df2

    argSpecs;

}; ## end makeArgSpecs.assortedKey.optionalManyToMany()

sizes <- c(1e1L,1e3L,1e5L); ## 1e5L instead of 1e6L to respect more heavy-duty inputs
overlaps <- c(0.99,0.5,0.01);
solTypes <- setdiff(getSolTypes(),'in.place');
system.time({ res <- testGrid(makeArgSpecs.assortedKey.optionalManyToMany,sizes,overlaps,solTypes); });
##     user   system  elapsed
## 38895.50   784.19 39745.53

Powstałe wykresy, przy użyciu tego samego kodu wydruku podanego powyżej:

titleFunc <- function(overlap) sprintf('R merge solutions: character/integer/logical key, 0..*:0..* cardinality, %d%% overlap',as.integer(overlap*100));
plotRes(res,titleFunc,F);

R-merge-benchmark-assorted-key-opcjonalny-many-to-many-99

R-merge-benchmark-assorted-key-opcjonalny-many-to-many-50

R-merge-benchmark-assorted-key-opcjonalny-many-to-many-1


bardzo ładna analiza, ale szkoda, że ​​ustawiłeś skalę od 10 ^ 1 do 10 ^ 6, są to tak małe zbiory, że różnica prędkości jest prawie nieistotna. Ciekawie byłoby zobaczyć od 10 ^ 6 do 10 ^ 8!
jangorecki

1
Zauważyłem również, że w teście porównawczym uwzględniono czas przymusu klasowego, co czyni go nieważnym dla operacji łączenia.
jangorecki

8
  1. Za pomocą mergefunkcji możemy wybrać zmienną lewej tabeli lub prawej tabeli, tak samo jak wszyscy znamy instrukcję select w SQL (EX: Wybierz a. * ... lub Wybierz b. * Z .....)
  2. Musimy dodać dodatkowy kod, który będzie się składał z nowo dołączonej tabeli.

    • SQL: - select a.* from df1 a inner join df2 b on a.CustomerId=b.CustomerId

    • R: - merge(df1, df2, by.x = "CustomerId", by.y = "CustomerId")[,names(df1)]

Ta sama droga

  • SQL: - select b.* from df1 a inner join df2 b on a.CustomerId=b.CustomerId

  • R: - merge(df1, df2, by.x = "CustomerId", by.y = "CustomerId")[,names(df2)]


7

Aby uzyskać wewnętrzne sprzężenie we wszystkich kolumnach, możesz również użyć fintersectz pakietu data.table lub intersectz pakietu dplyr jako alternatywy dla mergebez określania by-kolumn. da to wiersze, które są równe między dwoma ramkami danych:

merge(df1, df2)
#   V1 V2
# 1  B  2
# 2  C  3
dplyr::intersect(df1, df2)
#   V1 V2
# 1  B  2
# 2  C  3
data.table::fintersect(setDT(df1), setDT(df2))
#    V1 V2
# 1:  B  2
# 2:  C  3

Przykładowe dane:

df1 <- data.frame(V1 = LETTERS[1:4], V2 = 1:4)
df2 <- data.frame(V1 = LETTERS[2:3], V2 = 2:3)

5

Zaktualizuj dołączenie. Innym ważnym połączeniem w stylu SQL jest „ łączenie aktualizacji ”, w którym kolumny w jednej tabeli są aktualizowane (lub tworzone) przy użyciu innej tabeli.

Modyfikowanie przykładowych tabel PO ...

sales = data.frame(
  CustomerId = c(1, 1, 1, 3, 4, 6), 
  Year = 2000:2005,
  Product = c(rep("Toaster", 3), rep("Radio", 3))
)
cust = data.frame(
  CustomerId = c(1, 1, 4, 6), 
  Year = c(2001L, 2002L, 2002L, 2002L),
  State = state.name[1:4]
)

sales
# CustomerId Year Product
#          1 2000 Toaster
#          1 2001 Toaster
#          1 2002 Toaster
#          3 2003   Radio
#          4 2004   Radio
#          6 2005   Radio

cust
# CustomerId Year    State
#          1 2001  Alabama
#          1 2002   Alaska
#          4 2002  Arizona
#          6 2002 Arkansas

Załóżmy, że chcemy dodać stan klienta z custdo tabeli zakupów sales, ignorując kolumnę roku. Bazą R możemy zidentyfikować pasujące wiersze, a następnie skopiować wartości:

sales$State <- cust$State[ match(sales$CustomerId, cust$CustomerId) ]

# CustomerId Year Product    State
#          1 2000 Toaster  Alabama
#          1 2001 Toaster  Alabama
#          1 2002 Toaster  Alabama
#          3 2003   Radio     <NA>
#          4 2004   Radio  Arizona
#          6 2005   Radio Arkansas

# cleanup for the next example
sales$State <- NULL

Jak widać tutaj, matchwybiera pierwszy pasujący wiersz z tabeli klientów.


Zaktualizuj sprzężenie z wieloma kolumnami. Powyższe podejście działa dobrze, gdy łączymy tylko jedną kolumnę i jesteśmy zadowoleni z pierwszego dopasowania. Załóżmy, że chcemy, aby rok pomiaru w tabeli klientów był zgodny z rokiem sprzedaży.

Jako odpowiedź @ bgoldst wspomina, matchze interactionmoże być rozwiązaniem dla tego przypadku. Mówiąc prościej, można użyć data.table:

library(data.table)
setDT(sales); setDT(cust)

sales[, State := cust[sales, on=.(CustomerId, Year), x.State]]

#    CustomerId Year Product   State
# 1:          1 2000 Toaster    <NA>
# 2:          1 2001 Toaster Alabama
# 3:          1 2002 Toaster  Alaska
# 4:          3 2003   Radio    <NA>
# 5:          4 2004   Radio    <NA>
# 6:          6 2005   Radio    <NA>

# cleanup for next example
sales[, State := NULL]

Dołączanie aktualizacji kroczącej. Alternatywnie możemy chcieć przyjąć ostatni stan, w którym znaleziono klienta:

sales[, State := cust[sales, on=.(CustomerId, Year), roll=TRUE, x.State]]

#    CustomerId Year Product    State
# 1:          1 2000 Toaster     <NA>
# 2:          1 2001 Toaster  Alabama
# 3:          1 2002 Toaster   Alaska
# 4:          3 2003   Radio     <NA>
# 5:          4 2004   Radio  Arizona
# 6:          6 2005   Radio Arkansas

Trzy przykłady przede wszystkim koncentrują się na tworzeniu / dodawaniu nowej kolumny. Zobacz powiązane R FAQ na przykład aktualizacji / modyfikacji istniejącej kolumny.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.