Mam duży zestaw danych, który muszę podzielić na grupy zgodnie z określonymi parametrami. Chcę, aby zadanie przebiegło tak wydajnie, jak to możliwe. Mogę sobie wyobrazić dwa sposoby
Opcja 1 - Utwórz mapę z oryginalnego RDD i filtra
def customMapper(record):
if passesSomeTest(record):
return (1,record)
else:
return (0,record)
mappedRdd = rddIn.map(lambda x: customMapper(x))
rdd0 = mappedRdd.filter(lambda x: x[0]==0).cache()
rdd1 = mappedRdd.filter(lambda x: x[1]==1).cache()
Opcja 2 - Filtruj bezpośrednio oryginalny RDD
def customFilter(record):
return passesSomeTest(record)
rdd0 = rddIn.filter(lambda x: customFilter(x)==False).cache()
rdd1 = rddIn.filter(customFilter).cache()
Metoda pięści musi powtarzać wszystkie rekordy oryginalnego zestawu danych 3 razy, przy czym drugi musi to zrobić tylko dwa razy, jednak w normalnych okolicznościach iskra robi pewne zakulisowe tworzenie wykresu, więc mogłem sobie wyobrazić, że są skutecznie zrobione w ten sam sposób. Moje pytania są następujące: a.) Czy jedna metoda jest bardziej wydajna od drugiej, czy też budowanie wykresu iskierkowego czyni je równoważnymi b.) Czy można to zrobić w jednym przebiegu