W wielu rzeczywistych sytuacjach, w których stosujesz MapReduce, ostateczne algorytmy kończą się na kilku krokach MapReduce.
tj. Map1, Reduce1, Map2, Reduce2 i tak dalej.
Mamy więc dane wyjściowe z ostatniej redukcji, które są potrzebne jako dane wejściowe dla następnej mapy.
Dane pośrednie to coś, czego (ogólnie) nie chcesz zachować po pomyślnym zakończeniu potoku. Ponieważ te dane pośrednie są na ogół pewną strukturą danych (jak „mapa” lub „zbiór”), nie chcesz wkładać zbyt wiele wysiłku w pisanie i odczytywanie tych par klucz-wartość.
Jaki jest zalecany sposób robienia tego w Hadoop?
Czy istnieje (prosty) przykład, który pokazuje, jak prawidłowo obsługiwać te dane pośrednie, łącznie z późniejszym czyszczeniem?