Prosto z pyska konia :
Hadoop to platforma do uruchamiania aplikacji na dużych klastrach zbudowanych ze sprzętu towarowego. Struktura Hadoop w przejrzysty sposób zapewnia aplikacjom zarówno niezawodność, jak i ruch danych. Hadoop implementuje paradygmat obliczeniowy o nazwie Map / Reduce, w którym aplikacja jest podzielona na wiele małych fragmentów pracy, z których każdy może zostać wykonany lub ponownie wykonany na dowolnym węźle w klastrze. Ponadto zapewnia rozproszony system plików (HDFS), który przechowuje dane w węzłach obliczeniowych, zapewniając bardzo wysoką łączną przepustowość w całym klastrze. Zarówno Map / Reduce, jak i rozproszony system plików są zaprojektowane tak, aby awarie węzłów były automatycznie obsługiwane przez środowisko.
Map / Reduce to paradygmat programowania, który został upowszechniony przez Google, w którym zadanie jest podzielone na małe porcje i rozdzielone na dużą liczbę węzłów do przetworzenia (mapa), a następnie wyniki są podsumowane do ostatecznej odpowiedzi (zmniejszenie ). Google i Yahoo używają tego między innymi do swoich technologii wyszukiwarek.
Hadoop to ogólne środowisko do wdrażania tego rodzaju schematu przetwarzania. Co do tego, dlaczego kopie tyłek, głównie dlatego, że zapewnia schludne funkcje, takie jak odporność na awarie i pozwala zgromadzić prawie każdy rodzaj sprzętu do przetwarzania. Skaluje się również bardzo dobrze, pod warunkiem, że Twój problem pasuje do paradygmatu.
Możesz przeczytać o tym wszystko na stronie internetowej .
Jeśli chodzi o niektóre przykłady, Paul podał kilka, ale oto kilka innych, które możesz zrobić, które nie są tak skoncentrowane na Internecie:
- Renderowanie filmu 3D. Krok „map” rozdziela geometrię dla każdej ramki do innego węzła, węzły renderują ją, a renderowane ramki są ponownie łączone w kroku „zmniejszania”.
- Obliczanie energii w układzie w modelu molekularnym. Każda ramka trajektorii systemu jest dystrybuowana do węzła na etapie „mapy”. Węzły obliczają energię dla każdej ramki,
a następnie wyniki są podsumowywane w kroku „zmniejszania”.
Zasadniczo model działa bardzo dobrze w przypadku problemu, który można podzielić na podobne dyskretne obliczenia, które są całkowicie niezależne i mogą zostać ponownie połączone w celu uzyskania ostatecznego wyniku.