To naprawdę zależy od tego, co próbujesz osiągnąć i co masz na myśli przez „klaster obliczeń rozproszonych”. Podobne działanie zrobiłem kiedyś w Uni, używając starych maszyn i PVM , czyli „Klastra” w sensie grupy maszyn działających jako pojedynczy komputer do równoległego przetwarzania - pomyśl klastry Beowulf. Oczywiście będziesz potrzebować napisanego kodu, aby z tego skorzystać.
Dobrym miejscem do rozpoczęcia byłoby ustalenie, czego chcesz się nauczyć z tego projektu. Polecam przeczytanie artykułu w Wikipedii na temat obliczeń równoległych na początek, a następnie udoskonalenie swoich potrzeb w oparciu o to, co chcesz zrobić.
Prosty system kolejkowania zadań (jak gearman ) może wystarczyć, aby szybko uzyskać fajne wyniki.
Problem, który miałem, kiedy tworzyłem klaster obliczeń równoległych, polegał na tym, że nie miałem z tym nic wspólnego, po prostu siedziałem tam, ale był to zabawny projekt i sporo się nauczyłem. W każdym razie możesz się sporo nauczyć i jednocześnie dobrze się bawić, niezależnie od tego, co zdecydujesz się wdrożyć.
Jeśli chodzi o wybór dystrybucji, wybrałbym to, co było dla mnie najwygodniejsze, ponieważ prawdopodobnie będziesz musiał zainstalować rzeczy ze źródła. Kiedy już wszystko będzie w porządku, możesz wszystko skonfigurować, a następnie możesz znaleźć dystrybucję bardziej dostosowaną do twoich potrzeb. Ale każda dystrybucja powinna wystarczyć.
Jakie oprogramowanie skonfigurować klaster? Zależy to całkowicie od rodzaju tworzonego klastra.
Wbudowany czy rozproszony FS? Znowu zależy to od wymagań dotyczących klastra. Czy każdy węzeł będzie przekazywał dane tam iz powrotem między innymi węzłami? Czy będą działać jako niewolnicy z jednym panem? czy będą operować całkowicie niezależnie? Te pytania zaczną informować o twoich wyborach. I oczywiście zawsze są kompromisy.
Niektóre inne linki, które mogą okazać się interesujące:
http://hadoop.apache.org/
http://www.csm.ornl.gov/oscar/
https://computing.llnl.gov/tutorials/parallel_comp/
http://www.google.com/Top/Computers/Parallel_Computing/Programming/Environments/
http://www.google.com/Top/Computers/Parallel_Computing/Beowulf/