Condor, OGE i Torque mogą cię tam dostać, ale tylko Condor ma wbudowane zarządzanie zależnościami za pomocą narzędzia DAGMan . DAGMan pozwala skonfigurować ukierunkowany, acykliczny wykres opisujący przebieg pracy, a kierownik dba o przechodzenie między zadaniami w przepływie pracy i ocenę wyników pozytywnych / negatywnych na każdym etapie przepływu. Condor jest względnie niezależny od platformy, co oznacza, że DAGMan też. Z pewnością można uruchomić jeden krok podrzędny w systemie AIX, gdy rodzic działa w systemie Linux lub Windows. DAGMan nie przejmuje się tym, gdzie uruchamiane są zadania, tylko to, że kody wyjścia są przekazywane lub nie.
Wszelkie wskazówki dotyczące wyboru oprogramowania lub tego, czy lepiej przejść na oprogramowanie open source czy komercyjne?
Z pewnymi zastrzeżeniami uważam, że warto przyjrzeć się wolnym społecznościom w tej przestrzeni.
OGE jest teraz w dziwnej przestrzeni. Uruchomienie wariantu GE produkowanego przez Oracle nie jest już darmowe, a Oracle nie dodaje już kodu, który zapisuje z powrotem w GE SCC, ale istnieje kilka rozwidleń kodu, które próbują wykorzystać jako bezpłatne projekty typu open source. W szczególności Univa przewodził tej sprawie , zatrudniając byłych twórców Sun GE, aby kontynuowali pracę nad otwartym, ogólnodostępnym wariantem GE. Silnik Grid Engine ma dwie rzeczy: jest łatwy w konfiguracji, może obsłużyć krótkotrwałe (<2 minuty) zadania bez nadmiernego nakładania harmonogramu na zadania, które spowalniają wydajność. Wielką wadą jest to, że nie ma bardzo dobrego wsparcia dla systemu Windows. Niektórzy z nas starali się przenieść go na Cygwina wiele lat temu, ale na pewno nie jest tak dobry jak native.
Teraz Condor jest moją ulubioną z trzech wspomnianych technologii. Wokół Condor istnieje silna społeczność, a oprogramowanie jest bardzo dojrzałe (teraz> 20 lat). Natywna obsługa systemów operacyjnych Windows i POSIX oznacza, że działa bardzo dobrze wszędzie. Wspomniany DAGMan jest tylko jednym z wielu wspaniałych elementów, które są dostarczane z Condorem. Konfiguracja może być skomplikowana, ale kiedy jest już uruchomiona i działa, jest niesamowicie solidny. Ma niewiarygodnie elastyczny język do wykonywania zadań <-> dopasowywania maszyn i budowania reguł użytkowania zasobów. Obsługuje także dynamiczne przydzielanie na komputerach, umożliwiając zadaniom wybranie potrzebnych zasobów maszyn, a następnie ponownie reklamując różnicę jako wciąż dostępną. Obsługuje globalne liczniki zasobów, dzięki czemu można ograniczyć się do takich rzeczy, jak licencje na oprogramowanie. I oczywiście, ma DAGMan, który jest niezwykle potężnym narzędziem do zarządzania przepływem pracy. Wadą Condora jest to, że narzut związany z planowaniem krótkich zadań może być uciążliwy. Idealnie potrzebujesz zadań, które trwają dłużej niż 2 minuty, w przeciwnym razie planowanie zacznie stanowić dużą część czasu pracy w systemie.
Torque jest trochę bardziej niszowy. Obawiam się, że mniej wiem. Porównuje bardziej do silnika sieciowego niż Condora. Istnieją płatne dodatki wspomniane przez @warren, które mogą rozszerzyć to, co może zrobić podstawowa, darmowa Torque.
Jeśli chcesz wypróbować trzy technologie i sprawdzić, jak działają one z Twoimi konkretnymi obciążeniami, CycleCloud może rozdzielić bezpieczne, zwirtualizowane pule, które są wstępnie skonfigurowane z Condor, GridEngine lub Torque - więc nie marnuj czasu na wymyślanie tego. z Twojej strony. Rozbudowanie małych pul każdej technologii i wypróbowanie ich przy reprezentatywnych obciążeniach zajęłoby kilka dolarów. (Uwaga: Pracuję dla Cycle Computing, tworzymy CycleCloud)