Każde małe przetwarzanie bazy danych może być łatwo rozwiązane przez skrypty Python / Perl / ..., które używają bibliotek i / lub nawet narzędzi z samego języka. Jednak jeśli chodzi o wydajność, ludzie często sięgają po języki C / C ++ / niskiego poziomu. Wydaje się, że możliwość dostosowania kodu do potrzeb sprawia, że te języki są tak atrakcyjne dla BigData - czy to w zakresie zarządzania pamięcią, równoległości, dostępu do dysku, a nawet optymalizacji niskiego poziomu (za pomocą konstrukcji asemblacyjnych na poziomie C / C ++).
Oczywiście taki zestaw korzyści nie przyszedłby bez kosztów: napisanie kodu, a czasem nawet wynalezienie koła , może być dość kosztowne / męczące. Chociaż istnieje wiele bibliotek dostępnych, ludzie są skłonni do pisania kodu przez siebie ilekroć trzeba przyznać wydajność. Co wyłącza stwierdzenia dotyczące wydajności z korzystania z bibliotek podczas przetwarzania dużych baz danych?
Rozważmy na przykład przedsiębiorstwo, które stale indeksuje strony internetowe i analizuje zebrane dane. Dla każdego okna przesuwnego na wyodrębnionych danych uruchamiane są różne algorytmy eksploracji danych. Dlaczego programiści mieliby rezygnować z korzystania z dostępnych bibliotek / frameworków (do przeszukiwania, przetwarzania tekstu i eksploracji danych)? Wykorzystanie już zaimplementowanych rzeczy nie tylko zmniejszy ciężar kodowania całego procesu, ale także zaoszczędzi dużo czasu.
W jednym ujęciu :
- co sprawia, że samodzielne napisanie kodu jest gwarancją wydajności?
- dlaczego opieranie się na frameworkach / bibliotekach jest ryzykowne, skoro musisz zapewnić wysoką wydajność?