Jestem R programistą języka. Należę również do grupy osób, które są uważane za naukowców danych, ale wywodzą się z dyscyplin naukowych innych niż CS.
Działa to dobrze w mojej roli naukowca danych, jednak rozpoczynając karierę Ri mając podstawową znajomość innych języków skryptowych / internetowych, czułem się nieco nieodpowiedni w dwóch kluczowych obszarach:
- Brak solidnej znajomości teorii programowania.
- Brak konkurencyjnego poziomu umiejętności w szybszych i szerzej używanych językach, takich jak
C,C++iJavaktóre mogłyby zostać wykorzystane do zwiększenia prędkości potoku i obliczeń Big Data, a także do tworzenia produktów DS / danych, które można łatwiej przekształcić w szybkie skrypty zaplecza lub samodzielne aplikacje.
Rozwiązanie jest oczywiście proste - dowiedz się więcej o programowaniu, co właśnie robiłem, zapisując się na niektóre zajęcia (obecnie programowanie w języku C).
Jednak teraz, że zaczynam problemów adresowych # 1 i # 2 powyżej, pozostaje mi sobie pytanie „ Jak bardzo opłacalne są językami, jak Ci C++dla danych Science? ”.
Na przykład mogę bardzo szybko przenosić dane i dobrze komunikować się z użytkownikami, ale co z zaawansowaną regresją, uczeniem maszynowym, eksploracją tekstu i innymi bardziej zaawansowanymi operacjami statystycznymi?
Więc. może Cwykonać zadanie - jakie narzędzia są dostępne dla zaawansowanych statystyk, ML, AI i innych dziedzin Data Science? Czy też muszę stracić większość wydajności uzyskanej dzięki programowaniu Cpoprzez wywoływanie Rskryptów lub innych języków?
Najlepszym zasobem, jaki do tej pory znalazłem w C, jest biblioteka o nazwie Shark , która daje C/ C++możliwość korzystania z maszyn wektorów wsparcia, regresji liniowej (nieliniowej i innych zaawansowanych regresji, takich jak probin wielomianowy itp.) Oraz krótkiej listy innych (świetne, ale) funkcje statystyczne.
