Pozwól mi najpierw wyjaśnić, że rozpoczynam swoją podróż do nauki o danych z punktu widzenia programisty i programisty baz danych. Nie jestem 10-letnim ekspertem od danych i boga statystycznego. Pracuję jednak jako analityk danych i duże zbiory danych dla firmy, która współpracuje z dość dużymi klientami na całym świecie.
Z mojego doświadczenia wynika, że analityk danych korzysta z narzędzi potrzebnych do wykonania pracy. Excel, R, SAS, Python i inne są narzędziami w zestawie narzędzi dla dobrego naukowca. Najlepsi mogą korzystać z szerokiej gamy narzędzi do analizy i analizy danych.
Dlatego jeśli porównujesz R z Pythonem, prawdopodobnie robisz to wszystko źle w świecie nauki o danych. Dobry specjalista od danych korzysta zarówno wtedy, gdy sensowne jest użycie jednego nad drugim. Dotyczy to również programu Excel.
Myślę, że raczej trudno jest znaleźć kogoś, kto będzie miał doświadczenie w tak wielu różnych narzędziach i językach, będąc świetnym we wszystkim. Myślę też, że ciężko będzie znaleźć specjalistę od danych, który nie tylko może programować złożone algorytmy, ale także wiedzieć, jak ich używać z statystycznego punktu widzenia.
Większość naukowców, z którymi pracowałem, ma około 2 smaków. Tych, którzy mogą programować i tych, którzy nie mogą. Rzadko współpracuję z naukowcami danych, którzy potrafią pobierać dane w Pythonie, manipulować nimi za pomocą czegoś takiego jak Panda, dopasowywać model do danych w R, a następnie prezentować je zarządowi pod koniec tygodnia.
To znaczy wiem, że istnieją. Czytałem wiele blogów z zakresu analizy danych od facetów tworzących skrobaki internetowe, wpychając go do Hadoop, wyciągając go z powrotem w Pythonie, programując skomplikowane rzeczy i uruchamiając go przez R. Oni istnieją. Są tam. Po prostu nie spotkałem zbyt wielu, którzy mogą to wszystko zrobić. Może to tylko moja dziedzina?
Czy to oznacza tylko specjalizację w złej rzeczy? Nie. Wielu moich przyjaciół specjalizuje się tylko w jednym głównym języku i zabija go. Znam wielu facetów od danych, którzy znają tylko R i zabijają go. Znam też wiele osób, które po prostu używają Excela do analizowania danych, ponieważ jest to jedyna rzecz, którą większość naukowców niebędących danymi może otworzyć i używać (szczególnie w firmach B2B). Pytanie, na które naprawdę musisz odpowiedzieć, brzmi: czy ta jedna rzecz jest JEDNĄ rzeczą, której potrzebujesz na tym stanowisku? A co najważniejsze, czy mogą nauczyć się nowych rzeczy?
PS
Data Science nie ogranicza się tylko do „BIG DATA” lub NoSQL.