O czym to jest
Sama wiedza na temat technik jest podobna do znajomości zwierząt w zoo - możesz je nazwać, opisać ich właściwości, a może zidentyfikować je na wolności.
Zrozumienie, kiedy ich używać, formułowanie, budowanie, testowanie i wdrażanie działających modeli matematycznych w obszarze aplikacji, unikając pułapek --- to są umiejętności, które mnie wyróżniają.
Nacisk należy położyć na naukę , stosując systematyczne, naukowe podejście do problemów biznesowych, przemysłowych i handlowych. Ale wymaga to umiejętności szerszych niż eksploracja danych i uczenie maszynowe, jak przekonująco przekonuje Robin Bloor w „A Data Science Rant” .
Co więc można zrobić?
Obszary zastosowania : poznaj różne obszary zastosowania bliskie twoim zainteresowaniom lub pracodawcy. Obszar ten jest często mniej ważny niż zrozumienie, w jaki sposób zbudowano model i jak wykorzystano go do zwiększenia wartości tego obszaru. Modele, które odnoszą sukcesy w jednym obszarze, często można przeszczepić i zastosować w różnych obszarach, które działają w podobny sposób.
Konkursy : wypróbuj witrynę Kaggle poświęconą eksploracji danych , najlepiej dołączając do zespołu innych osób. (Kaggle: platforma do konkursów modelowania predykcyjnego. Firmy, rządy i badacze prezentują zestawy danych i problemy, a najlepsi na świecie naukowcy konkurują o najlepsze rozwiązania).
Podstawy : Istnieją cztery: (1) solidne podstawy w statystyce, (2) dość dobre umiejętności programistyczne, (3) zrozumienie, jak konstruować złożone zapytania danych, (4) budowanie modeli danych. Jeśli jakieś są słabe, to ważne jest, aby zacząć.
Kilka cytatów w tym zakresie:
`` Bardzo wcześnie nauczyłem się różnicy między znajomością nazwy czegoś a wiedzą czegoś. Możesz znać imię ptaka we wszystkich językach świata, ale kiedy skończysz, nie będziesz wiedział absolutnie nic o nim ... Więc spójrzmy na ptaka i zobaczmy, co on robi - to jest to, co się liczy. '' - Richard Feynman, „The Making of a Scientist”, s. 14 w What Do You Care What That People Think, 1988
Pamiętać:
`` Połączenie umiejętności wymaganych do przeprowadzenia tych projektów z zakresu nauk biznesowych [data science] rzadko znajduje się u jednej osoby. Ktoś mógł rzeczywiście zdobyć rozległą wiedzę w trzech obszarach (i) co robi firma, (ii) jak korzystać ze statystyk oraz (iii) jak zarządzać przepływem danych i danych. Jeśli tak, to on lub ona rzeczywiście może twierdzić, że jest naukowcem biznesu (inaczej „naukowcem danych”) w danym sektorze. Ale takie osoby są prawie tak rzadkie jak zęby kury. '' - Robin Bloor, A Data Science Rant , sierpień 2013, Inside Analysis
I w końcu:
`` Mapa to nie terytorium '' - Alfred Korzybski, 1933, Science & Sanity.
Najbardziej realne, zastosowane problemy nie są dostępne wyłącznie z `` mapy ''. Aby robić praktyczne rzeczy z modelowaniem matematycznym, trzeba być gotowym na branie ze szczegółami, subtelnościami i wyjątkami. Nic nie zastąpi znajomości terytorium z pierwszej ręki.