Obecnie pracuję jako specjalista ds. Danych w firmie detalicznej (moja pierwsza praca jako DS, więc to pytanie może wynikać z mojego braku doświadczenia). Mają ogromne zaległości w naprawdę ważnych projektach związanych z nauką danych, które miałyby bardzo pozytywny wpływ, gdyby zostały wdrożone. Ale.
W firmie nie ma potoków danych, standardowa procedura polega na tym, że przekazują mi gigabajty plików TXT, gdy tylko potrzebuję informacji. Pomyśl o tych plikach jako tabelarycznych dziennikach transakcji przechowywanych w tajemnej notacji i strukturze. Żadne informacje nie są zawarte w jednym źródle danych i nie mogą oni udzielić mi dostępu do swojej bazy danych ERP ze względów bezpieczeństwa.
Wstępna analiza danych dla najprostszego projektu wymaga brutalnego, rozdzierającego duszenia danych. Ponad 80% czasu spędzonego przez projekt to parsowanie tych plików i przechodzenie między źródłami danych w celu zbudowania wykonalnych zestawów danych. Nie jest to problem po prostu obsługi brakujących danych lub ich wstępnego przetwarzania. Chodzi o pracę, jaką zajmuje zbudowanie danych, które można obsłużyć w pierwszej kolejności ( rozwiązanie dba lub inżynieria danych, a nie nauka danych? ).
1) Wydaje się, że większość pracy w ogóle nie jest związana z nauką danych. Czy to jest dokładne?
2) Wiem, że nie jest to firma oparta na danych, posiadająca dział inżynierii danych wysokiego poziomu, ale moim zdaniem, aby zbudować zrównoważoną przyszłość projektów związanych z nauką danych, wymagany jest minimalny poziom dostępności danych . Czy się mylę?
3) Czy ten typ konfiguracji jest powszechny w firmie o poważnych potrzebach w zakresie analizy danych?