Niedawno zacząłem uczyć się uczenia maszynowego i analizy danych. Uderzam w ścianę z powodu potrzeby tworzenia i wyszukiwania dużych zestawów danych. Chciałbym pobrać dane, które gromadzę w życiu zawodowym i osobistym, i przeanalizować je, ale nie jestem pewien, jak najlepiej wykonać następujące czynności:
Jak powinienem przechowywać te dane? Przewyższać? SQL? ??
W jaki sposób początkujący może zacząć analizować te dane? Jestem profesjonalnym programistą komputerowym, więc złożoność nie polega na pisaniu programów, ale jest mniej lub bardziej specyficzna dla dziedziny analizy danych.
EDYCJA: Przepraszam za moją niejasność, kiedy zaczynasz się uczyć o czymś, trudno jest wiedzieć, czego nie wiesz, wiesz? ;)
Powiedziawszy to, moim celem jest zastosowanie tego do dwóch głównych tematów:
Wskaźniki zespołu oprogramowania (przemyśl prędkość Agile, oszacuj ryzyko, prawdopodobieństwo udanej iteracji, biorąc pod uwagę liczbę punktów historii)
Uczenie maszynowe (np. W danym zestawie modułów wystąpiły wyjątki systemowe), jakie jest prawdopodobieństwo, że moduł zgłosi wyjątek w tej dziedzinie, ile to będzie kosztowało, co dane mogą mi powiedzieć o kluczowych modułach do ulepszenia, które uzyskają mi najlepszy huk dla mojej złotówki, przewiduj, z jakiej części systemu użytkownik będzie chciał następnie skorzystać, aby rozpocząć ładowanie danych itp.).