Spróbuję odpowiedzieć na twoje pytania, ale wcześniej chciałbym zauważyć, że użycie terminu „duży zestaw danych” jest mylące, ponieważ „duży” jest pojęciem względnym . Musisz podać więcej szczegółów. Jeśli masz do czynienia z danymi ofert , ten fakt najprawdopodobniej wpłynie na wybór preferowanych narzędzi , podejść i algorytmów do analizy danych . Mam nadzieję, że następujące moje przemyślenia na temat analizy danych dotyczą twoich pytań cząstkowych. Pamiętaj, że numeracja moich punktów nie zgadza się z numeracją twoich pytań cząstkowych. Uważam jednak, że lepiej odzwierciedla ogólny przepływ pracy z analizą danych , przynajmniej sposób, w jaki ją rozumiem.
1) Po pierwsze, uważam, że musisz mieć na myśli przynajmniej jakiś model konceptualny (lub, lepiej, na papierze). Ten model powinien pomóc ci w analizie danych eksploracyjnych (EDA) . Obecność zmiennej zależnej (DV) w modelu oznacza, że w fazie uczenia maszynowego (ML) w dalszej części analizy będziesz mieć do czynienia z tak zwanym nadzorowanym ML, w przeciwieństwie do ML bez nadzoru w przypadku braku zidentyfikowanego DV.
2) Po drugie, EDA jest kluczową częścią. IMHO, EDA powinny obejmować wiele iteracji tworzenia statystyk opisowych i wizualizacji danych , gdy dopracujesz swoje rozumienie danych. Nie tylko ta faza dostarczy cennych informacji na temat twoich zestawów danych, ale będzie również zasilać następną ważną fazę - czyszczenie i transformację danych . Samo wrzucenie surowych danych do pakietu oprogramowania statystycznego niewiele da - w przypadku każdej ważnej analizy statystycznej dane powinny być czyste, poprawne i spójne . Jest to często najbardziej czasochłonna i pracochłonna, ale absolutnie niezbędna część. Aby uzyskać więcej informacji na ten temat, przeczytaj te fajne artykuły:http://vita.had.co.nz/papers/tidy-data.pdf (autor: Hadley Wickham) i http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (autor: Edwin de Jonge i Mark van der Loo).
3) Teraz, mając nadzieję, że skończyłeś już z EDA, a także czyszczeniem i transformacją danych, jesteś gotowy na rozpoczęcie bardziej statystycznie zaangażowanych faz. Jedną z takich faz jest eksploracyjna analiza czynnikowa (EFA) , która pozwoli Ci wyodrębnić strukturę danych. W przypadku zestawów danych z dużą liczbą zmiennych pozytywnym efektem ubocznym EFA jest zmniejszenie wymiarów . I chociaż w tym sensie EFA jest podobna do analizy głównych składników (PCA)i inne podejścia do zmniejszania wymiarów, myślę, że EFA jest ważniejsza, ponieważ pozwala udoskonalić konceptualny model zjawisk, które „opisują” twoje dane, dzięki czemu sens zestawów danych. Oczywiście, oprócz EFA, można / należy przeprowadzić analizę regresji, a także zastosować techniki uczenia maszynowego , w oparciu o ustalenia z poprzednich faz.
Na koniec uwaga na temat narzędzi programowych . Moim zdaniem obecny stan pakietów oprogramowania statystycznego jest na takim poziomie, że praktycznie każdy większy pakiet oprogramowania ma porównywalną ofertę pod względem funkcji. Jeśli studiujesz lub pracujesz w organizacji, która ma określone zasady i preferencje w zakresie narzędzi programowych, jesteś przez nich ograniczony . Jeśli jednak tak nie jest, serdecznie polecam oprogramowanie statystyczne o otwartym kodzie źródłowym , oparte na twoim komforcie z jego specyficznym językiem programowania , krzywą uczenia się i twoimi perspektywami kariery . Moją obecną platformą z wyboru jest R Project, który oferuje dojrzałe, wydajne, elastyczne, rozbudowane i otwarte oprogramowanie statystyczne, a także niesamowity ekosystem pakietów, ekspertów i entuzjastów. Inne fajne opcje obejmują Python , Julia i specjalne oprogramowanie open source do przetwarzania dużych danych , takie jak Hadoop , Spark , bazy danych NoSQL , WEKA . Więcej przykładów oprogramowania typu open source do eksploracji danych , które obejmuje ogólne i szczegółowe oprogramowanie statystyczne i ML, znajduje się w tej części strony Wikipedii: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
AKTUALIZACJA: Zapomniałem wspomnieć o Rattle ( http://rattle.togaware.com ), który jest również bardzo popularnym oprogramowaniem GUI typu open source do eksploracji danych.