Jak zacząć czytać o eksploracji danych?


14

Jestem nowicjuszem, który zacznie czytać o eksploracji danych. Mam podstawową wiedzę na temat sztucznej inteligencji i statystyki. Ponieważ wielu twierdzi, że uczenie maszynowe odgrywa również ważną rolę w eksploracji danych, czy konieczne jest przeczytanie o uczeniu maszynowym, zanim będę mógł kontynuować eksplorację danych?


1
Data Mining: Concepts and Techniques Autor: Jiawei Han to dobry początek
aaronjg

Odpowiedzi:


12

Będąc trochę w tej pozycji, postaram się dać wgląd.

Najpierw pobierz elementy uczenia statystycznego . Zakłada rachunek różniczkowy i algebrę liniową i chociaż jest bardzo techniczny, jest również wyjątkowo dobrze napisany.

Po drugie (lub po pierwsze) zapoznaj się z samouczkami Andrew Ng dotyczącymi uczenia maszynowego.

Po trzecie, zdobądź trochę danych i rozpocznij próbę ich analizy. Musisz podzielić na zestawy treningowe i testowe, a następnie zbudować modele na zestawie treningowym i przetestować je na zestawie testowym. Uważam, że pakiet karetki dla R jest bardzo przydatny do tego wszystkiego. Po tym ćwiczeniu ćwicz ćwiczenie (jak prawie wszystko inne).


1
odstraszysz biedaka na zawsze!
Neil McGuigan

Zgodnie z ml-class.org - kurs Andew Ng będzie „oferowany bezpłatnie i online” studentom na całym świecie jesienią 2011 r.
Andre Holzner


4

Eksploracja danych może mieć charakter opisowy lub predykcyjny.

Z jednej strony, jeśli interesuje Cię opisowe wyszukiwanie danych, uczenie maszynowe nie pomoże.

Z drugiej strony, jeśli jesteś zainteresowany predykcyjnym eksploracją danych, to uczenie maszynowe pomoże ci zrozumieć, że próbujesz zminimalizować nieznane ryzyko (oczekiwanie funkcji straty) przy minimalizacji ryzyka empirycznego: będziesz pamiętać o przeładowaniu, uogólnieniu błąd i weryfikacja krzyżowa. Na przykład dla zachowania spójności wartość -NN dla próbki szkoleniowej o rozmiarze powinna być taka, aby:kn

  • k idzie w nieskończoność, gdy idzie w nieskończoność,n
  • kn przechodzi do 0, gdy przechodzi w nieskończoność.n

3
Warto zauważyć, że niektórzy autorzy lubią rozróżniać DM i ML w zależności od wielkości . Osobiście podoba mi się podejście Radforda Neale'a w jego kursie Statystycznych metod uczenia maszynowego i eksploracji danych : Wiele problemów uczenia maszynowego ma dużą liczbę zmiennych, aplikacje eksploracji danych często obejmują bardzo dużą liczbę przypadków. k/n
chl

3

Dodam tylko kolejne bardzo dobre źródło samouczków dotyczących eksploracji danych / uczenia maszynowego autorstwa Toma Mitchella .

Wyjaśnia to bardzo wyraźnie i możesz również pobrać jego prezentacje ze swojej strony internetowej (wraz z oglądaniem tam jego wykładów).

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.