Jaka jest różnica między eksploracją danych, statystykami, uczeniem maszynowym i sztuczną inteligencją?


208

Jaka jest różnica między eksploracją danych, statystykami, uczeniem maszynowym i sztuczną inteligencją?

Czy słusznie byłoby powiedzieć, że są to 4 pola próbujące rozwiązać bardzo podobne problemy, ale o różnych podejściach? Co dokładnie mają ze sobą wspólnego i czym się różnią? Jeśli istnieje między nimi jakaś hierarchia, co by to było?

Podobne pytania zostały zadane wcześniej, ale wciąż nie rozumiem:

Odpowiedzi:


109

Są one w znacznym stopniu pokrywane, ale można wprowadzić pewne rozróżnienia. Z konieczności będę musiał nadmiernie uprościć niektóre rzeczy lub dać krótki zwrot innym, ale dołożę wszelkich starań, aby dać trochę zrozumienia tych obszarów.

Po pierwsze, sztuczna inteligencja różni się od reszty. AI to nauka tworzenia inteligentnych agentów. W praktyce chodzi o to, jak zaprogramować komputer, aby zachowywał się i wykonywał zadanie tak, jak zrobiłby to inteligentny agent (powiedzmy osoba). To nie mają zaangażować uczenia lub indukcję w ogóle, to może być tylko sposobem „zbudować lepszą pułapkę na myszy”. Na przykład aplikacje AI zawierają programy do monitorowania i kontrolowania trwających procesów (np. Zwiększania aspektu A, jeśli wydaje się on zbyt niski). Zauważ, że sztuczna inteligencja może obejmować cholernie blisko wszystkiego , co robi maszyna, o ile nie robi tego „głupio”.

W praktyce jednak większość zadań wymagających inteligencji wymaga umiejętności pozyskiwania nowej wiedzy z doświadczeń. Dlatego dużym obszarem sztucznej inteligencji jest uczenie maszynowe . Mówi się, że program komputerowy uczy się jakiegoś zadania na podstawie doświadczenia, jeśli jego wydajność poprawia się wraz z doświadczeniem, zgodnie z pewną miarą wydajności. Uczenie maszynowe polega na badaniu algorytmów, które mogą automatycznie wyodrębniać informacje (tj. Bez wskazówek człowieka w Internecie). Z pewnością jest tak, że niektóre z tych procedur obejmują pomysły zaczerpnięte bezpośrednio lub zainspirowane klasycznymi statystykami, ale ich nie mająbyć. Podobnie jak sztuczna inteligencja, uczenie maszynowe jest bardzo szerokie i może obejmować prawie wszystko, o ile jest w tym jakiś element indukcyjny. Przykładem algorytmu uczenia maszynowego może być filtr Kalmana.

Eksploracja danych jest obszarem, który czerpał wiele inspiracji i technik z uczenia maszynowego (a niektóre także ze statystyk), ale ma inne cele . Eksploracja danych jest przeprowadzana przez osobę w określonej sytuacji na określonym zbiorze danych, mając na uwadze cel. Zazwyczaj osoba ta chce wykorzystać moc różnych technik rozpoznawania wzorców opracowanych w uczeniu maszynowym. Dość często zestaw danych jest ogromny , skomplikowany i / lub może mieć szczególne problemy(np. istnieje więcej zmiennych niż obserwacji). Zwykle celem jest albo odkrycie / wygenerowanie pewnych wstępnych spostrzeżeń w obszarze, w którym naprawdę niewiele było wcześniej wiedzy, lub umiejętność dokładnego przewidywania przyszłych obserwacji. Ponadto procedury eksploracji danych mogą być „nadzorowane” (nie znamy odpowiedzi - odkrycie) lub „nadzorowane” (znamy odpowiedź - przewidywanie). Należy pamiętać, że generalnie celem nie jest wypracowanie bardziej wyrafinowanego zrozumienia leżącego u podstaw procesu generowania danych. Typowe techniki eksploracji danych obejmowałyby analizy skupień, drzewa klasyfikacji i regresji oraz sieci neuronowe.

Przypuszczam, że nie muszę wiele mówić, aby wyjaśnić, jakie statystyki są na tej stronie, ale być może mogę powiedzieć kilka rzeczy. Statystyka klasyczna (tutaj mam na myśli zarówno Frequistist, jak i Bayesian) jest podtematem w matematyce. Uważam to za w dużej mierze przecięcie tego, co wiemy o prawdopodobieństwie i tego, co wiemy o optymalizacji. Chociaż statystyki matematyczne można badać jako po prostu platoński przedmiot badań, są one w większości rozumiane jako bardziej praktyczne i stosowane w charakterze niż inne, bardziej rzadkie dziedziny matematyki. Jako taki (a zwłaszcza w przeciwieństwie do eksploracji danych powyżej), jest on głównie wykorzystywany do lepszego zrozumienia niektórych konkretnych procesów generowania danych. Dlatego zwykle zaczyna się od formalnie określonego modelu, z których pochodzą pochodne procedury do dokładnego wyodrębnienia tego modelu z hałaśliwych instancji (tj. oszacowania - przez optymalizację niektórych funkcji strat) i umożliwienia odróżnienia go od innych możliwości (tj. wnioskowania na podstawie znanych właściwości rozkładów próbkowania). Prototypową techniką statystyczną jest regresja.


1
Zgadzam się z większością postów, ale powiedziałbym, że AI przez większość czasu nie próbuje tworzyć inteligentnych agentów (co to w ogóle jest inteligencja?), Ale racjonalnych agentów. Przez rozumne rozumie się „optymalne, biorąc pod uwagę dostępną wiedzę o świecie”. Wprawdzie ostatecznym celem jest coś w rodzaju ogólnego rozwiązania problemu.
kutschkem

3
przepraszam, wciąż nie rozumiem różnicy między eksploracją danych a uczeniem maszynowym. z tego, co widzę, eksploracja danych = uczenie maszynowe bez nadzoru. czy uczenie maszynowe nie jest nadzorowane w zakresie odkrywania nowych informacji?
dtc

Anonimowy użytkownik zasugerował ten blog na tabelę przedstawiającą różnice między eksploracją danych a uczeniem maszynowym na podstawie parametrów.
gung

1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.Czy można bezpiecznie powiedzieć, że sieć neuronowa jest przykładem narzędzia uczenia maszynowego stosowanego w eksploracji danych, w porównaniu do analizy skupień, która jest algorytmem nieprzeznaczonym do uczenia maszynowego wykorzystywanego do eksploracji danych?
t0mgs

W rzeczywistości wszystko jest dość rozmyte, @ TomGranot-Scalosub. Powiedziałbym, że sieci neuronowe są zdecydowanie ML, a na pewno analiza skupień i CART są badane przez badaczy ML. Staram się, aby pomysły były nieco jaśniejsze i wyraźniejsze, ale tak naprawdę nie ma jasnej linii między tymi kategoriami.
gung

41

Wiele innych odpowiedzi obejmowało główne punkty, ale poprosiłeś o hierarchię, jeśli istnieje, i sposób, w jaki ją widzę, chociaż są to odrębne dyscypliny, istnieje hierarchia, o której nikt jeszcze nie wspomniał, odkąd każda opiera się na Poprzedni.

Statystyka dotyczy tylko liczb i kwantyfikacji danych. Istnieje wiele narzędzi do wyszukiwania odpowiednich właściwości danych, ale jest to dość zbliżone do czystej matematyki.

Data Mining polega na wykorzystaniu statystyk, a także innych metod programowania do znajdowania wzorców ukrytych w danych, aby można było wyjaśnić pewne zjawiska. Data Mining buduje intuicję na temat tego, co naprawdę dzieje się w niektórych danych, i nadal jest niewiele bardziej w kierunku matematyki niż programowania, ale wykorzystuje oba te elementy.

Uczenie maszynowe wykorzystuje techniki Data Mining i inne algorytmy uczenia się do budowania modeli tego, co dzieje się za niektórymi danymi, aby można było przewidzieć przyszłe wyniki. Matematyka jest podstawą wielu algorytmów, ale bardziej dotyczy programowania.

Sztuczna inteligencja wykorzystuje modele zbudowane przez uczenie maszynowe i inne sposoby rozumowania świata i wzbudzania inteligentnego zachowania, niezależnie od tego, czy chodzi o grę, czy prowadzenie robota / samochodu. Sztuczna inteligencja ma pewien cel do osiągnięcia, przewidując, w jaki sposób działania wpłyną na model świata, i wybierze działania, które najlepiej osiągną ten cel. Bardzo oparty na programowaniu.

W skrócie

  • Statystyka określa liczby
  • Data Mining wyjaśnia wzorce
  • Uczenie maszynowe przewiduje za pomocą modeli
  • Sztuczna inteligencja zachowuje się i przyczyny

Teraz, gdy to powiedziano, pojawią się problemy AI, które dotyczą tylko AI i podobnie w przypadku innych dziedzin, ale większość interesujących problemów (na przykład samochodów samobieżnych) można łatwo i poprawnie nazwać wszystkimi z nich. Mam nadzieję, że to wyjaśni związek między nimi, o który pytałeś.


Czy kiedykolwiek korzystałeś z WEKA lub RapidMiner? Na przykład EM obejmuje eksplorację danych i stosuje model. Oprócz tego sprawdź definicję podaną przez Marianę Soffer i porównaj ją z odpowiedzią. Kilka lat temu czytałem Bishopa i Russella / Norviga, ale o ile pamiętam def. autorstwa Mariany Soffer jest bardziej odpowiedni. eksploracja danych btw jest („tylko”) głównym krokiem przed odkryciem wiedzy. eksploracja danych gromadzi tylko dane - a następnie informacje - przy użyciu algorytmu o odpowiednich parametrach. eksploracja danych nie może wyjaśnić wzorców.
mnemoniczny

Nie, @memoniczny, ta definicja AI jest znacznie bardziej zgodna z Russellem i Norvigiem niż definicja Mariany, która jest dość przestarzała
nealmcb

2
Myślę, że opis statystyki jest kiepski; dane liczbowe to statystyki, które podaje krajowy departament statystyki, ale to nie to samo, co nauka statystyczna, która tworzy modele danych, szacuje ich parametry i wnioskuje. Również związek między eksploracją danych a uczeniem maszynowym jest do góry nogami; inżynieria danych wykorzystuje techniki uczenia maszynowego, a nie na odwrót. Zobacz także odpowiedź Kena van Harena.
Richard Hardy

25
  • Statystyka dotyczy modeli probabilistycznych, w szczególności wnioskowania na tych modelach z wykorzystaniem danych.
  • Uczenie maszynowe dotyczy przewidywania konkretnego wyniku na podstawie niektórych danych. Prawie każdą rozsądną metodę uczenia maszynowego można sformułować jako formalny model probabilistyczny, więc w tym sensie uczenie maszynowe jest bardzo podobne do statystyki, ale różni się tym, że generalnie nie przejmuje się oszacowaniami parametrów (tylko prognozowaniem) i koncentruje się na temat wydajności obliczeniowej i dużych zbiorów danych.
  • Data Mining to (jak rozumiem) stosowane uczenie maszynowe. Koncentruje się bardziej na praktycznych aspektach wdrażania algorytmów uczenia maszynowego na dużych zestawach danych. Jest bardzo podobny do uczenia maszynowego.
  • Sztuczna inteligencja to wszystko, co dotyczy (pewnej arbitralnej definicji) inteligencji w komputerach. Zawiera więc wiele rzeczy.

Ogólnie rzecz biorąc, modele probabilistyczne (a tym samym statystyki) okazały się najskuteczniejszym sposobem formalnego ustrukturyzowania wiedzy i zrozumienia w maszynie, w takim stopniu, że wszystkie trzy pozostałe (AI, ML i DM) są dziś głównie podobszarami Statystyka. Nie pierwsza dyscyplina, która stała się cieniem ramię statystyk ... (ekonomia, psychologia, bioinformatyka itp.)


5
@Ken - Niedokładne byłoby opisanie psychologii ekonomicznej lub sztucznej inteligencji jako cienia ramion statystyki - nawet jeśli statystyki są wykorzystywane w każdym z nich do analizy wielu problemów, którymi zainteresowane są te dziedziny. Nie chciałbyś sugerować, że medycyna jest cieniem statystyki, nawet jeśli większość wniosków medycznych opiera się w dużej mierze na analizie danych.
mpacer,

@Ken - To świetna odpowiedź, ale możesz pełniej opisać, z czego składają się inne rzeczy AI. Na przykład historycznie AI obejmowało również duże ilości analiz modeli nieprobabilistycznych (np. Systemy produkcyjne, automaty komórkowe itp., Np. Patrz Newell i Simon 1972). Oczywiście wszystkie takie modele ograniczają przypadki niektórych modeli probabilistycznych, ale nie były one analizowane w takim duchu aż do znacznie później.
mpacer,

4
eksploracja danych wykracza poza uczenie maszynowe, ponieważ w rzeczywistości wiąże się ze sposobem przechowywania i indeksowania danych w celu przyspieszenia algorytmów. Można go scharakteryzować jako pobieranie metod głównie z AI, ML i statystyk oraz łączenie ich z wydajnymi i sprytnymi technikami zarządzania danymi i ich układem. Gdy nie obejmuje zarządzania danymi, często można to nazwać „uczeniem maszynowym”. Istnieją jednak pewne zadania, w szczególności „bez nadzoru”, w których nie bierze się udziału „uczenia się”, ale także zarządzania danymi, są one nadal nazywane „eksploracją danych” (grupowanie, wykrywanie wartości odstających).
Anony-Mousse

21

Możemy powiedzieć, że wszystkie są ze sobą powiązane, ale wszystkie są różnymi rzeczami. Chociaż możesz mieć ze sobą wiele wspólnych cech, takich jak statystyki i eksploracja danych, używasz metod klastrowania.
Pozwól, że spróbuję krótko zdefiniować każdy:

  • Statystyka jest bardzo starą dyscypliną opartą głównie na klasycznych metodach matematycznych, których można używać do tego samego celu, co czasami eksploracja danych, czyli do klasyfikowania i grupowania rzeczy.

  • Eksploracja danych polega na budowaniu modeli w celu wykrycia wzorców, które pozwalają nam klasyfikować lub przewidywać sytuacje na podstawie wielu faktów lub czynników.

  • Sztuczna inteligencja (sprawdź Marvin Minsky *) to dyscyplina, która próbuje naśladować działanie mózgu metodami programowania, na przykład budowanie programu, który gra w szachy.

  • Uczenie maszynowe polega na budowaniu wiedzy i przechowywaniu jej w jakiejś formie w komputerze; ta forma może składać się z modeli matematycznych, algorytmów itp. Wszystko, co może pomóc w wykrywaniu wzorców.


2
Nie, większość współczesnych sztucznej inteligencji nie stosuje tego wczesnego podejścia „naśladować mózg”. Koncentruje się na tworzeniu „racjonalnych agentów”, które działają w środowisku w celu zmaksymalizowania użyteczności i są ściślej powiązane z uczeniem maszynowym. Zobacz książkę Russella i Norviga.
nealmcb

1
W twojej definicji nie widzę różnicy między ML a eksploracją danych
Martin Thoma,

16

Najbardziej znam się na uczeniu maszynowym - osi eksploracji danych - więc skupię się na tym:

Uczenie maszynowe jest zwykle zainteresowane wnioskowaniem w niestandardowych sytuacjach, na przykład nie-danych, aktywnym uczeniem się, uczeniem częściowo nadzorowanym, uczeniem się na danych strukturalnych (na przykład ciągów znaków lub wykresów). ML również interesuje się teoretycznymi granicami tego, czego można się nauczyć, co często stanowi podstawę dla wykorzystywanych algorytmów (np. Maszyny wektorów nośnych). ML ma zazwyczaj charakter bayesowski.

Eksploracja danych polega na wyszukiwaniu wzorców w danych, o których jeszcze nie wiesz. Nie jestem pewien, czy istotnie różni się to od analizy danych eksploracyjnych w statystyce, podczas gdy w uczeniu maszynowym istnieje ogólnie lepiej zdefiniowany problem do rozwiązania.

ML jest bardziej zainteresowany małymi zestawami danych, w których problemem jest nadmierne dopasowanie, a eksploracja danych ma tendencję do zainteresowania dużymi zestawami danych, w których problem dotyczy ilości danych.

Statystyki i uczenie maszynowe zapewniają wiele podstawowych narzędzi używanych przez górników danych.


Nie zgadzam się z „ML bardziej interesuje się małymi zestawami danych”.
Martin Thoma,

eksploracja danych staje się znacznie trudniejsza przy małych zestawach danych, ponieważ zwiększa szansę na znalezienie fałszywego skojarzenia (i zwiększa trudność jego wykrycia). W przypadku małych zestawów danych wnioski, które dokonują jak najmniejszej liczby wyborów, są zwykle znacznie bezpieczniejsze.
Dikran Torbacz

13

Oto moje zdanie na ten temat. Zacznijmy od dwóch bardzo szerokich kategorii:

  • wszystko, co nawet udaje mądrego, to sztuczna inteligencja (w tym ML i DM).
  • wszystko, co podsumowuje dane, to statystyki , chociaż zwykle stosuje się to tylko do metod, które zwracają uwagę na poprawność wyników (często używanych w ML i DM)

Zarówno ML, jak i DM są zwykle zarówno AI, jak i statystyką, ponieważ zwykle obejmują podstawowe metody z obu. Oto niektóre z różnic:

  • w uczeniu maszynowym masz jasno określony cel (zwykle przewidywanie )
  • w eksploracji danych masz zasadniczo cel „ coś, czego wcześniej nie wiedziałem

Ponadto eksploracja danych zwykle wymaga znacznie więcej zarządzania danymi , tj. Sposobu organizacji danych w wydajnych strukturach indeksów i bazach danych.

Niestety nie są tak łatwe do rozdzielenia. Na przykład istnieje „nauka bez nadzoru”, która często jest bliżej związana z DM niż z ML, ponieważ nie może ona zoptymalizować pod kątem celu. Z drugiej strony metody DM są trudne do oceny (jak oceniasz coś, czego nie wiesz?) I często są oceniane na podstawie tych samych zadań co uczenie maszynowe, pomijając pewne informacje. To jednak zazwyczaj powoduje, że wydają się działać gorzej niż metody uczenia maszynowego, które można zoptymalizować w kierunku rzeczywistego celu oceny.

Ponadto często stosuje się je w kombinacjach. Na przykład do wstępnego przetwarzania danych używana jest metoda eksploracji danych (powiedzmy, klastrowanie lub wykrywanie wartości odstających bez nadzoru), a następnie do uczenia się lepszych klasyfikatorów stosowana jest metoda uczenia maszynowego.

Uczenie maszynowe jest zwykle znacznie łatwiejsze do oceny: istnieje cel, taki jak wynik lub prognoza klasowa. Możesz obliczyć precyzję i przywołać. W eksploracji danych większość oceny odbywa się poprzez pominięcie niektórych informacji (takich jak etykiety klas), a następnie sprawdzenie, czy metoda wykryła tę samą strukturę. Jest to w tym sensie naiwne, ponieważ zakładasz, że etykiety klas całkowicie kodują strukturę danych; faktycznie karzesz algorytm eksploracji danych, który odkrywa coś nowego w twoich danych. Innym sposobem - pośredniej - oceny jest sposób, w jaki odkryta struktura poprawia wydajność faktycznego algorytmu ML (np. Podczas dzielenia danych lub usuwania wartości odstających). Jednak ocena ta opiera się na odtwarzaniu istniejących wyników, co tak naprawdę nie jest celem eksploracji danych ...


1
Twoja odpowiedź jest bardzo wnikliwa. Szczególnie doceniam ostatni akapit, dotyczący różnic w ocenie wydajności ML i oceny DM.
justis

8

Dodam kilka uwag do tego, co zostało powiedziane ...

Sztuczna inteligencja jest bardzo szerokim terminem określającym wszystko, co ma związek z maszynami wykonującymi czynności przypominające rozumowanie lub pozornie świadome, od planowania zadania lub współpracy z innymi podmiotami po naukę obsługi kończyn podczas chodzenia. Istotną definicją jest to, że sztuczna inteligencja jest czymkolwiek związanym z komputerem, o którym nie wiemy jeszcze, jak sobie radzić. (Kiedy już wiemy, jak to zrobić dobrze, na ogół otrzymuje swoją nazwę i nie jest już „AI”).

Mam wrażenie, w przeciwieństwie do Wikipedii, że rozpoznawanie wzorców i uczenie maszynowe to ta sama dziedzina, ale te pierwsze są praktykowane przez informatyków, a drugie przez statystów i inżynierów. (Wiele dziedzin technicznych jest odkrywanych w kółko przez różne podgrupy, które często przynoszą do gry własny żargon i sposób myślenia).

Wydaje mi się, że Data Mining, w każdym razie, wykorzystuje uczenie maszynowe / rozpoznawanie wzorców (techniki, które działają z danymi) i owija je w bazach danych, infrastrukturze oraz technikach walidacji / czyszczenia danych.


6
Uczenie maszynowe i rozpoznawanie wzorców to nie to samo, uczenie maszynowe jest również zainteresowane takimi sprawami jak regresja i wnioskowanie przyczynowe itp. Rozpoznawanie wzorców jest tylko jednym z problemów zainteresowania uczeniem maszynowym. Większość osób uczących się maszynowo, których znam, pracuje na wydziałach informatyki.
Dikran Marsupial

2
@Dikran Zgadzam się, ale ML i PR są często aliasowane i przedstawiane w ramach podobnych tematów analizy danych. Moja ulubiona książka to rzeczywiście Rozpoznawanie wzorców i uczenie maszynowe , autorstwa Christophe M. Bishopa. Oto recenzja Johna MainDonald w JSS, j.mp/etg3w1 .
chl.

Uważam również, że słowo „uczenie maszynowe” jest znacznie bardziej popularne niż „rozpoznawanie wzorców” w świecie CS.
bayerj,

Tutaj również poczuj, że ML jest bardziej terminem CS.
Karl Morrison

3

Niestety, różnica między tymi obszarami jest w dużej mierze tam, gdzie się ich uczy: statystyki opierają się na działach matematycznych, ai, uczeniu maszynowym w działach informatycznych, a eksploracja danych jest częściej stosowana (wykorzystywana przez działy biznesowe lub marketingowe, opracowane przez firmy programistyczne) .

Po pierwsze sztuczna inteligencja (chociaż może oznaczać dowolny inteligentny system) tradycyjnie oznacza podejście oparte na logice (np. Systemy eksperckie), a nie estymację statystyczną. Statystyka oparta na działach matematycznych ma bardzo dobre zrozumienie teoretyczne, wraz z dużym doświadczeniem stosowanym w naukach eksperymentalnych, w których istnieje wyraźny model naukowy, i potrzebne są statystyki, aby poradzić sobie z ograniczonymi dostępnymi danymi eksperymentalnymi. Często skupiano się na wyciśnięciu maksymalnej ilości informacji z bardzo małych zestawów danych. Co więcej, istnieje matematyczna zależność od dowodów matematycznych: nie zostaniesz opublikowany, chyba że udowodnisz swoje podejście. Zazwyczaj oznacza to opóźnienie w wykorzystywaniu komputerów do automatyzacji analiz. Jeszcze raz, brak wiedzy programistycznej uniemożliwił statystykom pracę nad problemami na dużą skalę, w których istotne stają się problemy obliczeniowe (rozważ układy GPU i systemy rozproszone, takie jak hadoop). Uważam, że obszary takie jak bioinformatyka przesunęły teraz statystyki bardziej w tym kierunku. Na koniec powiedziałbym, że statystycy są bardziej sceptyczną grupą: nie twierdzą, że odkrywasz wiedzę za pomocą statystyki - raczej naukowiec wymyśla hipotezę, a zadaniem statystyki jest sprawdzenie, czy hipoteza jest poparta danymi. Uczenie maszynowe jest nauczane na wydziałach cs, które niestety nie uczą odpowiedniej matematyki: rachunek różniczkowy, prawdopodobieństwo, statystyki i optymalizacja nie są powszechne ... istnieją niejasne „efektowne” koncepcje, takie jak uczenie się na przykładach ...Elementy uczenia statystycznego strona 30. Zazwyczaj oznacza to, że teoretyczne zrozumienie i eksplozja algorytmów jest bardzo mała, ponieważ badacze zawsze mogą znaleźć zestaw danych, w którym ich algorytm sprawdza się lepiej. Więc są ogromne etapy szumu, gdy badacze ML gonią za następną wielką rzeczą: sieci neuronowe, głębokie uczenie się itp. Niestety w działach CS jest dużo więcej pieniędzy (pomyśl google, Microsoft wraz z bardziej „rynkową” nauką), więc więcej sceptycznych statystyk jest ignorowanych. Wreszcie, istnieje empirysta: zasadniczo istnieje przekonanie, że jeśli rzucisz wystarczającą ilość danych na algorytm, „nauczy się” prawidłowych prognoz. Chociaż jestem stronniczy w stosunku do ML, istnieje wgląd w ML, który statystycy zignorowali: że komputery mogą zrewolucjonizować stosowanie statystyk.

Istnieją dwa sposoby: a) automatyzacja stosowania standardowych testów i modeli. Np. Uruchamianie baterii modeli (regresja liniowa, losowe lasy itp., Próbowanie różnych kombinacji danych wejściowych, ustawień parametrów itp.). Tak naprawdę tak się nie stało - podejrzewam, że konkurenci w Kaggle opracowują własne techniki automatyzacji. b) zastosowanie standardowych modeli statystycznych do ogromnych danych: pomyśl np. o tłumaczeniu google, systemach polecających itp. (nikt nie twierdzi, że np. ludzie tłumaczą lub polecają w ten sposób… ale jest to przydatne narzędzie). Podstawowe modele statystyczne są proste, ale istnieją ogromne problemy obliczeniowe przy stosowaniu tych metod do miliardów punktów danych.

Eksploracja danych jest kulminacją tej filozofii ... opracowywania zautomatyzowanych sposobów pozyskiwania wiedzy z danych. Ma jednak bardziej praktyczne podejście: zasadniczo jest stosowane do danych behawioralnych, w których nie ma nadrzędnej teorii naukowej (marketing, wykrywanie oszustw, spam itp.), A celem jest zautomatyzowanie analizy dużych ilości danych: bez wątpienia zespół statystów mógłby opracować lepsze analizy, mając wystarczająco dużo czasu, ale bardziej opłacalne jest korzystanie z komputera. Ponadto, jak wyjaśnia D. Hand, jest to analiza danych wtórnych - danych, które i tak są rejestrowane, a nie danych, które zostały wyraźnie zebrane w celu udzielenia odpowiedzi na pytanie naukowe w solidnym projekcie eksperymentalnym. Statystyka eksploracji danych i nie tylko, D Hand

Podsumowując, tradycyjna sztuczna inteligencja opiera się raczej na logice niż na statystyce, uczenie maszynowe to statystyka bez teorii, a statystyka to „statystyka bez komputerów”, a eksploracja danych to rozwój zautomatyzowanych narzędzi do analizy statystycznej przy minimalnej interwencji użytkownika.


Ta odpowiedź jest bardzo trudna, więc trudno ją śledzić i jest niepotrzebnie długa, ale naprawdę uderza, że ​​różnice mają więcej wspólnego z tradycjami i akcentami dyscyplinarnymi niż z czymkolwiek innym.
Tripartio

1

Eksploracja danych polega na odkrywaniu ukrytych wzorców lub nieznanej wiedzy, które mogą być wykorzystane do podejmowania decyzji przez ludzi.

Uczenie maszynowe polega na nauce modelu klasyfikowania nowych obiektów.


Czy uczenie maszynowe dotyczy wyłącznie klasyfikacji? Czy uczenie maszynowe nie może służyć innym celom?
gung

@gung Absolutnie nie. Uczenie się przez wzmacnianie jest, według IMHO, najbardziej charakterystyczną dziedziną ML i nie powiedziałbym, że opiera się na klasyfikacji, ale na osiąganiu celów.
nbro

@ nbro, ten komentarz miał być wskazówką dla OP, aby ponownie zastanowić się, jak wąsko definiowali ML.
gung

0

Moim zdaniem sztuczną inteligencję można uznać za „nadzbiór” takich dziedzin, jak uczenie maszynowe, wyszukiwanie danych, rozpoznawanie wzorców itp.

  • Statystyka to dziedzina matematyki obejmująca wszystkie modele matematyczne, techniki i twierdzenia stosowane w sztucznej inteligencji.

  • Uczenie maszynowe to dziedzina sztucznej inteligencji, która obejmuje wszystkie algorytmy, które stosują wyżej wspomniane modele statystyczne i rozumie dane, to znaczy analizy predykcyjne, takie jak klastrowanie i klasyfikacja.

  • Data Mining to nauka wykorzystująca wszystkie powyższe techniki (głównie uczenie maszynowe) w celu wydobycia użytecznych i ważnych wzorców z danych. Data Mining zwykle wiąże się z wydobywaniem użytecznych informacji z ogromnych zestawów danych, czyli Big Data.


-1

Co powiesz na: nauczanie maszyn do nauki

Rozpoznawanie znaczących wzorców w danych: eksploracja danych

Przewiduj wynik na podstawie znanych wzorców: ML

Znajdź nowe funkcje do mapowania surowych danych: AI

Ten ptasi mózg naprawdę potrzebuje prostych definicji.


-1

Często eksploracja danych próbuje „przewidzieć” niektóre przyszłe dane lub „wyjaśnić”, dlaczego coś się dzieje.

Statystyki służą bardziej do weryfikacji hipotezy w moich oczach. Ale to subiektywna dyskusja.

Jedną oczywistą różnicę między statystykami a górnikami danych można znaleźć w rodzaju statystyk podsumowujących, na które patrzą.

Statystyki często ograniczają się do R² i dokładności, podczas gdy eksploratorzy danych będą patrzeć na AUC, ROC, krzywe wznoszenia itp., A także mogą być zaniepokojeni przez zastosowanie krzywej dokładności związanej z kosztami.

Pakiety eksploracji danych (na przykład Weka o otwartym kodzie źródłowym) mają wbudowane techniki selekcji danych wejściowych, klasyfikacji maszyn wektorów pomocniczych itp., Podczas gdy są one w większości nieobecne w pakietach statystycznych takich jak JMP. Niedawno kiedy pojechałem na kurs „eksploracji danych w jmp” od ludzi z jmp, i chociaż jest to silny wizualnie pakiet, brakuje tylko niektórych podstawowych technik eksploracji danych przed / po / w połowie. Wyboru danych wejściowych dokonano ręcznie, aby uzyskać wgląd w dane, nadal w eksploracji danych, Twoim celem jest inteligentne zwolnienie algorytmów na dużych danych i automatyczne sprawdzenie, co się pojawi. Kurs był oczywiście nauczany przez statystów, co podkreślało odmienny sposób myślenia między nimi.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.