Niestety, różnica między tymi obszarami jest w dużej mierze tam, gdzie się ich uczy: statystyki opierają się na działach matematycznych, ai, uczeniu maszynowym w działach informatycznych, a eksploracja danych jest częściej stosowana (wykorzystywana przez działy biznesowe lub marketingowe, opracowane przez firmy programistyczne) .
Po pierwsze sztuczna inteligencja (chociaż może oznaczać dowolny inteligentny system) tradycyjnie oznacza podejście oparte na logice (np. Systemy eksperckie), a nie estymację statystyczną. Statystyka oparta na działach matematycznych ma bardzo dobre zrozumienie teoretyczne, wraz z dużym doświadczeniem stosowanym w naukach eksperymentalnych, w których istnieje wyraźny model naukowy, i potrzebne są statystyki, aby poradzić sobie z ograniczonymi dostępnymi danymi eksperymentalnymi. Często skupiano się na wyciśnięciu maksymalnej ilości informacji z bardzo małych zestawów danych. Co więcej, istnieje matematyczna zależność od dowodów matematycznych: nie zostaniesz opublikowany, chyba że udowodnisz swoje podejście. Zazwyczaj oznacza to opóźnienie w wykorzystywaniu komputerów do automatyzacji analiz. Jeszcze raz, brak wiedzy programistycznej uniemożliwił statystykom pracę nad problemami na dużą skalę, w których istotne stają się problemy obliczeniowe (rozważ układy GPU i systemy rozproszone, takie jak hadoop). Uważam, że obszary takie jak bioinformatyka przesunęły teraz statystyki bardziej w tym kierunku. Na koniec powiedziałbym, że statystycy są bardziej sceptyczną grupą: nie twierdzą, że odkrywasz wiedzę za pomocą statystyki - raczej naukowiec wymyśla hipotezę, a zadaniem statystyki jest sprawdzenie, czy hipoteza jest poparta danymi. Uczenie maszynowe jest nauczane na wydziałach cs, które niestety nie uczą odpowiedniej matematyki: rachunek różniczkowy, prawdopodobieństwo, statystyki i optymalizacja nie są powszechne ... istnieją niejasne „efektowne” koncepcje, takie jak uczenie się na przykładach ...Elementy uczenia statystycznego strona 30. Zazwyczaj oznacza to, że teoretyczne zrozumienie i eksplozja algorytmów jest bardzo mała, ponieważ badacze zawsze mogą znaleźć zestaw danych, w którym ich algorytm sprawdza się lepiej. Więc są ogromne etapy szumu, gdy badacze ML gonią za następną wielką rzeczą: sieci neuronowe, głębokie uczenie się itp. Niestety w działach CS jest dużo więcej pieniędzy (pomyśl google, Microsoft wraz z bardziej „rynkową” nauką), więc więcej sceptycznych statystyk jest ignorowanych. Wreszcie, istnieje empirysta: zasadniczo istnieje przekonanie, że jeśli rzucisz wystarczającą ilość danych na algorytm, „nauczy się” prawidłowych prognoz. Chociaż jestem stronniczy w stosunku do ML, istnieje wgląd w ML, który statystycy zignorowali: że komputery mogą zrewolucjonizować stosowanie statystyk.
Istnieją dwa sposoby: a) automatyzacja stosowania standardowych testów i modeli. Np. Uruchamianie baterii modeli (regresja liniowa, losowe lasy itp., Próbowanie różnych kombinacji danych wejściowych, ustawień parametrów itp.). Tak naprawdę tak się nie stało - podejrzewam, że konkurenci w Kaggle opracowują własne techniki automatyzacji. b) zastosowanie standardowych modeli statystycznych do ogromnych danych: pomyśl np. o tłumaczeniu google, systemach polecających itp. (nikt nie twierdzi, że np. ludzie tłumaczą lub polecają w ten sposób… ale jest to przydatne narzędzie). Podstawowe modele statystyczne są proste, ale istnieją ogromne problemy obliczeniowe przy stosowaniu tych metod do miliardów punktów danych.
Eksploracja danych jest kulminacją tej filozofii ... opracowywania zautomatyzowanych sposobów pozyskiwania wiedzy z danych. Ma jednak bardziej praktyczne podejście: zasadniczo jest stosowane do danych behawioralnych, w których nie ma nadrzędnej teorii naukowej (marketing, wykrywanie oszustw, spam itp.), A celem jest zautomatyzowanie analizy dużych ilości danych: bez wątpienia zespół statystów mógłby opracować lepsze analizy, mając wystarczająco dużo czasu, ale bardziej opłacalne jest korzystanie z komputera. Ponadto, jak wyjaśnia D. Hand, jest to analiza danych wtórnych - danych, które i tak są rejestrowane, a nie danych, które zostały wyraźnie zebrane w celu udzielenia odpowiedzi na pytanie naukowe w solidnym projekcie eksperymentalnym. Statystyka eksploracji danych i nie tylko, D Hand
Podsumowując, tradycyjna sztuczna inteligencja opiera się raczej na logice niż na statystyce, uczenie maszynowe to statystyka bez teorii, a statystyka to „statystyka bez komputerów”, a eksploracja danych to rozwój zautomatyzowanych narzędzi do analizy statystycznej przy minimalnej interwencji użytkownika.