Jakie są gałęzie statystyki?


30

W matematyce istnieją takie gałęzie, jak algebra, analiza, topologia itp. W uczeniu maszynowym uczenie się pod nadzorem, bez nadzoru i wzmacniające. W każdej z tych gałęzi są drobniejsze gałęzie, które dodatkowo dzielą metody.

Mam problem ze zrównaniem się ze statystykami. Jakie byłyby główne gałęzie statystyki (i gałęzie podrzędne)? Idealna partycja prawdopodobnie nie jest możliwa, ale wszystko jest lepsze niż duża pusta mapa.

Przykłady wizualne: wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj


6
Aby podać jeszcze jeden powód, dla którego to pytanie jest niemożliwe do wyjaśnienia (i dlaczego być może przesłanka jest niewłaściwa): słabo rozumie się, że celem twardej nauki teoretycznej (jak matematyka) jest raczej uogólnienie niż specjalizacja . Gdybyśmy więc mieli wizualizować trajektorię udanego badania w tej dziedzinie, nie widzielibyśmy tego, jak gdyby rozgałęział się na mniejsze, bardziej wyrafinowane gałęzie, ale raczej soczewkę coraz szerszą w bardziej abstrakcyjne koncepcje i myśli.
AdamO,

@Rob Hyndman nadal wydaje mi się, że się wali. Jestem bardzo sceptyczny wobec jakiejkolwiek klasyfikacji tutaj. Co więcej, jest to tak dobre miejsce, jak każde inne, aby oznaczyć, że lista tematów, które pojawiają się komuś, jest daleka od klasyfikacji opartej na drzewach. I chociaż dendrogramy lub reprezentacje sierści są nieco intrygujące, jakie realne zastosowanie lub zainteresowanie służą poza wykazaniu różnorodności natury pola?
Nick Cox

Odpowiedzi:


52

Uważam te systemy klasyfikacji za wyjątkowo nieprzydatne i sprzeczne. Na przykład:

  • sieci neuronowe są formą nadzorowanego uczenia się
  • Rachunek różniczkowy jest wykorzystywany w geometrii różnicowej
  • Teorię prawdopodobieństwa można sformalizować jako część teorii mnogości

i tak dalej. Nie ma jednoznacznych „gałęzi” matematyki i nie powinno być statystyk.


11
„sieci neuronowe są formą nadzorowanego uczenia się”. To też nie do końca prawda, prawda? Mam na myśli, że można używać (i używa) NN w uczeniu nadzorowanym, uczeniu się bez nadzoru, a nawet uczeniu się wzmacniającym! Cóż, przynajmniej koncepcja sieci neuronowych (jest to po prostu ogromna funkcja nieliniowa, którą można zoptymalizować różnymi metodami optymalizacji, między innymi SL, UL i RL). Ale może terminologia jest po prostu używana w sposób, w jaki ją używasz, w takim przypadku… każdy może mieć rację.
BlueRine S

7
Jasne, nie ma prawdy, ale to naprawdę nie jest przydatne. Czy istnieje model, który zaspokaja potrzeby PO?
Jay Schyler Raadt

3
Rob ma rację. Drzewa decyzyjne są używane w regresji, a AdaBoost jest metodą klasyfikacji, ale mapa tego nie pokazuje.
Zen

4
Przyznaję, że tak naprawdę nie rozumiem tej perspektywy. Podręcznik statystyczny musi również w pewien sposób uporządkować sekwencję rozdziałów, a strona zawartości odzwierciedla tę organizację. Struktura strony z zawartością zawiera przynajmniej niektóre informacje na temat organizacji pojęć pola i robi to w znacznie bardziej ograniczony sposób, niż pozwala na to wizualizacja. Jeśli nikt nie ma problemu z istnieniem stron z treściami podręczników, nawet jeśli nie wychwytują złożoności pola, nie rozumiem, dlaczego ktoś miałby sprzeciwić się wizualizacji takiej jak ta, na którą liczy OP.
mkt - Przywróć Monikę

4
Podręczniki nie mają struktury hierarchicznej, mają strukturę liniową. W dalszej części książki często rozwijane są powiązania między wczesnymi rozdziałami, co pokazuje, że tematy wprowadzone osobno wcześniej są faktycznie powiązane. Na przykład mój własny podręcznik prognozowania, w którym wprowadzamy modele regresji dynamicznej w późniejszym rozdziale, łącząc modele regresji i modele ARIMA wprowadzone wcześniej.
Rob Hyndman,

29

To drobny kontrapunkt dla odpowiedzi Roba Hyndmana. Zaczęło się od komentarza, a potem stało się dla niego zbyt skomplikowane. Jeśli jest to zbyt dalekie od odpowiedzi na główne pytanie, przepraszam i usunę je.


Biologia przedstawia relacje hierarchiczne na długo przed pierwszym doodle Darwina (link znajduje się w komentarzu Nicka Coxa). Większość związków ewolucyjnych jest wciąż pokazywana w przypadku tego rodzaju ładnego, czystego, rozgałęziającego się „drzewa filogenetycznego”:

wprowadź opis zdjęcia tutaj W końcu jednak zdaliśmy sobie sprawę, że biologia jest bardziej nieuporządkowana. Czasami dochodzi do wymiany genetycznej (poprzez krzyżowanie i inne procesy) między różnymi gatunkami i genami obecnymi w jednej części drzewa „przeskakując” do innej części drzewa. Poziomy transfer genów przesuwa geny w taki sposób, że proste przedstawienie drzewa powyżej jest niedokładne. Nie porzuciliśmy jednak drzew, a jedynie stworzyliśmy modyfikacje tego typu wizualizacji:

Taki sam jak poprzedni rysunek, ale z pokazanym transferem genów przez gałęzie

Jest to trudniejsze do naśladowania, ale zapewnia dokładniejszy obraz rzeczywistości.

Inny przykład:

wprowadź opis zdjęcia tutaj

Jednak nigdy nie przedstawiamy tych bardziej złożonych liczb na początek, ponieważ trudno je zrozumieć bez zrozumienia podstawowych pojęć. Zamiast tego uczymy podstawowej idei za pomocą prostej figury, a następnie przedstawiamy im bardziej złożoną figurę i nowsze komplikacje w historii.

Każda „mapa” statystyk byłaby zarówno niedokładna, jak i cennym narzędziem nauczania. Wizualizacje formy sugerowanej przez OP są bardzo przydatne dla studentów i nie należy ich ignorować tylko dlatego, że w ogóle nie uchwycają rzeczywistości. Możemy dodać więcej złożoności do obrazu, gdy mają one podstawową strukturę.


4
FWIW, drzewne reprezentacje związków między organizmami długo przed Darwinem. Dodam referencję później.
Nick Cox,

2
jhupbooks.press.jhu.edu/title/trees-life jest naukowy, ale atrakcyjny.
Nick Cox,

3
Nie tyle kontrapunkt, co argument wspierający: kwestionowanie ważności drzew. Przynajmniej przy filogenezie wykorzystujemy dane do stworzenia takiej struktury, czy to zapisu kopalnego, ekspresji genów, czegokolwiek. Bez danych poważnie pytamy, kto ma uprawnienia do wybierania bloków i strzałek, które rozpowszechniają dezinformację.
AdamO,

2
@AdamO Nie oczekuję, że istnieje jedna uniwersalna „mapa” statystyk. Zrozumiałe jest, że dwie osoby używają różnych struktur i różnych zestawów łączy, choć można by oczekiwać, że szeroka struktura będzie dość solidna (różnice na niskim poziomie występują również między drzewami filogenetycznymi zbudowanymi z tego samego zestawu danych, chociaż w tym momencie jesteśmy zbyt daleko rozciągając metaforę). Powiedziałbym, że wiedza fachowa (na razie pomijająca pojęcia autorytetu) istnieje wśród wielu osób, które napisały podręczniki statystyki ogólnej, a nawet uczyły statystyki ogólnej.
mkt - Przywróć Monikę

2
Podobały mi się diagramy tutaj, aby głosować za tym, ale tak naprawdę nie odpowiada na pytanie.
Nick Cox

24

Możesz zajrzeć do słów kluczowych / tagów witryny Cross Validated.


Oddziały jako sieć

Jednym ze sposobów na to jest wykreślenie go jako sieci opartej na relacjach między słowami kluczowymi (jak często pokrywają się w tym samym poście).

Gdy używasz tego skryptu sql, aby pobrać dane witryny z (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

Następnie otrzymujesz listę słów kluczowych dla wszystkich pytań z wynikiem 2 lub wyższym.

Możesz przeglądać tę listę, wykreślając coś takiego:

relacje między tagami

Aktualizacja: to samo z kolorem (w oparciu o wektory własne macierzy relacji) i bez znacznika samokształcenia

relacje między tagami

Możesz wyczyścić ten wykres nieco dalej (np. Usunąć tagi, które nie odnoszą się do pojęć statystycznych, takich jak tagi oprogramowania, na powyższym wykresie jest to już zrobione dla tagu „r”) i poprawić reprezentację wizualną, ale myślę, że że powyższy obraz pokazuje już dobry punkt wyjścia.

Kod R:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

Hierarchiczne gałęzie

Uważam, że powyższe wykresy sieciowe odnoszą się do niektórych uwag dotyczących czysto rozgałęzionej struktury hierarchicznej. Jeśli chcesz, myślę, że możesz wykonać hierarchiczne grupowanie, aby zmusić go do hierarchicznej struktury.

Poniżej znajduje się przykład takiego modelu hierarchicznego. Nadal należałoby znaleźć odpowiednie nazwy grup dla różnych klastrów (ale nie sądzę, że ten hierarchiczny klaster jest dobrym kierunkiem, dlatego pozostawiam go otwartym).

grupowanie hierarchiczne

Miara odległości dla grupowania została ustalona metodą prób i błędów (wprowadzanie korekt, aż klastry będą wyglądać ładnie).

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

Napisane przez StackExchangeStrike


2
Może włożę trochę pracy, aby wykresy były bardziej uporządkowane. Przyjemne może być posiadanie wyraźnych wykresów, które odwzorowują tematy na tej stronie.
Sextus Empiricus

1
To świetne podejście! Ładnie wykonane.
Andrew Brēza,

Na twoim kolorowym wykresie trzy duże obszary to prawdopodobieństwo, regresja i uczenie maszynowe.
Matt F.

@MattF. wykres jest w rzeczywistości nieco problematyczny i bardziej odpowiada częstotliwości używania. Próbowałem przeskalować macierz według częstotliwości (jak przejście z macierzy kowariancji na macierz korelacji), ale niewiele się zmieniło. Wykres 2D nie pokazuje bardzo ładnie struktury, a model fizyczny, który traktuje ścieżki jak łańcuchy, umieszcza węzły w kształcie heksagonalnym / trójkątnym (co jest najbardziej wydajne).
Sextus Empiricus

1
Powiedziałbym, że przy przepełnieniu stosu jest pięć głównych kategorii: prawdopodobieństwo, regresja, uczenie maszynowe, ale także testowanie hipotez i szeregi czasowe.
Sextus Empiricus

9

Łatwym sposobem na znalezienie odpowiedzi na twoje pytanie jest poszukiwanie wspólnych tabel klasyfikacji. Na przykład w niektórych publikacjach do klasyfikacji prac stosuje się klasyfikację przedmiotu z matematyki z 2010 r . Są one istotne, ponieważ tak wielu autorów klasyfikuje własne prace. wprowadź opis zdjęcia tutaj

Istnieje wiele przykładów podobnej klasyfikacji, np arXiv na klasyfikację lub edukacji rosyjskiego ministerstwa UDK (uniwersalne classifictaion dziesiętnym), który jest szeroko stosowany do wszystkich publikacji i badań.

wprowadź opis zdjęcia tutaj

Innym przykładem jest JEL Claasification System of American Economic Association. Artykuł Roba Hyndmana „ Automatyczne prognozowanie szeregów czasowych: pakiet prognostyczny dla R. ” Jest klasyfikowany jako C53, C22, C52 zgodnie z JEL. Hyndman ma jednak sens w krytykowaniu klasyfikacji drzew. Lepszym podejściem może być tagowanie, np. Słowa kluczowe w jego pracy to: „Modele ARIMA, automatyczne prognozowanie, wygładzanie wykładnicze, przedziały prognozowania, modele przestrzeni stanów, szeregi czasowe, R.” Można argumentować, że są one lepszym sposobem klasyfikacji dokumentów, ponieważ nie są one hierarchiczne i można zbudować wiele hierarchii.

@whuber stwierdził, że niektóre najnowsze osiągnięcia, takie jak uczenie maszynowe, nie będą podlegały statystykom w obecnych klasyfikacjach. Na przykład spójrz na artykuł „ Głębokie uczenie się: wprowadzenie dla matematyków stosowanych ” autorstwa Catherine F. Higham, Desmond J. Higham. Sklasyfikowali swoją pracę pod wyżej wymienionym MSC jako 97R40, 68T01, 65K10, 62M45. są one objęte informatyką, edukacją matematyczną i analizą numeryczną oprócz statystyk


3
Myślę, że bardziej trafnie byłoby powiedzieć, że w ten sposób wielu autorów jest proszonych o klasyfikację swoich prac. Wiem, że nigdy nie jestem całkowicie usatysfakcjonowany, gdy poproszono mnie o zastosowanie takich kategorii a priori w mojej pracy.
Alexis,

6
To dobra podstawa do identyfikacji gałęzi statystyki matematycznej. Wiedza, która pomaga nam zidentyfikować to, co zostało pominięte, co obejmuje wiele części uczenia maszynowego. Rzeczywiście, może być sprawiedliwe scharakteryzowanie klasyfikacji przedmiotów matematycznych z 2010 r. Jako opisującej „statystyki z 1950 r.”, A następnie wrzucenie wszystkiego, co pojawiło się później, np. Geostatystyki, genomiki, ładowania początkowego itd. (Niektóre z nich mogą należeć do tych starych kategorie, być może).
whuber

4

Jednym ze sposobów rozwiązania tego problemu jest spojrzenie na sieci cytowań i współautorstwa w czasopismach statystycznych, takich jak Annals of Statistics, Biometrika, JASA i JRSS-B. Zostało to wykonane przez:

Ji, P. i Jin, J. (2016). Sieci współautorstwa i cytowania dla statystyk. The Annals of Applied Statistics, 10 (4), 1779–1812.

Zidentyfikowali społeczności statystyk i wykorzystali swoje zrozumienie domen, aby oznaczyć społeczności jako:

  • Analiza danych wielowymiarowych (HDDA-Coau-A)
  • Teoretyczne uczenie maszynowe
  • Redukcja wymiarów
  • Johns Hopkins
  • Książę
  • Stanford
  • Regresja kwantowa
  • Projekt eksperymentalny
  • Cel Bayesa
  • Biostatystyka
  • Analiza danych wielowymiarowych (HDDA-Coau-B)
  • Testy wielokrotne na dużą skalę
  • Wybór zmiennych
  • Statystyka przestrzenna i półparametryczna / nieparametryczna

Artykuł zawiera szczegółowe omówienie społeczności wraz z rozkładem większych na dalsze podspołeczności.

To może nie do końca odpowiedzieć na pytanie, ponieważ dotyczy to dziedzin badań statystycznych, a nie wszystkich dziedzin, w tym tych, które nie są już aktywne. Mam nadzieję, że mimo to jest pomocne. Oczywiście istnieją inne zastrzeżenia (takie jak rozważenie tylko tych czterech czasopism), które są omówione w dalszej części artykułu.


2
Myślałem o zrobieniu tego dla tej strony. Definiowanie „współautorstwa” jako osób, które odpowiadają / odpowiadają na te same pytania.
Sextus Empiricus

@MartijnWeterings Tak, twoja odpowiedź wydaje się być w bardzo podobnym kierunku jak to podejście!
user257566,

2

Widzę wiele niesamowitych odpowiedzi i nie wiem, w jaki sposób można otrzymać skromną własną klasyfikację, ale nie znam żadnej wszechstronnej książki ze wszystkimi statystykami, która pokazywałaby podsumowanie i myślę, że @ mkt wspaniale skomentował, przydatna może być klasyfikacja kierunku studiów. Oto mój strzał:

  • opisowe statystyki
    • proste wnioskowanie
      • proste testowanie hipotez
    • kreślenie / wizualizacja danych
  • projekt próbkowania
    • projekt eksperymentalny
    • projekt ankiety
  • statystyki wielowymiarowe (niezweryfikowane)
    • grupowanie
    • analiza komponentów
    • modele zmiennych utajonych
  • modele liniowe (które również są wielowymiarowe)
    • zwykłe najmniejsze kwadraty
    • uogólnione modele liniowe
      • model logit
    • inne modele liniowe
      • Model Coxa
      • regresja kwantylowa
    • wnioskowanie wielowymiarowe
      • testowanie wielu hipotez
      • skorygowane testowanie hipotez
    • modele danych strukturalnych
      • modele efektów mieszanych
      • modele przestrzenne
      • modele szeregów czasowych
    • rozszerzenia nieliniowe
      • uogólnione modele addytywne
  • statystyki bayesowskie (w rzeczywistości istnieją metody bayesowskie dla wielu rzeczy, które już wymieniłem)
  • regresja i klasyfikacja nieparametryczna
    • pasuje tu wiele metod uczenia maszynowego

Oczywiście jest to zbyt uproszczone, ma jedynie na celu przybliżyć pomysł komuś, kto ledwo zna dziedzinę, każdy z nas tutaj z pewnością wie, że istnieje wiele metod pomiędzy kategoriami tutaj, wiele innych, których nie znałem Lista, ponieważ są mniej znane lub po prostu zapomniałem. Mam nadzieję że ci się spodoba.


1

Jednym ze sposobów uporządkowania tych informacji jest znalezienie dobrej książki i przejrzenie spisu treści. Jest to paradoks, ponieważ konkretnie pytałeś o statystyki , podczas gdy większość wstępnych tekstów na ten temat dotyczy statystyki i teorii prawdopodobieństwa razem. Książka, którą czytam na temat regresji, ma teraz następujący spis treści:

  • Wnioskowanie częstych
  • Wnioskowanie bayesowskie
  • Testowanie hipotez i wybór zmiennych
  • Modele liniowe
  • Modele regresji ogólnej
  • Modele danych binarnych

  • Modele regresji ogólnej

  • Wstęp do regresji nieparametrycznej [prekursor ...]
  • Metody splajnu i jądra
  • Regresja nieparametryczna z wieloma predyktorami

(Pozostałe sekcje wspierają matematykę i teorię prawdopodobieństwa)

  • Zróżnicowanie wyrażeń macierzowych
  • Wyniki macierzy
  • Jakaś algebra liniowa
  • Rozkłady prawdopodobieństwa i funkcje generujące
  • Funkcje normalnych zmiennych losowych
  • Niektóre wyniki ze statystyki klasycznej
  • Podstawowa teoria dużych próbek

2
Można rozważyć taką książkę przekazać część z jednej gałęzi z dyscypliną. O ile jednak nie stanowi encyklopedycznej analizy wszystkich statystyk, jej nagłówki rozdziałów trudno uznać za główne gałęzie tej dziedziny!
whuber

3
@whuber zgodził się. Ostrożnie wspomniałem, że książka dotyczy regresji i że nie uważam żadnej książki na temat „statystyki” za wystarczająco ogólną lub na odpowiednim poziomie, aby statystyk mógł uznać przedstawione tematy za wystarczające. Ten konkretny przykład pochodzi z tekstu Wakefielda i jest niezwykle ogólnym traktowaniem (test T z nierówną estymacją wariancji omówiono na przykład w kontekście regresji liniowej z binarną współzmienną i solidnym oszacowaniem błędu).
AdamO,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.