Przejście od używania oprogramowania statystycznego do zrozumienia równań matematycznych?


12

Kontekst:

Jestem doktorantem psychologii. Podobnie jak wielu doktorantów psychologii, wiem, jak wykonywać różne analizy statystyczne za pomocą oprogramowania statystycznego, aż po takie techniki, jak PCA, drzewa klasyfikacyjne i analiza skupień. Ale to nie jest naprawdę satysfakcjonujące, ponieważ chociaż potrafię wyjaśnić, dlaczego przeprowadziłem analizę i co oznaczają wskaźniki, nie potrafię wyjaśnić, jak działa ta technika.

Prawdziwy problem polega na tym, że opanowanie oprogramowania statystycznego jest łatwe, ale ograniczone. Aby nauczyć się nowych technik w artykułach, muszę zrozumieć, jak czytać równania matematyczne. Obecnie nie mogłem obliczyć wartości własnych ani średnich K. Równania są dla mnie jak język obcy.

Pytanie:

  • Czy istnieje obszerny przewodnik, który pomaga w zrozumieniu równań w artykułach w czasopiśmie?

Edytować:

Pomyślałem, że pytanie będzie bardziej zrozumiałe: ponad pewną złożonością notacja statystyczna staje się dla mnie bełkotem; powiedzmy, że chciałbym kodować własne funkcje w języku R lub C ++, aby zrozumieć technikę, ale jest bariera. Nie mogę przekształcić równania w program. I naprawdę: nie znam sytuacji w amerykańskich szkołach doktoranckich, ale w moich (Francja) jedyne kursy, które mogę śledzić, to około XVI-wieczny ruch literacki ...


@Coronier Niestety, wątpię, że istnieje obszerny przewodnik do zrozumienia artykułów z psychologii wykorzystujących modelowanie statystyczne. Ale wymagane tło powinno być na poziomie magistra statystyki. Jeśli twój program zapłaci za to, rozważ uzyskanie magistra statystyki. Kolejną najlepszą opcją dla Twoich celów może być ponowne pobranie wersji statystyki wielowymiarowej działu statystyk - zwykle zapewniają one notatki z matematycznym tłem dla PCA, grupowania, drzew itp. Będziesz potrzebować tła z algebry liniowej i podstawowej matematyki statystyki niezależnie.
zablokowane

Zadaj bardziej szczegółowe pytania.

4
Jestem również doktorantem psychologii i zdecydowałem się wziąć znaczną ilość matematyki w latach licencjackich, ponieważ było tak wielu doktorów psychologii, którzy nie mają pojęcia, jak obliczono PCA (na przykład). Pierwszą rzeczą, którą musisz zrobić, to przejść przez każdy porządny podręcznik algebry liniowej. Co to jest porządny podręcznik algebry liniowej? Gilbert Strang jest bombą, a on ma wykłady wideo z jego kursu algebry liniowej na stronie internetowej MIT. Możesz nawet pobrać je na iTunes.
Phillip Cloud,

1
Pytanie jest tak ogólne, że w kilku akapitach nie uzyska satysfakcjonującej odpowiedzi. Statystyki są jak pytania: staje się łatwiejsze, jeśli podzielisz je na kilka zarządzalnych komponentów.
ks.

Mogę tylko zgodzić się z powyższymi komentarzami. Albo będziesz musiał skupić się na konkretnym problemie, albo po prostu najpierw przejrzysz niektóre podręczniki lub materiały informacyjne online. Przyzwoity podręcznik, który obejmuje podstawowe pojęcia statystyki wielowymiarowej z ilustracjami, to Mathematical Tools for Applied Multivariate Analysis , autorstwa Carroll i Green (AP, 1997, Rev. Ed.). Kolejnym jest Applied Multivariate Statistics and Mathematical Modeling , autorstwa Tinsley i Browna (AP, 2000).
chl

Odpowiedzi:


9

Przegląd:

  • Mam wrażenie, że twoje doświadczenie jest wspólne dla wielu studentów nauk społecznych.
  • Punktem wyjścia jest motywacja do nauki.
  • Możesz iść samoukiem lub formalną drogą instruktażową .

Formalna instrukcja:

Pod tym względem istnieje wiele opcji. Możesz rozważyć mistrzów w statystyce lub po prostu wziąć kilka przedmiotów w dziale statystyki. Prawdopodobnie jednak chciałbyś sprawdzić, czy masz niezbędne zaplecze matematyczne. W zależności od kursu może się okazać, że musisz ponownie przyjrzeć się matematyce sprzed rachunku różniczkowego i być może trochę materiału, takiego jak rachunek różniczkowy i algebra liniowa, zanim podejmiesz matematyczne dyscypliny na poziomie uniwersyteckim.

Samoukiem

Alternatywnie możesz zejść samoukiem. W Internecie jest mnóstwo dobrych zasobów. W szczególności czytanie i wykonywanie ćwiczeń z podręczników do matematyki jest ważne, ale prawdopodobnie niewystarczające. Ważne jest, aby słuchać instruktorów rozmawiających o matematyce i obserwować, jak rozwiązują problemy.

Ważne jest również, aby pomyśleć o swoich celach matematycznych i matematycznych warunkach wstępnych wymaganych do osiągnięcia tych celów. Jeśli równania są dla ciebie jak język obcy, może się okazać, że musisz najpierw uczyć się matematyki elementarnej.

Przygotowałem kilka zasobów, które mają pomóc ludziom, którzy przechodzą od używania oprogramowania statystycznego do zrozumienia podstawowej matematyki.


Dzięki, zasoby, które udostępniasz są świetne. Przy okazji, twój blog jest całkowicie absorbujący (jestem studentem I / OP i useR, to dla mnie jak objawienie).
Coronier

@Coronier Wspaniale jest poznać inną osobę łączącą R z I / O Psych.
Jeromy Anglim

3

Mam wrażenie, że uważasz, że możesz uzyskać wgląd w równanie statystyczne, programując je w R lub C ++; nie możesz. Aby zrozumieć równanie statystyczne, znajdź podręcznik „licencjacki” z mnóstwem zadań domowych na końcu każdego rozdziału zawierającego równanie, a następnie odrób zadanie domowe na końcu rozdziału zawierającego równanie.

Na przykład, aby zrozumieć PCA, potrzebujesz dobrego zrozumienia algebry liniowej, a w szczególności rozkładu wartości osobliwych. Podczas nauki obliczeń kwantowych w książce Michaela Nielsena stało się dla mnie jasne, że muszę przejrzeć algebrę liniową. Natknąłem się na filmy Gilberta Stranga, które były niezwykle pomocne w ustaleniu fundamentalnego zrozumienia pojęć. Jednak niuans materiału nie przeszedł, dopóki nie znalazłem algebry liniowej, zawierającej mnóstwo problemów domowych, a potem musiałem je wykonać.


4
@ schenectady, podczas gdy ja sympatyzuję z twoim punktem widzenia, przynajmniej dla mnie kod R zapewnia most, którego mogę użyć, aby lepiej zrozumieć odpowiednie równania i matematykę. To powiedziawszy, z całego serca zgadzam się z potrzebą problemów, statystyk i matematyki w ogóle, czego można się nauczyć tylko poprzez działanie.
richiemorrisroe

2

Rozumiem twoją trudność, ponieważ mam podobny problem, gdy próbuję zrobić coś nowego w statystyce (jestem również studentem, ale z innej dziedziny). Odkryłem, że badanie kodu R jest bardzo przydatne, aby dowiedzieć się, jak coś jest obliczane. Na przykład nauczyłem się ostatnio, jak korzystać z kmeansklastrowania, i mam wiele podstawowych pytań, zarówno koncepcyjnych, jak i implementacyjnych. Korzystając z Rinstalacji (polecam R Studio, http://www.rstudio.org/ , ale każda instalacja działa), po prostu wpisz kmeansw wierszu poleceń. Oto przykład części wyniku:

x <- as.matrix(x)
    m <- nrow(x)
    if (missing(centers)) 
        stop("'centers' must be a number or a matrix")
    nmeth <- switch(match.arg(algorithm), `Hartigan-Wong` = 1, 
        Lloyd = 2, Forgy = 2, MacQueen = 3)
    if (length(centers) == 1L) {
        if (centers == 1) 
            nmeth <- 3
        k <- centers
        if (nstart == 1) 
            centers <- x[sample.int(m, k), , drop = FALSE]
        if (nstart >= 2 || any(duplicated(centers))) {
            cn <- unique(x)
            mm <- nrow(cn)
            if (mm < k) 
                stop("more cluster centers than distinct data points.")
            centers <- cn[sample.int(mm, k), , drop = FALSE]
        }
    } 

Nie jestem pewien, jak praktyczne jest sprawdzanie źródła za każdym razem, ale naprawdę pomaga mi to zrozumieć, co się dzieje, zakładając, że znasz trochę składnię.

Poprzednie pytanie, które zadałem na stackoverflow, skierowało mnie w tym kierunku, ale również pomocnie powiedziało mi, że czasami komentarze na temat kodu są tu zawarte .


Mówiąc bardziej ogólnie, Journal of Statistics Software ilustruje ten związek między teorią a implementacją, ale często dotyczy zaawansowanych tematów (które osobiście mam trudności ze zrozumieniem), ale jest przydatny jako przykład.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.