Jakie są klasyczne zapisy w statystyce, algebrze liniowej i uczeniu maszynowym? Jakie są powiązania między tymi notacjami?

Kiedy czytamy książkę, zrozumienie zapisów odgrywa bardzo ważną rolę w zrozumieniu treści. Niestety różne społeczności mają różne konwencje zapisu w odniesieniu do formułowania modelu i problemu optymalizacji. Czy ktoś mógłby tutaj streścić niektóre zapisy formuł i podać możliwe powody?

Podam tutaj przykład: w literaturze algebry liniowej klasyczna książka jest wstępem Strang'a do algebry liniowej . Najczęściej używanym zapisem w książce jest

A x = b

$A x=b$

Gdzie $A$ jest macierzą współczynników , to zmienne do rozwiązania, a to wektor po prawej stronie równania . Powodem książka wybrać ten zapis jest głównym celem algebry liniowej rozwiązuje system liniowy i dowiedzieć się, co to jest wektor . Biorąc pod uwagę takie sformułowanie, istnieje problem optymalizacji OLS $x$ $b$ $x$

\underset{x}{minimize} ‖ A x - b ‖^{2}

$\underset{x}{\text{minimize}}~~ \|A x-b\|^2$

W statystykach lub umiejętnościach uczenia maszynowego (z książki Elements of Statistics Learning ) ludzie używają różnych notacji, aby reprezentować to samo:

X β = y

$X \beta= y$

Gdzie to matryca danych , to współczynniki lub wagi, których należy się nauczyć , to odpowiedź. The reason ludzie używają to dlatego, że ludzie w statystykach lub społeczności uczenia maszynowego jest dane napędzane , więc dane i odpowiedzi są najbardziej interesującą rzeczą dla nich, gdzie używają i reprezentują. $X$ $\beta$ $y$ $X$ $y$

Teraz możemy zobaczyć wszystkie możliwe zamieszanie: w pierwszym równaniu jest takie samo jak w drugim równaniu. I w drugim równaniu nie jest czymś, co trzeba rozwiązać. Także dla terminów: jest macierzą współczynników w algebrze liniowej, ale jest to dane w statystyce. jest również nazywany „współczynnikami”. $A$ $X$ $X$ $A$ $\beta$

Ponadto wspomniałem, że nie jest dokładnie tym, czego ludzie powszechnie używają w uczeniu maszynowym, ludzie używają wersji w połowie wektorowej, która podsumowuje wszystkie punkty danych. Jak na przykład $X \beta=y$

min \sum_{i} L (y_{i}, f (x_{i}))

$\min \sum_i \text{L}(y_i,f(x_i))$

Myślę, że powodem tego jest to, że dobrze jest mówić o stochastycznym spadku gradientu i innych różnych funkcjach strat. Również zwięzła notacja macierzowa znika dla innych problemów niż regresja liniowa.

Notacja macierzowa dla regresji logistycznej

Czy ktoś mógłby podać więcej streszczeń zapisów w różnych literaturach? Mam nadzieję, że mądre odpowiedzi na to pytanie mogą być wykorzystane jako dobry punkt odniesienia dla osób czytających książki z różnych literatury.

proszę nie ograniczaj się do mojego przykładu oraz . Jest wiele innych. Jak na przykład $A x=b$ $X \beta=y$

Dlaczego istnieją dwa różne formuły / notacje dotyczące utraty logistyki?

— hxd1011
źródło

Notacja tak naprawdę nie istnieje jako jakaś zewnętrzna weryfikowalna prawda. Jest to język, więc z natury kontekstowy i gotowy do redefinicji. Jeśli piszę x * b i mówię, że to oznacza wektor iloczynu macierz x kropka b, to jest po prostu pogrubiony lub nie.

— Sycorax mówi Przywróć Monikę

Powiedziałbym, że

mają równoważną notację. Zmieniły się tylko nazwy zmiennych. Ogólnie rzecz biorąc, nie znajdziesz spójnego nazewnictwa zmiennych z papieru na papier, nawet w obrębie pola.

A x = b

$Ax = b$

X β = y

$X \beta = y$

— user20160

Obecnie ma to 10 pozytywnych opinii, 150 wyświetleń; wydaje się być cennym i przydatnym wątkiem. Ponadto ma pozytywną odpowiedź; więc nie sądzę, że jest zbyt szeroki, aby można było na nie odpowiedzieć.

— gung - Przywróć Monikę

Zgadzam się z @gung, społeczność wyraźnie interesuje się tym pytaniem. Nominowałem do ponownego otwarcia.

— Matthew Drury,

Myślę, że jest zbyt szeroki dla zwykłego q. - ale ponieważ jest już CW i dość popularny, dodałem swój głos, aby ponownie otworzyć się na czterech, którzy tam byli.

— Scortchi - Przywróć Monikę

Być może powiązane pytanie brzmi: „Jakie są słowa używane w różnych językach i jakie są powiązania między tymi słowami?”

Notacja jest w pewnym sensie jak język:

Niektóre słowa mają znaczenie specyficzne dla regionu; niektóre słowa są szeroko rozumiane.
Podobnie jak potężne narody rozpowszechniają swój język, sukcesy i wpływowi badacze rozpowszechniają swoją notację.
Język ewoluuje w czasie: język ma mieszankę historycznego pochodzenia i współczesnych wpływów.

Twoje konkretne pytanie ...

Nie zgodziłbym się z twoją tezą, że oboje postępują według „zupełnie innej notacji”. Zarówno i używają wielkich liter do oznaczenia macierzy. Nie są one , że $X\boldsymbol{\beta} = \boldsymbol{y}$ $A\mathbf{x} = \mathbf{b}$ różne.
Uczenie maszynowe jest ściśle związane ze statystyką, dużą i dojrzałą dziedziną. Użycie do przedstawienia macierzy danych jest prawie na pewno najbardziej czytelną, najbardziej standardową konwencją, której należy przestrzegać. Chociaż jest standardem w rozwiązywaniu układów liniowych, tak nie jest $X$ $A\mathbf{x} = \mathbf{b}$ sposób ludzie wykonujący statystyki zapisują równania normalne. Jeśli spróbujesz to zrobić, zauważysz, że Twoi odbiorcy są bardziej zdezorientowani. Kiedy w Rzymie...
W pewnym sensie sedno skorygowanego pytania brzmi: „Jakie są historyczne źródła statystyki za pomocą litery do reprezentowania danych i litery β do reprezentowania nieznanej zmiennej, dla której należy rozwiązać?”
- To pytanie do historyków statystyki! Krótko szukając, widzę, że wpływowy brytyjski statystyk i naukowiec z Cambridge Udny Yule użyli do przedstawienia danych w swoim Wstępie do teorii statystyki (1911). Napisał równanie regresji jako , z celem najmniejszych kwadratów jako minimalizacją , a dla rozwiązania $x$ $x_1 = a + bx_2$ $\sum\left( x_1 - a - bx_2\right)^2$ $b_{12} = \frac{\sum x_1x_2}{\sum x_2^2}$ . Przynajmniej wraca do tego czasu ...
- Jeszcze bardziej wpływowy RA Fisher zastosował dla zmiennej zależnej i dla zmiennej niezależnej w swojej książce z 1925 r. Metody statystyczne dla pracowników badawczych . (Hat tip do @Nick Cox za udostępnienie linku z informacjami.) $y$ $x$

Dobra notacja jest jak dobry język. W miarę możliwości unikaj żargonu specyficznego dla danego pola. Pisz w matematycznym odpowiedniku wysokiego BBC English, języka zrozumiałego dla większości osób mówiących po angielsku. Tam, gdzie to możliwe, należy pisać, używając jasnej i szeroko rozumianej notacji.

— Matthew Gunn
źródło

Ten amatorski historyk statystyki może dostarczyć pedantyczną korektę, że Yule nigdy nie był profesorem ... Co ciekawe, na stronie jeff560.tripod.com/stat.html znajduje się odpowiednia strona internetowa, z tą różnicą, że wydaje się, że jest obecnie w dół.

— Nick Cox

χ^{2}

$\chi^2$

@NickCox Fantastyczny link jeff560.tripod.com/stat.html (dla mnie ...), który odwołuje się do Yule i RA Fishera! Początki regresji matematycznej najwcześniej oczywiście sięgają wcześniej Gaussa i Laplace'a, ale podczas moich pełnych poszukiwań amatorskich wydawało się, że używają innej notacji.

— Matthew Gunn

jeff560.tripod.com/stat.html jak piszę to aktualizacja 2014; www.math.hawaii.edu/~tom/history/stat.html to kopia wersji z 2007 roku.

— Nick Cox,