Dlaczego w uczeniu maszynowym stosowane są indeksy górne zamiast indeksów dolnych?

Biorę kurs Andrew Ng na Machine Learning poprzez Coursera . W przypadku równań zamiast indeksów dolnych stosuje się indeks górny. Na przykład w poniższym równaniu użyto zamiast : $x^{(i)}$ $x_i$

$J(\theta_0, \theta_1) = \frac{1}{2m} \sum\limits_{i=1}^{m}{(h_\theta(x^{(i)}) - y^{(i)})^2}$

Najwyraźniej jest to powszechna praktyka. Moje pytanie brzmi: po co używać indeksów górnych zamiast indeksów dolnych? Indeksy górne są już używane do potęgowania. To prawda, że wydaje mi się, że potrafię rozróżnić przypadki użycia indeksu górnego i potęgowania, zwracając uwagę na obecność nawiasów, ale nadal wydaje się to mylące.

machine-learning notation

— entpnerd
źródło

Podejrzewam, że może dlatego, że niektórzy informatycy nie znają standardowej notacji matematycznej i dlatego tworzą własną notację. Czasami też to robią aktuariusze, a frustracja jest bardziej skomplikowana.

— rocinante

Czy iindeksowanie jest większe niż rozmiar zestawu danych, czy też elementy wektora x? Jeśli to pierwsze, jest to całkowicie standardowe. Jeśli to drugie, jest to całkowicie niestandardowe. Powodem, dla którego używany jest indeks górny, jest to, że czasami chcesz odwoływać się do elementu wektora za pomocą indeksu dolnego.

— Rex Kerr

@rocinante lol nie, to dlatego, że indeksy są już pobierane do indeksowania wektorów.

— Neil G

@rocinante To raczej zarozumiały. Co z wektorami przeciwstawnymi / notacją Einsteina ?

— Will Vousden,

@ procinante Muszę powtórzyć innym, podkreślając, że twoje sformułowania są niefortunne. Wszyscy mamy tendencję do traktowania tego, co lokalne i znane jako standard.

— Nick Cox,

Odpowiedzi:

Jeśli oznacza wektor to jest standardowym zapisem dla tej współrzędnej , tj. $x$ $x \in \mathbb R^m$ $x_i$ $i$ $x$

x = (x_{1}, x_{2}, \dots, x_{m}) \in R^{m} .

$x = (x_1, x_2, \ldots, x_m)\in\mathbb R^m.$

Jeśli masz kolekcję takich wektorów, jak opisałbyś ty wektor? Nie możesz pisać , to ma inne standardowe znaczenie. Czasami więc ludzie piszą i dlatego wierzę, dlaczego Andrew Ng to robi. $n$ $i$ $x_i$ $x^{(i)}$

To znaczy

x^{(1)} = (x_{1}^{(1)}, x_{2}^{(1)}, \dots, x_{m}^{(1)}) \in R^{m} x^{(2)} = (x_{1}^{(2)}, x_{2}^{(2)}, \dots, x_{m}^{(2)}) \in R^{m} \dots x^{(n)} = (x_{1}^{(n)}, x_{2}^{(n)}, \dots, x_{m}^{(n)}) \in R^{m} .

$\begin{equation} x^{(1)} = (x_1^{(1)}, x_2^{(1)}, \ldots, x_m^{(1)}) \in \mathbb R^m\\ x^{(2)} = (x_1^{(2)}, x_2^{(2)}, \ldots, x_m^{(2)}) \in \mathbb R^m\\ \ldots \\ x^{(n)} = (x_1^{(n)}, x_2^{(n)}, \ldots, x_m^{(n)}) \in \mathbb R^m.\\ \end{equation}$

— ameba mówi Przywróć Monikę
źródło

Nie zgadzam się, ale często używa się

, tj. Do powtarzanych pomiarów.

x_{i j}

$x_{ij}$

— Cliff AB

Tak, ale

jest równoważne mojemu

; jaki byłby odpowiednik

x_{i j}

$x_{ij}$

x_{j}^{(i)}

$x^{(i)}_j$

x^{(i)}

$x^{(i)}$

— ameba mówi Przywróć Monikę

tak, to zaleta. Myślę

jest czasem używane, ale można to pomylić z

x_{i .}

$x_{i.}$

\sum_{j = 1}^{n} x_{i j} / m

$\sum_{j= 1}^n x_{ij}/m$

— Cliff AB

Jeśli chcesz iterować po macierzach,

wydaje się najbardziej intuicyjnym sposobem. Dlatego notacja pozostaje spójna podczas przechodzenia z wektorów do macierzy.

x_{m n}^{(i)}

$x_{mn}^{(i)}$

— josh

@JAB Tak, aby doprecyzować notację („jak piszesz”). Oczywiście można zgodzić się na użycie

dla

wektora i

dla

elementu

wektora. Możliwe są różne konwencje, to tylko jedna z nich. Nie twierdzę nawet, że jest najlepszy, po prostu wyjaśniam uzasadnienie.

x_{i}

$x_i$

i

$i$

x_{i j}

$x_{ij}$

j

$j$

i

$i$

— ameba mówi Przywróć Monikę

Używanie super skryptów, jak stwierdziliście, uważam, że nie jest bardzo powszechne w literaturze dotyczącej uczenia maszynowego. Musiałbym przejrzeć notatki z kursu Nga, aby potwierdzić, ale jeśli zastosuje to tutaj, powiedziałbym, że byłby źródłem rozpowszechnienia tego zapisu. To jest możliwość. Tak czy inaczej, żeby nie być zbyt niemiłym, ale nie sądzę, aby wielu studentów kursów online publikowało literaturę na temat uczenia maszynowego, więc notacja ta nie jest zbyt powszechna w literaturze. W końcu są to kursy wprowadzające do uczenia maszynowego, a nie doktoranckie.

Bardzo powszechne w super skryptach jest oznaczanie iteracji algorytmu za pomocą super skryptów. Na przykład możesz napisać iterację metody Newtona jako

$\theta^{(t+1)} = \theta^{(t)} - H(\theta^{(t)}) ^{-1} \nabla \theta^{(t)}$

gdzie to Hesjan, a to gradient. $H(\theta^{(t)})$ $\nabla \theta^{(t)}$

(... tak, nie jest to najlepszy sposób na wdrożenie metody Newtona ze względu na inwersję macierzy Hesji ...)

Tutaj reprezentuje wartość w iteracji . Jest to najczęstsze (ale na pewno nie tylko) użycie super skryptów, o których wiem. $\theta^{(t)}$ $\theta$ $t^{th}$

EDIT: Do wyjaśnienia, w oryginalnym pytanie wydawało się sugerować, że w zapisie ML, była równoważna statystyka na notacja. W mojej odpowiedzi twierdzę, że nie jest to tak naprawdę powszechne w literaturze ML. To prawda. Jednak, jak podkreślił @amoeba, jest mnóstwo indeksie górnym zapisie w literaturze ml dla danych, ale w tych przypadkach zazwyczaj nie oznacza obserwację pojedynczego wektora . $x^{(i)}$ $x_i$ $x^{(i)}$ $i^{th}$ $x$

— Cliff AB
źródło

Zderzenie z użyciem nawiasów / nawiasów klamrowych indeksu górnego dla iteracji (notacja, która jest powszechnie stosowana w wielu obszarach) jest bardzo ważna.

— Glen_b

Jest również powszechnie używany do wskazywania indeksu próbki w zestawie treningowym, co jest podobne do iteracji, ale nie dokładnie takie samo, ponieważ zwykle kończy się to iteracją zestawu treningowego wiele razy.

— Rex Kerr

Widziałem także liczby iteracji odnotowane za pomocą indeksów dolnych (

), a także w linii (

). Właśnie dlatego, używając jakiegoś szczególnego zapisu, zwykle na początku umieszczam coś jednoznacznego (np. Mówiąc „w poniższej serii, bla bla bla”, a następnie umieszczając matematykę). Tak więc, niezależnie od używanej notacji, czytelnicy mogą (miejmy nadzieję) intuicyjnie zrozumieć potencjalnie dwuznaczne przypadki, zamiast zgadywać na podstawie znanych im konwencji.

a_{n + 1} = a_{n} + 1

$a_{n+1} = a_n + 1$

a (n + 1) = a (n) + 1

$a(n+1) = a(n) + 1$

— JAB

Zgadzam się z @JAB. Mówiąc bardziej ogólnie, nie sądzę, aby to było haniebne dla ludzi, którzy będą pisać i używać kodu do zapożyczania notacji z oprogramowania w leczeniu matematycznym. Na przykład i spornie ludzie obliczeniowi wyprzedzają wiele grup matematycznych w stosowaniu czystej notacji, takiej jak

, którą należy oceniać jako 1, jeśli jest to prawda, i 0, jeśli jest fałszem, zamiast niepotrzebnych formalizmów, takich jak

; tutaj tylko podążam za Donaldem Knuthem.

(x > 0)

$(x > 0)$

I (x > 0)

$I(x > 0)$

— Nick Cox,

@NickCox Na ogół widzę tylko formę

jeśli chodzi o prawdopodobieństwo; w przeciwnym razie

jest tylko ograniczeniem nierówności. Jeśli chodzi o równania matematyczne, są one albo podzielone na reprezentacje fragmentaryczne, albo po prostu przedstawiają same równanie jako nierówność, ponieważ w przeciwnym razie wywołałoby to dwuznaczność. (Jest podobny do tego, jak

w matematyce jest bardziej subtelny niż w jednym lub w większości języków programowania; wprowadza ograniczenie lub definicję zamiast faktycznego sprawdzania przypisania lub równości.)

I (x > 0)

$I(x > 0)$

x > 0

$x > 0$

=

$=$ ===

— JAB

Indeksy górne są już używane do potęgowania.

W matematyce indeksy górne i lewe są używane w zależności od dziedziny. Wybór jest zawsze dziedzictwem historycznym, niczym więcej. Ktokolwiek pierwszy wszedł w teren, ustalił konwencję używania subskryptów lub indeksów górnych.

$f(x)^{(n)}$

$R^i_i$ $i$ $j$ $T_i^k=R_i^jC_j^k$

$^i_jB_k^l$

Dlatego wybór indeksów górnych przez Ng jest również czysto historyczny. Nie ma prawdziwego powodu, aby z nich korzystać lub nie korzystać z nich, ani też preferować indeksów dolnych. Właściwie uważam, że tutaj ludzie ML używają notacji tensorowej. Zdecydowanie dobrze znają temat, np. Patrz ten artykuł.

— Aksakal
źródło

Kolejny przykład twojej uwagi: notacja Einsteina

— Neil G.