Skok wymiarów w uczeniu maszynowym


10

Jaki jest problem przeskakiwania wymiarów w uczeniu maszynowym (występujący w splotowych sieciach neuronowych i rozpoznawaniu obrazów)? Zaglądałem na ten temat, ale dostaję tylko informacje na temat fizyki deformacji kształtu materiału. Będzie mi bardziej pomocne, jeśli ktoś wyjaśni to na przykładzie związanym z uczeniem maszynowym. Czy ktoś może mi w tym pomóc lub skierować mnie w stronę zasobów, które mogą?

Odpowiedzi:


7

Witamy w DataScience.SE! Nigdy nie słyszałem o tym problemie, więc poszukałem go. Wyjaśnia to trzeci slajd tej prezentacji Geoffa Hintona:

Więcej rzeczy, które utrudniają rozpoznawanie obiektów

• Zmiany w punkcie widzenia powodują zmiany w obrazach, z którymi nie radzą sobie standardowe metody uczenia się.

- Przeskok informacji między wymiarami wejściowymi (tj. Pikselami)

• Wyobraź sobie medyczną bazę danych, w której wiek pacjenta czasami przeskakuje do wymiaru wejściowego, który normalnie koduje wagę!

- Aby zastosować uczenie maszynowe, najpierw chcielibyśmy wyeliminować przeskakiwanie wymiarów.

Innymi słowy, chodzi o cechy koncepcyjne migrujące lub przeskakujące z jednego wymiaru cechy wejściowej do innego, wciąż reprezentując to samo. Chcemy mieć możliwość uchwycenia lub wyodrębnienia esencji cechy, bez względu na to, w którym wymiarze wejściowym jest ona zakodowana.


Rozumiem, że w Computer Vision chce się być niezmiennym dla miejsc na obrazie, ale nie dostaję przykładu wieku.
Martin Thoma

Zrozumiałem, że wiek i waga są zależne, ale nie jestem pewien; to nie moja prezentacja! A może oznaczały, że dosłownie używają niewłaściwej kolumny i chcemy to wykryć.
Emre

@sdream Skomentowałem tylko; Emre udzielił odpowiedzi. (Ale prawdopodobnie nadal powinieneś to zaakceptować). Istotą CNN jest to, że nie tylko jedna cecha zmienia się, gdy obiekt jest gdzieś indziej, ale kompletny wzorzec jest na innym wejściu.
Martin Thoma

@ Emre, otrzymuję od ciebie odpowiedź, że bez względu na to, z którego kierunku jest wprowadzana określona właściwość, funkcja, którą wywołuje ta konkretna właściwość, powinna być niezmienna dla wymiaru wejściowego tej właściwości. Dzięki! :) Wciąż czekam na bardziej szczegółowe odpowiedzi, w przeciwnym razie oznaczy twoją odpowiedź jako odpowiedź.
sdream

3
Przykład wieku ma wyróżnić zestaw danych, który nie ma przeskakiwania wymiarów. Wiek i waga nie „przeskakują” ani nie zamieniają wartości losowo między przykładami - nie można ich zamieniać, a przykład pokazuje, jak by to było dziwne (i jak trudne byłoby wykonanie prostych zadań, takich jak regresja liniowa). Wartości pikseli na obrazach (i podobnych danych w wielu zadaniach przetwarzania sygnałów) łatwo się zmieniają lub przemieszczają ze względu na charakter problemu.
Neil Slater

7

O ile rozumiem, problem jest następujący: W rozpoznawaniu obrazu wejściowymi do twojej sieci mogą być piksele (skala szarości lub tylko 1 i 0 dla czerni i bieli). Jeśli chcesz np. Rozpoznać liczby odręczne, bardzo trudno jest pracować tylko z takimi wartościami, ponieważ nigdy nie wiesz, gdzie dokładnie będzie ta liczba (tj. Czarne wartości).

Czy piksel 140 jest czarny czy 142 czarny? W obu przypadkach może to być trzy. W przykładzie wiek / waga dane wejściowe są dobrze określone. Cechą 2 jest waga. Cechą 3 jest wiek. Te „wymiary” nie powinny „przeskakiwać” w zbiorze danych.

Zatem: podczas treningu na obrazie „trójki”, „samochody” lub „domy” muszą być rozpoznawane niezależnie od ich położenia na obrazie, tj. Wartości pikseli, tj. Wektora cech / wejścia, tj. Wymiarów w przeciwieństwie do wyraźnie określonych dane wejściowe, takie jak dane pacjenta.

Jak rozwiązać ten problem w rozpoznawaniu obrazów? Używasz dodatkowych sztuczek, np. Splot.


2

Przeczytałem poprzednie odpowiedzi i komentarz Neila Slatera do posta Emre, skopiowany ponownie poniżej, uderza w sedno. „Skakanie po wymiarach” to termin stworzony przez dr Hintona z pionierskiej nauki maszynowej w kontekście punktu widzenia. Cytując dr Hintona: „Zazwyczaj wyobrażaj sobie, że wymiary wejściowe odpowiadają pikselom, a jeśli obiekt porusza się po świecie, a ty nie poruszasz oczami, aby za nim podążać, informacje o obiekcie pojawią się na różnych pikselach”. Wiek i waga to wymiary wejściowe, których nie można łatwo pomylić. Dr Hinton użył tej oczywiście NIE prawdopodobnej przeskakiwania wymiarów wieku i wagi pacjentów, aby na pewno bylibyśmy w stanie wykryć i naprawić wszelkie błędy między tymi typami danych (trudno nie zauważyć, że większość dorosłych ma mniej niż 100 lat i więcej niż 100 funtów). Prawdopodobny problem przeskakiwania wymiarów, którym zajmował się dr Hinton, polega na tym, że piksele można przesunąć, ponieważ mamy inny punkt widzenia (np. Obiekt mógł się poruszyć lub patrzymy na niego pod innym kątem). Liniowe sieci neuronowe nie byłyby w stanie tego wykryć, podczas gdy splotowe sieci neuronowe z założenia byłyby.

„Przykład wieku ma wyróżnić zestaw danych, który nie ma przeskakiwania wymiarów. Wiek i waga nie„ przeskakują ”ani nie zamieniają wartości losowo między przykładami - nie można ich zamieniać, a przykład pokazuje, jak dziwne byłoby to (i jak trudno byłoby wykonać proste zadania, takie jak regresja liniowa. Wartości pikseli w obrazach (i podobnych danych w wielu zadaniach przetwarzania sygnałów) łatwo się zmieniają lub przemieszczają ze względu na naturę problemu - Neil Slater, 29 maja o 18:01 „


1

Wyjaśnienie prosto z kursu Hintona na temat sieci neuronowych do uczenia maszynowego ....

„Przeskakiwanie wymiarów ma miejsce, gdy można wziąć informacje zawarte w wymiarach niektórych danych wejściowych i przenosić je między wymiarami bez zmiany celu . Przykładem kanonicznym jest wzięcie obraz odręcznej cyfry i tłumaczenie jej na obrazie. Wymiary zawierające „atrament” są teraz inne (zostały przeniesione do innych wymiarów), jednak etykieta, którą przypisujemy cyfrze, nie uległa zmianie. Pamiętaj, że to nie jest coś dzieje się to konsekwentnie w całym zbiorze danych, tzn. możemy mieć zbiór danych zawierający dwie odręczne cyfry, z których jedna jest przetłumaczoną wersją drugiego, jednak nadal nie zmienia to odpowiedniej etykiety cyfr ”.


0

Nadzieja dotyczy tylko problemów z częścią obrazu lub pikselami poruszającymi się w obrębie wymiaru (głównie), a czasem w innym przyciemnionym (innym polu odbiorczym), ale dane wyjściowe pozostają takie same.

Ten problem dotyczy niezmienności lub równoważności i wygląda na to, że przykład wagi i wieku jest łatwym sposobem stwierdzenia. Załóżmy, że jeśli zdajemy sobie sprawę z tego wzrostu wagi i wieku, z łatwością dokonalibyśmy zmian w algo i uzyskali właściwy wynik. Ale podobnie jak przeskakiwanie do danych / informacji, przeskakiwanie obrazu również ma miejsce, jeśli weźmiemy pod uwagę „4”, a „4” przesunęło się o kilka pikseli w lewo, aby były różnymi klasami o różnych celach.

Dzięki niezmienniczości translacji lub lepszemu filtrowi równoważności poprzez ten ruch lub przeskok nie stanowi większego problemu, choć zwiększa złożoność i kosztem wyrzucania informacji, takich jak lokalizacja.

Proszę, daj mi znać, jeśli potrzebujesz więcej jasności, postaram się.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.