Forma przetwarzania sygnału, w której wejściem jest obraz. Zwykle traktuje obraz cyfrowy jako sygnał dwuwymiarowy (lub wielowymiarowy). Przetwarzanie to może obejmować przywracanie i ulepszanie obrazu (w szczególności rozpoznawanie wzorców i projekcję).
Pracuję nad małym projektem z udziałem twarzy użytkowników Twittera za pośrednictwem ich zdjęć profilowych. Problem, z którym się spotkałem, to fakt, że po odfiltrowaniu wszystkich zdjęć oprócz tych, które są wyraźnymi zdjęciami portretowymi, niewielki, ale znaczny odsetek użytkowników Twittera używa zdjęcia Justina Biebera jako swojego profilu. Aby je odfiltrować, w …
Istnieją pewne warianty normalizacji obrazów, ale większość wydaje się używać tych dwóch metod: Odejmij średnią na kanał obliczoną dla wszystkich zdjęć (np. VGG_ILSVRC_16_layers ) Odejmij według pikseli / kanałów obliczonych na wszystkich obrazach (np. CNN_S , zobacz także sieć referencyjną Caffe ) Moim zdaniem naturalne podejście do normalizacji każdego obrazu. …
Mimo że wszystkie obrazy w zestawie danych MNIST są wyśrodkowane, z podobną skalą i odkryte bez rotacji, mają znaczącą odmianę pisma ręcznego, która zastanawia mnie, w jaki sposób model liniowy osiąga tak wysoką dokładność klasyfikacji. O ile jestem w stanie sobie wyobrazić, biorąc pod uwagę znaczną różnorodność pisma ręcznego, cyfry …
Jestem zdezorientowany co do wybielania ZCA i normalnego wybielania (które uzyskuje się poprzez podzielenie głównych składników przez pierwiastki kwadratowe wartości własnych PCA). Z tego co mi wiadomo, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, gdzie to wektory własne PCA.UU\mathbf U Jakie są zastosowania wybielania ZCA? Jakie są różnice między wybielaniem …
W dokumentach klasyfikacyjnych ImageNet wskaźniki błędu 1 i 5 są ważnymi jednostkami do pomiaru sukcesu niektórych rozwiązań, ale jakie są te poziomy błędów? W ImageNet Classification with Deep Convolutional Neural Networks autorstwa Krizhevsky i in. każde rozwiązanie oparte na jednym CNN (strona 7) nie ma najwyższych 5 poziomów błędów, podczas …
Napisałem program komputerowy, który potrafi wykrywać monety na obrazie statycznym (.jpeg, .png itp.) Przy użyciu standardowych technik wizji komputerowej (rozmycie gaussowskie, progowanie, transformata Hougha itp.). Używając proporcji monet zebranych z danego obrazu, mogę z całą pewnością ustalić, które monety są. Chciałbym jednak dodać do moich poziomów ufności, a także ustalić, …
Biorąc pod uwagę dwa histogramy, jak oceniamy, czy są one podobne, czy nie? Czy wystarczy spojrzeć na dwa histogramy? Proste mapowanie jeden na jeden ma problem polegający na tym, że jeśli histogram jest nieco inny i nieznacznie przesunięty, nie uzyskamy pożądanego wyniku. Jakieś sugestie?
To pytanie zostało przeniesione z przepełnienia stosu, ponieważ można na nie odpowiedzieć w ramach weryfikacji krzyżowej. Migrował 7 lat temu . Próbuję dowiedzieć się, jak sieć neuronowa działa na rozpoznawanie obrazów. Widziałem kilka przykładów i stałem się jeszcze bardziej zdezorientowany. W przykładzie rozpoznawania liter obrazu 20 x 20 wartości każdego …
Wiem, że wprowadzono wiele postępów w zakresie rozpoznawania obrazów, klasyfikacji obrazów itp. Z głębokimi, splotowymi sieciami neuronowymi. Ale jeśli trenuję sieć na przykład na obrazach PNG, czy będzie ona działać tylko dla obrazów tak zakodowanych? Jakie inne właściwości obrazu mają na to wpływ? (kanał alfa, przeplot, rozdzielczość itp.)
Jaki jest najbardziej poprawny pod względem teoretycznym / informacyjnym sposób obliczenia entropii obrazu? W tej chwili nie dbam o wydajność obliczeniową - chcę, aby teoretycznie była jak najbardziej poprawna. Zacznijmy od obrazu w skali szarości. Jednym intuicyjnym podejściem jest rozważenie obrazu jako worka pikseli i obliczenie gdzie jest liczbą poziomów …
Chcę porównać dwa obrazy twarzy. Obliczyłem ich histogramy LBP. Więc teraz muszę porównać te dwa histogramy i uzyskać coś, co powie, ile te histogramy są równe (0 - 100%). Istnieje wiele sposobów rozwiązania tego zadania, ale autorzy metody LBP podkreślają (Opis twarzy z lokalnymi wzorami binarnymi: Zastosowanie do rozpoznawania twarzy. …
Wystarczy pokryte Andrew Ng za Non-liniowy Zakładany Neural Netowrks, i mieliśmy wiele pytanie wybór dla określenia liczby funkcji dla obrazu rozdzielczości 100x100 z grescale intensywności. Odpowiedź brzmiała 50 milionów, 555 x10710710^7 Jednak wcześniej dla obrazu w skali szarości 50 x 50 pikseli. liczba funkcji wynosi 50 x 50 (2500) Dlaczego …
Obecnie używam szkolenia Viterbi do problemu segmentacji obrazu. Chciałem wiedzieć, jakie są zalety / wady korzystania z algorytmu Baum-Welch zamiast treningu Viterbi.
Próbuję nauczyć się korzystać z losowych pól Markowa do segmentowania regionów na obrazie. Nie rozumiem niektórych parametrów w MRF ani tego, dlaczego maksymalizacja oczekiwań, którą wykonuję, czasami nie jest zbieżna z rozwiązaniem. Zaczynając od twierdzenia Bayesa, mam , gdzie y jest wartością skali szarości piksela, a x jest etykietą klasy. …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.