Czy ktoś może mi powiedzieć, jaki jest cel tworzenia funkcji? i dlaczego przed klasyfikacją obrazu konieczne jest wzbogacenie przestrzeni obiektów? Czy to konieczny krok?
Czy istnieje metoda wzbogacenia przestrzeni funkcji?
Czy ktoś może mi powiedzieć, jaki jest cel tworzenia funkcji? i dlaczego przed klasyfikacją obrazu konieczne jest wzbogacenie przestrzeni obiektów? Czy to konieczny krok?
Czy istnieje metoda wzbogacenia przestrzeni funkcji?
Odpowiedzi:
Generowanie cech - jest to proces pobierania surowych, nieuporządkowanych danych i definiowania cech (tj. Zmiennych) do potencjalnego wykorzystania w analizie statystycznej. Na przykład w przypadku eksploracji tekstu możesz zacząć od nieprzetworzonego dziennika tysięcy wiadomości tekstowych (np. SMS, e-mail, wiadomości z sieci społecznościowych itp.) I wygenerować funkcje, usuwając słowa o niskiej wartości (np. Stopery), używając określonego rozmiaru bloki słów (tj. n-gramów) lub stosowanie innych reguł.
Wyodrębnianie elementów - po wygenerowaniu elementów często konieczne jest przetestowanie przekształceń elementów oryginalnych i wybranie podzbioru tej puli potencjalnych elementów oryginalnych i pochodnych do wykorzystania w modelu (tj. Wyodrębnienie i zaznaczenie elementów). Testowanie wartości pochodnych jest częstym krokiem, ponieważ dane mogą zawierać ważne informacje, które mają nieliniowy wzór lub związek z twoim wynikiem, dlatego znaczenie elementu danych może być widoczne tylko w stanie przekształconym (np. Pochodne wyższego rzędu). Używanie zbyt wielu funkcji może prowadzić do zwielokrotnienia kolinearności lub w inny sposób wprowadzać w błąd modele statystyczne, podczas gdy wyodrębnianie minimalnej liczby cech odpowiadających celowi analizy jest zgodne z zasadą parsimony.
Wzbogacanie przestrzeni obiektów w ten sposób jest często niezbędnym krokiem w klasyfikacji obrazów lub innych obiektów danych, ponieważ nieprzetworzona przestrzeń cech jest zazwyczaj wypełniona przytłaczającą ilością nieuporządkowanych i nieistotnych danych, które w paradygmacie są często określane jako „szum” „sygnału” i „szumu” (co oznacza, że niektóre dane mają wartość predykcyjną, a inne nie). Zwiększając przestrzeń funkcji, można lepiej zidentyfikować ważne dane, które mają wartość predykcyjną lub inną wartość w analizie (tj. „Sygnał”), jednocześnie usuwając mylące informacje (tj. „Szum”).