Odpowiedzi:
Nigdy wcześniej nie spotkałem się z tym terminem. Nie jestem pewien, czy rozprzestrzeniłoby to światło czy ciemność w którejkolwiek dziedzinie statystyki: w uczeniu maszynowym (gdzie nadzorowane i nienadzorowane rozróżnienia mają kluczowe znaczenie w rozwiązywaniu problemów) i statystyce wnioskowania (gdzie najczęściej stosuje się regresję, analizę potwierdzającą i NHST).
Tam, gdzie te dwie filozofie się pokrywają, większość regresji i powiązanej terminologii jest rzucana w ściśle nadzorowanym otoczeniu. Myślę jednak, że wiele istniejących koncepcji uczenia się bez nadzoru jest ściśle związanych z podejściami opartymi na regresji, szczególnie gdy naiwnie iterujesz każdą klasę lub funkcję jako wynik i łączysz wyniki. Przykładem tego jest analiza korelacji PCA i dwóch zmiennych. Stosując iteracyjnie najlepszą regresję podzbiorów dla wielu zmiennych, można wykonać bardzo złożony rodzaj estymacji sieci, jak zakłada to modelowanie równań strukturalnych (ściśle w sensie EFA). Wydaje mi się, że jest to problem nadzoru bez regresji z regresją.
Najbliższą rzeczą, o której myślę, jest mała czarna magia, która pobudziła ludzi, kiedy została ogłoszona kilka lat temu, ale nie sądzę, aby zyskała prawdziwą popularność w społeczności. Autorzy opracowali statystykę, którą nazwali „maksymalnym współczynnikiem informacji (MIC)”. Ogólna idea ich metody polega na pobieraniu wysoce wymiarowych danych, wykreślaniu każdej zmiennej względem każdej innej pary w parach, a następnie zastosowaniu interesującego algorytmu łączenia okien na każdym wykresie (który oblicza MIC dla tych dwóch zmiennych), aby ustalić, czy istnieje potencjalnie związek między dwiema zmiennymi. Technika ta ma być niezawodna w identyfikowaniu dowolnie ustrukturyzowanych relacji , a nie tylko liniowych.
Technika jest ukierunkowana na pary zmiennych, ale jestem pewien, że można ją rozszerzyć w celu zbadania zależności wielowymiarowych. Głównym problemem byłoby to, że musiałbyś uruchomić tę technikę na znacznie większej liczbie kombinacji zmiennych, ponieważ zezwalałeś na permutacje coraz większej liczby zmiennych. Wyobrażam sobie, że prawdopodobnie zajmuje to tylko parę par: próba użycia tego nawet na zdalnie wysokowymiarowych danych i rozważenie bardziej złożonych relacji niż pary zmiennych stałoby się trudne do rozwiązania.
Odwołaj się do artykułu Wykrywanie nowych skojarzeń w dużych zestawach danych (2011)
To pytanie przyszło mi do głowy, badając różnicę między metodami nadzorowanymi i bez nadzoru. Pochodząc z tła ekonometrycznego wolę myśleć w modelach, co spowolniło moje rozumienie, ponieważ większość literatury dotyczącej uczenia maszynowego dotyczy metod.
Do tej pory odkryłem, że należy wprowadzić ścisłe rozróżnienie między clustering
(bez nadzoru) a classification
(pod nadzorem). Ciągła analogia relacji między tymi projektami modeli byłaby principal component analysis
(bez nadzoru) kontralinear regression
(nadzorowana).
Argumentowałbym jednak, że związek między grupowaniem a klasyfikacją jest czysto przypadkowy; istnieje tylko wtedy, gdy interpretujemy oba projekty modeli jako opisujące geometryczną relację, co uważam za niepotrzebnie restrykcyjne. Wszystkie nieznane mi metody nadzoru (k-średnie, algorytmy mapy sprężystej, takie jak kohonen / gaz neuronowy, DBSCAN, PCA) mogą być również interpretowane jako modele zmiennych utajonych. W przypadku metod grupowania sprowadzałoby się to do postrzegania przynależności do klastra jako będącego w stanie, który można zakodować jako model zmiennej utajonej poprzez wprowadzenie manekinów stanu.
Biorąc pod uwagę interpretację jako ukryte modele zmiennych, możesz określić dowolny, być może nieliniowy, model opisujący twoje cechy w kategoriach ciągłych zmiennych ukrytych.