Klastrowanie jako sposób podziału danych na potrzeby regresji logistycznej


11

Staram się przewidzieć sukces lub porażkę uczniów na podstawie niektórych funkcji za pomocą modelu regresji logistycznej. Aby poprawić wydajność modelu, już myślałem o podzieleniu uczniów na różne grupy w oparciu o oczywiste różnice i zbudowaniu osobnych modeli dla każdej grupy. Sądzę jednak, że identyfikacja tych grup na podstawie badań może być trudna, więc pomyślałem o podzieleniu uczniów przez grupowanie ich cech. Czy jest to powszechna praktyka w budowaniu takich modeli? Czy sugerowałbyś, żebym podzielił go na oczywiste grupy (na przykład studentów pierwszego semestru vs. studentów powracających), a następnie przeprowadzę grupowanie tych grup lub skupienie od samego początku?

Aby spróbować wyjaśnić:

Mam na myśli to, że rozważam użycie algorytmu klastrowania, aby rozbić mój zestaw treningowy regresji logistycznej na grupy. Następnie wykonałbym osobne regresje logistyczne dla każdej z tych grup. Następnie, stosując regresję logistyczną do przewidywania wyników dla ucznia, wybrałbym model, który zastosować, na podstawie grupy, do której najlepiej pasują.

Być może mógłbym zrobić to samo, dołączając identyfikator grupy, na przykład 1, jeśli uczeń powraca, a 0, jeśli nie.

Teraz zastanawiam się, czy może być korzystne grupowanie zestawu danych treningowych i używanie ich etykiety klastrowej jako funkcji w regresji logistycznej, zamiast budowania osobnych modeli regresji logistycznej dla każdej populacji.

Jeśli użyteczne jest podanie identyfikatora grupy dla tych, którzy powracają, a nowych studentów, to czy przydatne może być również rozszerzenie listy grup? Grupowanie wydaje się naturalnym sposobem na zrobienie tego.

Mam nadzieję, że to jasne ...


Myślę, że nie rozumiem, w jaki sposób „klastrowanie” i model regresji logistycznej oddziaływałyby na siebie nawzajem. Czy możesz wyjaśnić różnicę między „klastrowaniem” w tym kontekście a włączeniem identyfikatora grupy jako zmiennej objaśniającej w regresji?
whuber

Odpowiedzi:


4

Uważam, że jeśli masz znaczną różnicę w zmiennej zależnej między swoimi klastrami, wówczas podejście klastrowania na pewno będzie zdecydowanie. Niezależnie od wybranego algorytmu uczenia się.

Moim zdaniem uruchomienie algorytmu uczenia się na całej podstawie może ukryć znaczące różnice na niższym poziomie agregacji.

Każdy, kto słyszał o paradoksie Simpsona, jest to trudny przypadek głębszego problemu, w którym masz różne korelacje w różnych grupach, które są pokrywane przez większy hałas próbki lub słabsze korelacje w większej grupie.


Możesz mieć rację, ale ja nie podążam za twoją argumentacją. Czy opowiadasz się za tym, aby PO uruchamiał osobne LR na znalezionych klastrach, dodawał indeks klastrowy oprócz zmiennych towarzyszących, czy zamiast zmiennych towarzyszących? Z pewnością jest prawdą, że zmienne towarzyszące mogą być mylone ze zmiennymi pominiętymi w badaniach obserwacyjnych, ale czy mówisz, że CA może generować informacje, których nie ma w zmiennych, na których działa? Jeśli chodzi o paradoks Simpsona, jest on omawiany tutaj w CV , jeśli jesteś zainteresowany.
gung - Przywróć Monikę

Sugeruję, że bez nadzoru analiza wyciągnęła jednorodne grupy z dowolnym zbiorem IV (zmienne niezależne). Następnie możesz sam zdecydować, czy będziesz postępować z tym samym zestawem varbs, nowym zestawem lub zestawem kombinowanym do następnego etapu modelowania za pomocą LR. Celem jest zbudowanie i dostrojenie 1 LR na klaster (biorąc pod uwagę, że klastry mają znacząco różne wartości DV lub częstotliwości).
clancy

Zrealizowałem to sam w kontekście modelu sprzedaży krzyżowej produktów ubezpieczeń na życie i znalazłem lepsze prognozy dla 2 klastrów, które były rozwadniane przez trzeci klaster.
clancy

Zastanawiam się, czy model mógł potrzebować terminu splajn. Czy możesz dołączyć symulację niektórych danych, podstawowy wskaźnik dopasowania, CA i końcowy (ulepszony) wskaźnik dopasowania z klastrem? Chciałbym to zobaczyć i trochę się z tym bawić, aby zrozumieć, co się dzieje.
gung - Przywróć Monikę

Cześć Gung, chciałbym, ale nie mogę znaleźć czasu. Bardzo mocno zainwestowałem w rodzinę, pracę i doskonalenie umiejętności modelowania. Właśnie zaczynam pracę z modelowaniem MARS i nie jestem pewien, czy to zadowoli ten sam pożądany efekt, co opisany zespół klaster + LR.
clancy

8

Proponowane ogólne podejście - użycie ukrytych partycji do przypisania różnych punktów danych do różnych podstawowych klasyfikatorów - jest dobrze zbadanym podejściem do klasyfikacji.

Prawdopodobnie przyczyną tego, że metody te nie są powszechnie stosowane, są stosunkowo skomplikowane i dłuższe czasy działania niż regresja logistyczna lub maszyny SVM. W wielu przypadkach wydaje się, że mogą one prowadzić do lepszej wydajności klasyfikacji.

Oto kilka referencji:

  • Shahbaba, B. and Neal, R. „Modele nieliniowe z zastosowaniem mieszanin procesowych Dirichleta”

  • Zhu, J. i Chen, N. i Xing, EP „Infinite Latent SVM for Classification and Multi-task Learning”

  • Rasmussen, CE i Ghahramani, Z. „Nieskończone mieszanki ekspertów procesów gaussowskich”

  • Meeds, E. i Osindero, S. „Alternatywna nieskończona mieszanina ekspertów procesu Gaussa”


1

Chcę od początku przyznać, że stosunkowo mało wiem o klastrowaniu. Nie widzę jednak sensu opisywanej procedury. Jeśli na przykład uważasz, że pierwszy semestr w stosunku do powracających studentów może być inny, dlaczego nie uwzględnić współzmiennej, która to indeksuje? Podobnie, jeśli uważasz, że inna funkcja uczniów jest istotna, możesz to również uwzględnić. Jeśli obawiasz się, że związek między twoim głównym predyktorem zainteresowania a wskaźnikiem sukcesu może się różnić, możesz również uwzględnić interakcję między tym predyktorem a pierwszym terminem a zwrotem itp. Regresja logistyczna jest dobrze przygotowana, aby odpowiedzieć na te pytania poprzez włączenie takich warunki w modelu.

Z drugiej strony, dopóki tylko klastrujesz na tych funkcjach i robisz to najpierw (bez patrzenia na odpowiedź), nie widzę żadnych problemów. Podejrzewam, że takie podejście byłoby nieefektywne, ponieważ każdy model miałby mniejszą moc, ponieważ pasuje tylko do podzbioru danych, ale nie sądzę, aby wpłynęło to na parametry lub unieważniło testy. Więc przypuszczam, że możesz spróbować tego, jeśli naprawdę chcesz.

Aktualizacja:

Domyślam się, że najlepiej (tj. Najbardziej wydajnie) byłoby dopasować jeden model do wszystkich danych. Możesz dołączyć dodatkowe zmienne towarzyszące (takie jak zwracanie vs. nie) wykraczające poza swoje główne zainteresowania, a także wskaźnik grupowania, który odkryłeś, przeprowadzając wcześniej analizę skupień. Jeśli jednak zmienne towarzyszące, które przeszły do ​​analizy skupień, zostaną również udostępnione modelowi regresji logistycznej, nie jestem pewien, czy widzę, co można by uzyskać dzięki uwzględnieniu wszystkich zmiennych towarzyszących w modelu LR bezwskaźnik skupienia. Może być z tego korzyść, której nie znam, ponieważ nie jestem ekspertem w analizie skupień, ale nie wiem, co by to było. Wydaje mi się, że urząd certyfikacji nie wygenerowałby dodatkowych informacji, których jeszcze nie było w zmiennych towarzyszących, a zatem nie dodałby niczego do modelu LR. Możesz spróbować; może się mylę. Ale przypuszczam, że spalisz tylko kilka dodatkowych stopni swobody.

Innym podejściem byłoby wprowadzenie wskaźnika klastrów do modelu LR zamiast zmiennych towarzyszących, na których jest oparty. Wątpię, czy byłoby to korzystne. CA nie będzie idealny, podobnie jak jakakolwiek inna analiza, dlatego przejście od pierwotnych zmiennych towarzyszących do pochodnego wskaźnika skupień prawdopodobnie spowoduje pewną utratę informacji . (Znów nie wiem tego, ale mocno podejrzewam, że to prawda.) Ponownie, możesz wypróbować to na dwa sposoby i porównać jako ćwiczenie akademickie, chociaż tylko próbowanie wielu rzeczy i ustalenie wyniku, który wygląda najlepiej, jest marszczone. na, jeśli chcesz poważnie traktować swoje wyniki.

Nie chcę po prostu analizować skupień. Może mieć z nich wiele korzyści i może być dla nich dobre zastosowanie. Jednak, jak rozumiem twoją sytuację, myślę, że po prostu budowanie modelu LR z towarzyszącymi mu zmiennymi, które Twoim zdaniem mogą być istotne, jest właściwą drogą.


1

Jeśli nie jesteś związany z regresją logistyczną, sugeruję użycie losowego klasyfikatora lasu, ponieważ ma on rodzaj wbudowanej klastrowania. Pomysł polegałby na użyciu matrycy zbliżeniowej do zgrupowania. Macierz bliskości jest macierzą N_Obs na N_Obs dla frakcji drzew spoza torby, gdzie obserwacje odbywają się w tym samym węźle końcowym. Następnie można agregować to do poziomu elementu według macierzy poziomu elementów, gdzie elementy stanowią średnią ułamka w macierzy zbliżeniowej. Następnie zgrupujesz wszystkie poziomy razem, gdy przekroczą próg i zobaczysz, czy to poprawi twoje przewidywania. Najlepiej jest zastosować podejście iteracyjne krok po kroku, aby znaleźć optymalne grupowanie, ale możesz wybrać próg na inne sposoby. Po zakończeniu klastrowania można zastąpić funkcję etykietami klastrów lub dodać etykiety klastrów jako nową funkcję. Podejrzewam, że w tym momencie możesz naprawdę wrócić do regresji logistycznej.


0

Tworząc modele wielosegmentowe, myślę, że najlepszym podejściem jest tworzenie segmentów, które mówią o rzeczywistych różnicach w podstawowych rozkładach. Doskonały przykład stanowią studenci pierwszego semestru a studenci powracający, ponieważ rozkład predyktorów będzie prawdopodobnie bardzo różny dla tych dwóch populacji. Co ważniejsze, różnice te mają intuicyjne wyjaśnienie.


Dostaję wartość intuicyjnego wyjaśnienia - pomaga interpretować model. Ale czy nie ma powodu, aby sądzić, że jeśli zgrupujesz ludzi w grupy na podstawie ich podobieństwa, pod względem dostępnych funkcji, otrzymasz podobne korzyści, choć nie z taką samą interpretacją? Wydaje mi się, że idea klastrowania polega na tym, że jeśli chodzi o identyfikację grup, które nie odpowiadają dokładnie kategoriom, których używamy na co dzień, maszyny są lepsze niż ludzie ...
dave

Dodatkowo, jeśli trenujesz model regresji na zbiorze podobnych uczniów, model ten będzie dokładniejszy w przewidywaniu sukcesu tych uczniów niż model wyszkolony przy użyciu szerszego zestawu uczniów.
dave
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.