Studiuję drzewa klasyfikacji i regresji, a jedną z miar podziału lokalizacji jest wynik GINI.
Teraz jestem przyzwyczajony do określania najlepszego podziału lokalizacji, gdy logarytm stosunku prawdopodobieństwa tych samych danych między dwiema dystrybucjami wynosi zero, co oznacza, że prawdopodobieństwo członkostwa jest równie prawdopodobne.
Moja intuicja mówi, że musi istnieć jakieś połączenie, że GINI musi mieć dobry fundament w matematycznej teorii informacji (Shannon), ale nie rozumiem GINI wystarczająco dobrze, aby sam wyprowadzić związek.
Pytania:
- Jaka jest „pierwsza zasada” wyprowadzenia wyniku zanieczyszczenia GINI jako miara podziału?
- W jaki sposób wynik GINI odnosi się do logarytmu ilorazu prawdopodobieństwa lub innych podstaw teoretycznych informacji (Shannon Entropy, pdf i entropia krzyżowa są ich częścią)?
Referencje:
- Jak definiuje się ważone kryterium Giniego?
- Matematyka za drzewami klasyfikacji i regresji
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(dodano) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
Entropia Shannona jest opisana jako:
Rozszerzając to na przypadek wielowymiarowy otrzymujemy:
Entropia warunkowa jest zdefiniowana w następujący sposób:
Dziennik stosunku prawdopodobieństw służy do wykrywania nagłych zmian i jest uzyskiwany przy użyciu nich. (Nie mam pochodnych przede mną).
Zanieczyszczenie GINI:
- Ogólna postać zanieczyszczenia GINI to
Myśli:
- Dzielenie odbywa się na zasadzie zanieczyszczenia. Wysoka „czystość” jest prawdopodobnie taka sama jak niska entropia. Podejście to jest prawdopodobnie związane z minimalizacją entropii.
- Jest prawdopodobne, że założony rozkład podstawy jest równomierny, lub ewentualnie z machaniem ręką, gaussowski. Prawdopodobnie tworzą mieszankę dystrybucji.
- Zastanawiam się, czy można tu zastosować wyprowadzenie wykresu Shewharta?
- Zanieczyszczenie GINI wygląda jak całka funkcji gęstości prawdopodobieństwa dla rozkładu dwumianowego z 2 próbami i jednym sukcesem.
(dodatkowy)
- Forma jest również zgodna z rozkładem dwumianowym Beta, który jest sprzężony przed rozkładem hipergeometrycznym. Testy hipergeometryczne są często stosowane w celu ustalenia, które próbki są reprezentowane w próbce powyżej lub poniżej. Istnieje również związek z dokładnym testem Fishera, cokolwiek to jest (uwaga dla siebie, idź dowiedzieć się więcej na ten temat).
Edycja: Podejrzewam, że istnieje forma GINI, która działa bardzo dobrze z logiką cyfrową i / lub drzewami rb. Mam nadzieję, że odkryję to jesienią w projekcie klasowym.