Współczynnik Gini vs zanieczyszczenie Gini - drzewa decyzyjne


25

Problem dotyczy budowy drzew decyzyjnych. Według Wikipedii „ współczynnika Giniego ” nie należy mylić z „ zanieczyszczeniem Giniego ”. Jednak obie miary mogą być użyte podczas budowania drzewa decyzyjnego - mogą one wspierać nasze wybory przy dzieleniu zestawu elementów.

1) „Zanieczyszczenie Giniego” - jest to standardowa miara podziału drzewa decyzyjnego (patrz link powyżej);

2) „Współczynnik Giniego” - każdy podział można ocenić na podstawie kryterium AUC. Dla każdego scenariusza podziału możemy zbudować krzywą ROC i obliczyć miarę AUC. Według Wikipedii AUC = (GiniCoeff + 1) / 2;

Pytanie brzmi: czy oba te środki są równoważne? Z jednej strony jestem poinformowany, że współczynnika Giniego nie należy mylić z zanieczyszczeniem Giniego. Z drugiej strony, obie te miary mogą być wykorzystane do zrobienia tego samego - oceny jakości podziału drzewa decyzyjnego.


Przyszedłem do tego pytania, szukając definicji: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma

Odpowiedzi:


28

Nie, pomimo ich nazw nie są one równoważne ani nawet podobne.

  • Zanieczyszczenie Gini jest miarą błędnej klasyfikacji, która ma zastosowanie w kontekście klasyfikatora wieloklasowego.
  • Współczynnik Giniego stosuje się do klasyfikacji binarnej i wymaga klasyfikatora, który może w pewien sposób uszeregować przykłady według prawdopodobieństwa bycia w klasie dodatniej.

Oba mogą być stosowane w niektórych przypadkach, ale są to różne miary dla różnych rzeczy. Zanieczyszczenia są powszechnie stosowane w drzewach decyzyjnych .


7

Wziąłem przykład danych z dwiema osobami A i B o bogactwie odpowiednio jednostki 1 i jednostki 3. Zanieczyszczenie Giniego według Wikipedii = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

Współczynnik Giniego według Wikipedii byłby stosunkiem pola między czerwoną i niebieską linią do całkowitego pola pod niebieską linią na poniższym wykresie

wprowadź opis zdjęcia tutaj

Obszar pod czerwoną linią wynosi 1/2 + 1 + 3/2 = 3

Całkowity obszar pod niebieską linią = 4

Więc współczynnik Giniego = 3/4

Oczywiście dwie liczby są różne. Sprawdzę więcej przypadków, aby sprawdzić, czy są one proporcjonalne lub czy istnieje dokładny związek i dokonam edycji odpowiedzi.

Edycja: Sprawdziłem również inne kombinacje, stosunek nie jest stały. Poniżej znajduje się lista kilku kombinacji, które wypróbowałem. wprowadź opis zdjęcia tutaj


Co za wyjaśnienie !!
Outlier

0

Myślę, że oba reprezentują tę samą koncepcję.

W drzewach klasyfikacyjnych indeks Gini służy do obliczania zanieczyszczenia partycji danych. Załóżmy więc, że partycja D składa się z 4 klas, każda z jednakowym prawdopodobieństwem. Wtedy Indeks Giniego (Gini Impurity) będzie wynosić: Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)

W CART wykonujemy podziały binarne. Tak więc indeks gini zostanie obliczony jako ważona suma wynikowych partycji i wybieramy podział z najmniejszym indeksem gini.

Dlatego użycie Gini Impurity (Gini Index) nie ogranicza się do sytuacji binarnych.

Innym terminem dotyczącym zanieczyszczenia Gini jest współczynnik Giniego, który jest normalnie stosowany jako miara podziału dochodu.


3
Współczynnik Giniego nie jest zanieczyszczeniem Giniego. Zobacz linki w pytaniu
Sean Owen

2
Wikipedia nie zawsze jest wiarygodnym źródłem informacji :-)
Pasmod Turing

2
Pewnie. Sprawdź to gdzie indziej: mathworld.wolfram.com/GiniCoefficient.html Co sprawia, że ​​myślisz, że współczynnik Giniego = zanieczyszczenie Gini?
Sean Owen,


1
Myślę, że mówimy o drzewach decyzyjnych. Jesteśmy więc w dziedzinie uczenia maszynowego! Przeczytaj uważniej pytanie
Pasmod Turing
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.