Problem dotyczy budowy drzew decyzyjnych. Według Wikipedii „ współczynnika Giniego ” nie należy mylić z „ zanieczyszczeniem Giniego ”. Jednak obie miary mogą być użyte podczas budowania drzewa decyzyjnego - mogą one wspierać nasze wybory przy dzieleniu zestawu elementów.
1) „Zanieczyszczenie Giniego” - jest to standardowa miara podziału drzewa decyzyjnego (patrz link powyżej);
2) „Współczynnik Giniego” - każdy podział można ocenić na podstawie kryterium AUC. Dla każdego scenariusza podziału możemy zbudować krzywą ROC i obliczyć miarę AUC. Według Wikipedii AUC = (GiniCoeff + 1) / 2;
Pytanie brzmi: czy oba te środki są równoważne? Z jednej strony jestem poinformowany, że współczynnika Giniego nie należy mylić z zanieczyszczeniem Giniego. Z drugiej strony, obie te miary mogą być wykorzystane do zrobienia tego samego - oceny jakości podziału drzewa decyzyjnego.