Wzrost miary w eksploracji danych


36

Przeszukałem wiele stron internetowych, aby dowiedzieć się, co dokładnie zrobi winda? Wszystkie znalezione przeze mnie wyniki dotyczyły używania go w aplikacjach innych niż samo.

Wiem o funkcji wsparcia i zaufania. Z Wikipedii, w eksploracji danych, lift jest miarą wydajności modelu w przewidywaniu lub klasyfikowaniu przypadków, mierząc w stosunku do modelu losowego wyboru. Ale jak? Zaufanie * wsparcie jest wartością windą Przeszukałem też inne formuły, ale nie rozumiem, dlaczego wykresy wind są ważne w dokładności przewidywanych wartości Mam na myśli, że chcę wiedzieć, jakie zasady i powody stoją za windą?


2
Potrzebujesz kontekstu tutaj. W marketingu byłby to wykres wskazujący procentowy wzrost sprzedaży oczekiwany z różnych działań marketingowych, ale prawdopodobnie masz na myśli inny kontekst.
zbicyclist

Odpowiedzi:


59

Podam przykład, jak przydatne jest „podnoszenie” ...

Wyobraź sobie, że prowadzisz kampanię mailową, w której wysyłasz klientom oferty w nadziei, że odpowiedzą. Dane historyczne pokazują, że kiedy wysyłasz bazę klientów całkowicie losowo, około 8% z nich odpowiada na wysyłkę (tzn. Przychodzą i robią zakupy z ofertą). Jeśli więc wysyłasz 1000 klientów, możesz spodziewać się 80 osób odpowiadających.

Teraz decydujesz się dopasować model regresji logistycznej do swoich danych historycznych, aby znaleźć wzorce, które przewidują, czy klient może odpowiedzieć na przesyłkę. Korzystając z modelu regresji logistycznej, każdemu klientowi przypisuje się prawdopodobieństwo odpowiedzi i możesz ocenić dokładność, ponieważ wiesz, czy faktycznie odpowiedział. Po przypisaniu prawdopodobieństwa każdemu klientowi, klasyfikujesz go od klienta o najwyższej do najniższej punktacji. Następnie możesz wygenerować kilka grafik typu „lift”:

wprowadź opis zdjęcia tutaj

Na razie zignoruj ​​górną tabelę. Dolny wykres mówi, że po posortowaniu klientów na podstawie ich prawdopodobieństwa odpowiedzi (od wysokiego do niskiego), a następnie podzieleniu ich na dziesięć równych przedziałów, wskaźnik odpowiedzi w bin nr 1 (10% najlepszych klientów) wynosi 29 % vs 8% losowych klientów, dla wzrostu o 29/8 = 3,63. Zanim dotarliśmy do ocenianych klientów w czwartym pojemniku, udało nam się uchwycić tak wiele poprzednich trzech, że wskaźnik odpowiedzi jest niższy niż oczekiwany losowo wysyłanie wiadomości do osób.

Patrząc teraz na najwyższy wykres, mówi się, że jeśli użyjemy ocen prawdopodobieństwa u klientów, możemy uzyskać 60% wszystkich respondentów, którzy otrzymalibyśmy losowo, wysyłając tylko 30% najlepszych klientów. Oznacza to, że za pomocą tego modelu możemy uzyskać 60% oczekiwanego zysku za 30% kosztu przesyłki, wysyłając tylko 30% najlepszych klientów, którzy tak ocenili, i właśnie o tym tak naprawdę mówi wzrost .


Ładne wyjaśnienie bardzo dziękuję. Czy mógłbyś mi powiedzieć w tabeli Lift, dlaczego potrzebujemy losowej próbki? Zrozumiałem, że 8% pochodzi z losowości, ale dlaczego trzeba śledzić losowo? Widziałem inny wykres, który śledzi średnią wartości, i nie znam też przyczyny istnienia średniej
Nickool

rzecz, którą dostałem to to, że wzrost = 3,63 mówi, że do kolumny 4 mamy lepsze wskaźniki odpowiedzi niż 8%, a następnie po prostu zakładasz kolumnę 1 i biorąc pod uwagę 29% (w przybliżeniu 30%) właśnie wziąłeś pod uwagę kolumnę 1 , to jaki wzrost zrobił z 3,63?
Nickool,

1
O mój Boże! Zrozumiałem mój błąd, 30% nie odnosi się do 29%, 30% oznacza 3/10 3 pierwszych kolumn danych! Teraz całkowicie to zrozumiałem: DI jestem taki szczęśliwy !!!!! dziękuję>: D <
Nickool

1
1000mzajaljansolzall1000doustommirszanrewmimixpmidot8300)thminwmimixpmidottosolmit601000-solmit-80-doustommirsprzeciwkosS.pminre-

1
@ user1700890 Górny wykres jest często oznaczany jako skumulowany wykres wzmocnienia, podczas gdy dolny wykres nie jest taki sam jak skumulowany wykres wzrostu (gdzie wzrost nigdy nie może być mniejszy niż 1), ale dzieli dane na dziesięć oddzielnych przedziałów.
RobertF

3

Wykresy wzrostu przedstawiają stosunek odpowiedzi modelu do braku tego modelu. Zazwyczaj jest reprezentowany przez procent przypadków w X i liczbę razy lepszą odpowiedź w osi Y. Na przykład model z windą = 2 w punkcie 10% oznacza:

  • Bez żadnego modelu przyjmującego 10% populacji (bez kolejności, ponieważ nie ma modelu) odsetek y = 1 wynosiłby 10% całkowitej populacji przy y = 1.

  • Dzięki modelowi otrzymujemy 2-krotność tej proporcji, tj. Oczekujemy, że otrzymamy 20% całkowitej populacji przy y = 1. W etykiecie znaku X reprezentuje dane uporządkowane według prognozy. Pierwsze 10% to 10% najlepszych prognoz


3

Podnoszenie to nic innego jak stosunek pewności do oczekiwanej pewności. W obszarze reguł asocjacji - „Współczynnik wzrostu większy niż 1,0 oznacza, że ​​związek między poprzednikiem a konsekwencją jest bardziej znaczący niż można by oczekiwać, gdyby dwa zestawy były niezależne. Im wyższy współczynnik wzrostu, tym bardziej znaczące jest powiązanie. „ Na przykład-

jeśli baza danych supermarketów zawiera 100 000 transakcji w punkcie sprzedaży, z czego 2 000 zawiera zarówno pozycje A, jak i B, a 800 z nich obejmuje pozycję C, reguła powiązania „Jeśli kupione są A i B, wówczas C jest kupowane na tym samym trip ”ma obsługę 800 transakcji (alternatywnie 0,8% = 800/100 000) i pewność 40% (= 800/2000). Jednym ze sposobów myślenia o wsparciu jest to, że istnieje prawdopodobieństwo, że losowo wybrana transakcja z bazy danych będzie zawierać wszystkie pozycje w poprzedniku i w konsekwencji, natomiast pewność jest warunkowym prawdopodobieństwem, że losowo wybrana transakcja obejmie wszystkie pozycje w w konsekwencji, biorąc pod uwagę, że transakcja obejmuje wszystkie pozycje w poprzedniej części.

Korzystając z powyższego przykładu, oczekiwane zaufanie w tym przypadku oznacza „zaufanie, jeśli zakup A i B nie zwiększa prawdopodobieństwa zakupu C.” Jest to liczba transakcji, które zawierają wynik, podzielona przez całkowitą liczbę transakcji. Załóżmy, że łączna liczba transakcji dla C wynosi 5000. Tak więc oczekiwane zaufanie wynosi 5 000/1 000 000 = 5%. Na przykład w supermarkecie Lift = Zaufanie / Oczekiwane Zaufanie = 40% / 5% = 8. Stąd, Lift jest wartością, która daje nam informacje o wzroście prawdopodobieństwa wtedy (w konsekwencji) biorąc pod uwagę część (poprzednią). oto link do artykułu źródłowego


2

Podnoszenie jest tylko miarą do zmierzenia znaczenia reguły

jego miarą jest sprawdzenie, czy ta reguła jest przypadkowa na liście, czy też oczekujemy

Wzrost = pewność siebie / oczekiwana pewność siebie


0

Załóżmy, że korzystamy z przykładu sklepu spożywczego, który testuje ważność reguły stowarzyszenia, która ma poprzednik i konsekwencję (na przykład: „Jeśli klient kupi chleb, kupi również masło”).

Jeśli spojrzysz na wszystkie transakcje i zbadasz jedną losowo, prawdopodobieństwo, że transakcja zawiera konsekwencję, to „Oczekiwane zaufanie”. Jeśli spojrzysz na wszystkie transakcje zawierające poprzednik i wybierzesz z nich losową transakcję, prawdopodobieństwo, że transakcja będzie zawierała następstwo, to „Pewność”. „Podnoszenie” jest zasadniczo różnicą między tymi dwoma. Dzięki windie możemy zbadać związek między dwoma przedmiotami o wysokim poziomie ufności (jeśli zaufanie jest niskie, wówczas wzrost jest w zasadzie nieistotny).

Jeśli mają wysoką pewność siebie i niski wzrost, to nadal wiemy, że przedmioty są często kupowane razem, ale nie wiemy, czy konsekwencja dzieje się z powodu poprzednika, czy to tylko zbieg okoliczności (być może oba są kupowane razem, ponieważ oba produkty są bardzo popularne, ale nie mają ze sobą żadnego związku).

Jeśli jednak zarówno pewność, jak i wzrost są wysokie, możemy rozsądnie założyć, że konsekwencja dzieje się z powodu poprzednika. Im wyższy wzrost, tym mniejsze prawdopodobieństwo, że związek między dwoma przedmiotami jest tylko zbiegiem okoliczności. W kategoriach matematycznych:

Wzrost = pewność siebie / oczekiwana pewność siebie

W naszym przykładzie, jeśli pewność naszej reguły była wysoka, a wzrost był niski, oznaczałoby to, że wielu klientów kupuje chleb i masło, ale nie wiemy, czy wynika to z jakiegoś szczególnego związku między chlebem a masłem, czy chleb i masło są po prostu popularnymi artykułami indywidualnie, a fakt, że często pojawiają się razem w koszykach spożywczych, to tylko przypadek. Jeśli zaufanie do naszej reguły jest wysokie, a wzrost jest wysoki, oznacza to dość silną korelację między poprzednikiem a konsekwencją, co oznacza, że ​​możemy rozsądnie założyć, że klienci kupują masło, ponieważ kupują chleb. Im wyższy wzrost, tym większa pewność siebie w tym skojarzeniu.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.