Różnica między klasyfikacją a klastrowaniem w eksploracji danych? [Zamknięte]


195

Czy ktoś może wyjaśnić, jaka jest różnica między klasyfikacją a klastrowaniem w eksploracji danych?

Jeśli możesz, podaj przykłady obu, aby zrozumieć główną ideę.

Odpowiedzi:


242

Ogólnie rzecz biorąc, w klasyfikacji masz zestaw predefiniowanych klas i chcesz wiedzieć, do której klasy należy nowy obiekt.

Grupowanie próbuje grupy zbiór obiektów i dowiedzieć, czy istnieje jakiś związek między obiektami.

W kontekście uczenia maszynowego klasyfikacja jest nadzorowanym uczeniem się, a tworzenie klastrów - uczeniem się bez nadzoru .

Zobacz także klasyfikację i grupowanie na Wikipedii.


3
Dzięki za odpowiedź. Tak jak rozumiem. W klasyfikacji mam przykłady i grupuję te przykłady w jedną lub drugą klasę. Ale w grupowaniu mam przykłady, ale nie mam klas, w których można grupować przykłady. Więc w grupowaniu opartym na przykładach muszę znaleźć klasery? Czy mam rację, czy jest coś ważnego do wzięcia pod uwagę? I czy możesz podać przykład? Z pozdrowieniami, Kristaps
Kristaps

4
@Kristaps: Myślę, że do tej pory masz rację. Ale niekoniecznie znajdziesz klasy z klastrowaniem. Chodzi o to, że chcesz sprawdzić, czy jakiś zestaw elementów tworzy jakiś związek (będąc bliżej siebie w jakimś modelu). Zwykle nie znajdujesz klas (jeśli uważasz, że używasz klastrowania, aby znaleźć klasy do klasyfikacji). Tak nie jest. Zamiast tego na początku masz zestaw treningowy, który składa się z oznaczonych przedmiotów (więc wiesz, do której klasy należą). Następnie trenujesz algorytm klasyfikacji, aby przypisać przedmioty do odpowiednich klas i weryfikujesz
Felix Kling

4
poprawność (co możesz zrobić, ponieważ dane są oznaczone). Codziennym przykładem klasyfikacji byłoby filtrowanie spamu. Filtr spamu musi zdecydować, czy poczta jest spamem, czy nie. Możesz także powiedzieć filtrowi, jeśli wiadomość została błędnie sklasyfikowana. W przypadku klastrowania tak naprawdę nie znam żadnego przykładu. Ale możesz np. Wziąć 1000 wiadomości z Twittera, spróbować grupować, a następnie zbadać, jaki (i jeśli) związek ujawniają klastry.
Felix Kling

Myślę, że zarówno klasyfikacja, jak i klastrowanie są metodą klasyfikacyjną , prawda?
WoooHaaaa

@MROROY Jeśli przez Klasyfikuj masz na myśli: „zorganizuj (grupę osób lub rzeczy) w klasach lub kategoriach według wspólnych cech lub cech”. , w takim razie tak.
bitek


57

Jeśli zadałeś to pytanie jakiejkolwiek osobie zajmującej się eksploracją danych lub uczeniem maszynowym, użyje terminu nauka nadzorowana i nauka bez nadzoru, aby wyjaśnić różnicę między grupowaniem a klasyfikacją. Pozwól, że najpierw wyjaśnię ci słowo kluczowe nadzorowane i nienadzorowane.

Nadzorowana nauka: załóżmy, że masz koszyk wypełniony świeżymi owocami, a Twoim zadaniem jest ułożenie owoców tego samego rodzaju w jednym miejscu. załóżmy, że owocami są jabłko, banan, wiśnia i winogrono. dzięki temu wiesz już z poprzedniej pracy, że kształt każdego owocu umożliwia łatwe ustawienie tego samego rodzaju owoców w jednym miejscu. tutaj twoja poprzednia praca nazywana jest przeszkolonymi danymi w eksploracji danych. więc już uczysz się rzeczy na podstawie wyszkolonych danych. To dlatego, że masz zmienną odpowiedzi, która mówi, że jeśli niektóre owoce mają takie cechy, to jest to winogrono, dla każdego owocu.

Ten typ danych otrzymasz od wyszkolonych danych. Ten rodzaj uczenia się nazywa się uczeniem nadzorowanym. Problem rozwiązywania tego typu jest objęty klasyfikacją. Dzięki temu już się uczysz, dzięki czemu możesz wykonywać swoją pracę pewnie.

bez nadzoru: załóżmy, że masz kosz i jest on wypełniony świeżymi owocami, a Twoim zadaniem jest ułożenie owoców tego samego rodzaju w jednym miejscu.

Tym razem nie wiesz nic o tych owocach, po raz pierwszy widzisz te owoce, więc jak zorganizujesz ten sam rodzaj owoców.

Najpierw weźmiesz owoc i wybierzesz fizyczny charakter tego konkretnego owocu. Załóżmy, że zabrałeś kolor.

Następnie ułożysz je na podstawie koloru, a następnie grupy będą czymś takim. GRUPA RED COLOR: jabłka i owoce wiśni. GRUPA ZIELONYCH KOLORÓW: banany i winogrona. więc teraz weźmiesz inną postać fizyczną jako rozmiar, więc teraz grupy będą czymś takim. CZERWONY KOLOR I DUŻY ROZMIAR: jabłko. CZERWONY KOLOR I MAŁY ROZMIAR: owoce wiśni. ZIELONY KOLOR I DUŻY ROZMIAR: banany. ZIELONY KOLOR I MAŁY ROZMIAR : winogrona. praca zakończona szczęśliwym zakończeniem.

tutaj niczego się nie nauczyłeś, co oznacza brak danych pociągu i brak zmiennej odpowiedzi. Ten rodzaj uczenia się jest znany jako nauka bez nadzoru. klastrowanie podlega uczeniu się bez nadzoru.


18

+ Klasyfikacja: otrzymujesz nowe dane, musisz ustawić dla nich nową etykietę.

Na przykład firma chce sklasyfikować swoich potencjalnych klientów. Kiedy pojawia się nowy klient, musi ustalić, czy to klient zamierza kupić swoje produkty, czy nie.

+ Klastrowanie: dostajesz zestaw transakcji historycznych, które rejestrowały, kto co kupił.

Korzystając z technik klastrowania, możesz określić segmentację swoich klientów.


3
Twierdziłbym, że „kiedy pojawia się nowy klient, musi ustalić, czy to klient zamierza kupić swoje produkty, czy nie”. jest lepszym kandydatem do regresji logistycznej. Przykładem klasyfikacji może być przewidywanie, czy klient zamierza kupić model „premium”, „standardowy” czy „ekonomiczny”. Przykład linii lotniczej: autokar, autokar z wczesnym wejściem na pokład, autokar z dodatkową przestrzenią na nogi.
GDB

16

Jestem pewien, że wielu z was słyszało o uczeniu maszynowym. Tuzin z was może nawet wiedzieć, co to jest. Kilku z was mogło również pracować z algorytmami uczenia maszynowego. Widzisz dokąd to zmierza? Niewiele osób zna technologię, która będzie absolutnie niezbędna za 5 lat. Siri uczy się maszynowo. Alexa z Amazon jest uczeniem maszynowym. Systemy rekomendacji reklam i zakupów to uczenie maszynowe. Spróbujmy zrozumieć uczenie maszynowe za pomocą prostej analogii 2-letniego chłopca. Dla zabawy nazwijmy go Kylo Ren

Źródło: blog.printkeg.com

Załóżmy, że Kylo Ren widział słonia. Co powie mu mózg? (Pamiętaj, że ma minimalną zdolność myślenia, nawet jeśli jest następcą Vadera). Jego mózg powie mu, że widział duże poruszające się stworzenie, które było szare. Następnie widzi kota, a jego mózg mówi mu, że jest to małe poruszające się stworzenie o złotym kolorze. Wreszcie widzi następny miecz świetlny, a jego mózg mówi mu, że jest to obiekt nieożywiony, którym może się bawić!

Jego mózg w tym momencie wie, że szabla różni się od słonia i kota, ponieważ szabla jest czymś do zabawy i nie porusza się sama. Jego mózg może to zrozumieć, nawet jeśli Kylo nie wie, co oznacza ruchliwość. To proste zjawisko nazywa się klastrowaniem.

Źródło: jeffcarpenterblog.tumblr.com

Uczenie maszynowe to nic innego jak matematyczna wersja tego procesu. Wiele osób badających statystyki zdało sobie sprawę, że niektóre równania mogą działać tak samo, jak mózg. Mózg może skupiać podobne obiekty, mózg może uczyć się na błędach, a mózg może nauczyć się rozpoznawać różne rzeczy.

Wszystko to można przedstawić za pomocą statystyk, a komputerowa symulacja tego procesu nazywa się uczeniem maszynowym. Dlaczego potrzebujemy symulacji komputerowej? ponieważ komputery potrafią wykonywać ciężką matematykę szybciej niż mózg ludzki. Chciałbym przejść do matematyczno-statystycznej części uczenia maszynowego, ale nie chcesz w to wchodzić bez uprzedniego wyjaśnienia niektórych pojęć.

Wróćmy do Kylo Ren. Powiedzmy, że Kylo bierze szablę i zaczyna się nią bawić. Przypadkowo uderza szturmowca i szturmowiec zostaje ranny. Nie rozumie, co się dzieje i gra dalej. Następnie uderza kota i zostaje ranny. Tym razem Kylo jest pewien, że zrobił coś złego i stara się zachować ostrożność. Ale biorąc pod uwagę jego złe umiejętności szabli, uderza słonia i jest absolutnie pewien, że ma kłopoty. Następnie staje się bardzo ostrożny i celowo uderza swojego tatę, jak widzieliśmy w Przebudzeniu Mocy !!

Źródło: joyreactor.com

Cały proces uczenia się na błędach można naśladować za pomocą równań, w których uczucie popełnienia błędu reprezentuje błąd lub koszt. Ten proces określania, czego nie należy robić z szablą, nazywa się klasyfikacją. Klastrowanie i klasyfikacja to absolutne podstawy uczenia maszynowego. Spójrzmy na różnicę między nimi.

Kylo rozróżniał zwierzęta i szablę świetlną, ponieważ jego mózg uznał, że szablony świetlne nie mogą poruszać się same, a zatem są różne. Decyzja została podjęta wyłącznie na podstawie obecnych obiektów (danych) i nie udzielono zewnętrznej pomocy ani porady. W przeciwieństwie do tego, Kylo rozróżnił znaczenie uważności na szablę świetlną, obserwując najpierw, co może zrobić uderzenie w obiekt. Decyzja nie była całkowicie oparta na szabli, ale na tym, co można zrobić z różnymi przedmiotami. Krótko mówiąc, była tu pomoc.

Źródło: pintrest

Ze względu na tę różnicę w uczeniu klastrowanie nazywa się metodą uczenia się bez nadzoru, a klasyfikacja - metodą uczenia się nadzorowanego. Różnią się one bardzo w świecie uczenia maszynowego i często są podyktowane rodzajem obecnych danych. Uzyskanie oznaczonych danych (lub rzeczy, które pomagają nam się uczyć, takich jak szturmowiec, słoń i kot w przypadku Kylo) często nie jest łatwe i staje się bardzo skomplikowane, gdy dane do zróżnicowania są duże. Z drugiej strony nauka bez etykiet może mieć swoje wady, takie jak brak znajomości tytułów etykiet. Gdyby Kylo nauczył się uważać na szablę bez żadnych przykładów i pomocy, nie wiedziałby, co by to zrobiło. Po prostu wiedziałby, że nie należy tego robić. To trochę kiepska analogia, ale masz rację!

Właśnie zaczynamy pracę z uczeniem maszynowym. Sama klasyfikacja może być klasyfikacją ciągłych liczb lub klasyfikacją etykiet. Na przykład, jeśli Kylo musiałby sklasyfikować wysokość każdego szturmowca, byłoby wiele odpowiedzi, ponieważ wysokości mogą wynosić 5,0, 5,01, 5,011 itd. Ale prosta klasyfikacja, taka jak rodzaje szabl świetlnych (czerwony, niebieski. Zielony) miałby bardzo ograniczone odpowiedzi. W rzeczywistości można je przedstawić za pomocą prostych liczb. Czerwony może wynosić 0, niebieski może wynosić 1, a zielony może wynosić 2.

Jeśli znasz podstawową matematykę, wiesz, że 0,1,2 i 5.1,5.01,5.011 są różne i nazywane są odpowiednio liczbami dyskretnymi i ciągłymi. Klasyfikacja liczb dyskretnych nazywa się regresją logistyczną, a klasyfikacja liczb ciągłych nazywa się regresją. Regresja logistyczna jest również znana jako klasyfikacja kategoryczna, więc nie należy się mylić, czytając ten termin w innym miejscu

To było bardzo podstawowe wprowadzenie do uczenia maszynowego. W następnym artykule zajmę się stroną statystyczną. Daj mi znać, jeśli będę potrzebować poprawek :)

Druga część opublikowana tutaj . wprowadź opis zdjęcia tutaj


2
Hej Amit, dlaczego nie dodasz swojego posta na blogu do odpowiedzi zamiast tylko linku. Odrzucane są tylko odpowiedzi na link, ponieważ strony się psują, a wraz z nim odpowiedź.
Matematyki

3
Dzięki. Zrobię to :)
Amit Juneja

2
„Klasyfikacja liczb dyskretnych nazywa się regresją logistyczną” jest ogromnym uproszczeniem; LR jest tylko jedną z wielu możliwych technik, które można zastosować do klasyfikacji (inne oparte na drzewach (RF, GBT / XGB), oparte na NN itp.) „Klasyfikacja liczb ciągłych nazywa się regresją” jest po prostu sprzeczna; masz na myśli „przewidywaniu numerów ciągłych” .
smci

7

Jestem nowicjuszem w Data Mining, ale jak mówi mój podręcznik, KLASYFIKACJA ma być nadzorowanym uczeniem się, a klastrowaniem - uczeniem się bez nadzoru. Różnicę między nauką nadzorowaną a nauką nadzorowaną można znaleźć tutaj .


6

Klasyfikacja

Jest przypisaniem predefiniowanych klas do nowych obserwacji , opartych na uczeniu się na przykładach.

Jest to jedno z kluczowych zadań w uczeniu maszynowym.

Klastrowanie (lub Analiza skupień)

Choć popularnie odrzucany jako „klasyfikacja bez nadzoru”, jest zupełnie inny.

W przeciwieństwie do tego, czego nauczy Cię wielu uczących się maszyn, nie chodzi o przypisywanie „klas” obiektom, ale bez ich wcześniejszego zdefiniowania. Jest to bardzo ograniczony pogląd osób, które dokonały zbyt dużej klasyfikacji; typowy przykład, jeśli masz młotek (klasyfikator), wszystko wygląda jak gwóźdź (problem z klasyfikacją) . Ale także z tego powodu osoby klasyfikujące nie lubią grupowania.

Zamiast tego rozważ to jako odkrycie struktury . Zadaniem klastrowania jest znalezienie struktury (np. Grup) w danych, których wcześniej nie znałeś . Grupowanie zakończyło się sukcesem, jeśli nauczyłeś się czegoś nowego. Nie udało się, jeśli masz tylko strukturę, którą już znasz.

Analiza skupień jest kluczowym zadaniem eksploracji danych (i brzydkiego kaczątka w uczeniu maszynowym, więc nie słuchaj osób uczących się maszyn odrzucających klastrowanie).

„Uczenie się bez nadzoru” jest nieco Oxymoronem

Zostało to powtórzone w literaturze, ale nauka bez nadzoru jest bardzo ważna . Nie istnieje, ale jest oksymoronem podobnym do „wywiadu wojskowego”.

Albo algorytm uczy się na przykładach (wtedy jest to „uczenie nadzorowane”), albo się nie uczy. Jeśli wszystkie metody klastrowania są „uczące się”, wówczas obliczanie minimalnego, maksymalnego i średniego zestawu danych jest również „uczeniem się bez nadzoru”. Wtedy każde obliczenie „nauczyło się” jego wyniku. Zatem termin „nauka bez nadzoru” jest całkowicie bez znaczenia , oznacza wszystko i nic.

Niektóre algorytmy „uczenia bez nadzoru” należą jednak do kategorii optymalizacji . Na przykład k-średnie jest optymalizacją metodą najmniejszych kwadratów. Takie metody są w statystykach, więc nie sądzę, że musimy je nazywać „uczeniem się bez nadzoru”, ale zamiast tego powinniśmy nadal nazywać je „problemami z optymalizacją”. Jest bardziej precyzyjny i bardziej znaczący. Istnieje wiele algorytmów klastrowania, które nie wymagają optymalizacji i które nie pasują do paradygmatów uczenia maszynowego. Przestańcie więc wciskać je tam pod parasolem „nauki bez nadzoru”.

Jest trochę „uczenia się” związanego z klastrowaniem, ale to nie program się uczy. To użytkownik powinien nauczyć się nowych rzeczy o swoim zestawie danych.


Ta odpowiedź uświadomiła mi, że jestem klasyfikatorem. To naprawdę mi pomogło.
Kta

Każdy algorytm grupowania zakłada ogólny model meta. Btw, to samo dotyczy nauki nadzorowanej, np. Sieci neuronowych (NN). W obu przypadkach (nadzorowanym i nienadzorowanym) optymalizujemy ogólne parametry meta-modelu, aby dopasować dane zgodnie z (czasem ukrytą) funkcją kosztów. (Ta część nazywa się „uczeniem się”.) Dotyczy to zarówno klastrowania, jak i klasyfikacji. W obu przypadkach uczymy się określonego modelu (na podstawie założonego ogólnego meta modelu) poprzez zoptymalizowany zgodnie z prezentowanymi danymi. Korzystając ze zoptymalizowanego modelu klastrowania, jesteśmy w stanie grupować dane w grupy.
Make42

TL; DR: Masz rację, że grupowanie nie jest „klasyfikacją bez nadzoru”, ale nauczanie z nadzorem nie jest oksymoronem - uczenie się dzieje !
Make42

Gdzie na przykład jest „uczenie się” w DBSCAN?
Ma ZAKOŃCZENIE - Anony-Mousse

4

Dzięki klastrowaniu możesz grupować dane z pożądanymi właściwościami, takimi jak liczba, kształt i inne właściwości wyodrębnionych klastrów. Podczas gdy w klasyfikacji liczba i kształt grup są stałe. Większość algorytmów klastrowania podaje liczbę klastrów jako parametr. Istnieją jednak pewne podejścia do znalezienia odpowiedniej liczby klastrów.


4

Po pierwsze, podobnie jak wiele odpowiedzi tutaj: klasyfikacja jest nadzorowana, a klastrowanie nie jest nadzorowane. To znaczy:

  1. Klasyfikacja wymaga danych opatrzonych etykietą, aby klasyfikatorzy mogli zostać przeszkoleni w zakresie tych danych, a następnie rozpocząć klasyfikowanie nowych niewidzialnych danych na podstawie tego, co wie. Uczenie się bez nadzoru, takie jak klastrowanie, nie korzysta z danych oznaczonych etykietą, a tak naprawdę odkrywa wewnętrzne struktury danych, takie jak grupy.

  2. Inną różnicą między obiema technikami (związanymi z poprzednią) jest fakt, że klasyfikacja jest rodzajem problemu regresji dyskretnej, w którym wynikiem jest kategorycznie zmienna zależna. Natomiast produkcja klastrowa daje zbiór podzbiorów zwanych grupami. Sposób oceny tych dwóch modeli jest również inny z tego samego powodu: w klasyfikacji często trzeba sprawdzać dokładność i przypominać, takie rzeczy jak przeregulowanie i niedopasowanie itp. Te rzeczy pokażą ci, jak dobry jest model. Ale w klastrowaniu zwykle potrzebujesz wizji i eksperta, aby zinterpretować to, co znajdziesz, ponieważ nie wiesz, jaki rodzaj struktury posiadasz (rodzaj grupy lub klastra). Dlatego klastrowanie należy do eksploracyjnej analizy danych.

  3. Na koniec powiedziałbym, że aplikacje są główną różnicą między nimi. Klasyfikacja, jak mówi to słowo, służy do dyskryminacji przypadków należących do klasy lub innej, na przykład mężczyzny lub kobiety, kota lub psa itp. Grupowanie jest często stosowane w diagnozowaniu chorób medycznych, wykrywaniu wzorców, itp.


3

Klasyfikacja : Prognozuj wyniki w postaci dyskretnych danych wyjściowych => mapuj zmienne wejściowe na dyskretne kategorie

wprowadź opis zdjęcia tutaj

Popularne przypadki użycia:

  1. Klasyfikacja e-mail: spam lub non-spam

  2. Pożyczka z sankcją dla klienta: Tak, jeśli jest on w stanie zapłacić EMI za sankcjonowaną kwotę pożyczki. Nie, jeśli nie może

  3. Identyfikacja komórek nowotworowych: czy jest krytyczna czy niekrytyczna?

  4. Analiza sentymentalna tweetów: Czy tweet jest pozytywny, negatywny czy neutralny

  5. Klasyfikacja wiadomości: Klasyfikuj wiadomości do jednej z predefiniowanych klas - polityka, sport, zdrowie itp

Grupowanie : jest zadaniem grupowania zestawu obiektów w taki sposób, aby obiekty w tej samej grupie (zwane klastrami) były bardziej podobne (w pewnym sensie) do siebie niż do obiektów w innych grupach (klastrach)

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

Popularne przypadki użycia:

  1. Marketing: Odkryj segmenty klientów w celach marketingowych

  2. Biologia: Klasyfikacja między różnymi gatunkami roślin i zwierząt

  3. Biblioteki: grupowanie różnych książek na podstawie tematów i informacji

  4. Ubezpieczenia: Poznaj klientów, ich polisy i identyfikuj oszustwa

  5. Planowanie miasta: Twórz grupy domów i badaj ich wartości w oparciu o ich położenie geograficzne i inne czynniki.

  6. Badania trzęsień ziemi: Zidentyfikuj niebezpieczne strefy

  7. System rekomendacji :

Bibliografia:

geeksforgeeks

dataaspirant

3leafnodes


2

Klasyfikacja - Przewiduje jakościowe etykiety klasowe - Klasyfikuje dane (konstruuje model) na podstawie zestawu szkoleniowego i wartości (etykiet klasowych) w atrybucie etykiety klasowej - Wykorzystuje model do klasyfikacji nowych danych

Klaster: zbiór obiektów danych - podobny do siebie w tym samym klastrze - różni się od obiektów w innych klastrach


2

Klastrowanie ma na celu znalezienie grup w danych. „Klaster” jest intuicyjną koncepcją i nie ma matematycznie rygorystycznej definicji. Członkowie jednego klastra powinni być do siebie podobni i niepodobni do członków innych klastrów. Algorytm grupowania działa na nieznakowanym zbiorze danych Z i tworzy na nim partycję.

W przypadku klas i etykiet klas klasa zawiera podobne obiekty, natomiast obiekty z różnych klas są odmienne. Niektóre klasy mają wyraźne znaczenie, aw najprostszym przypadku wzajemnie się wykluczają. Na przykład podczas weryfikacji podpisu podpis jest autentyczny lub podrobiony. Prawdziwa klasa jest jedną z dwóch, bez względu na to, że nie jesteśmy w stanie poprawnie zgadnąć z obserwacji konkretnego podpisu.


2

Grupowanie jest metodą grupowania obiektów w taki sposób, że obiekty o podobnych cechach łączą się, a obiekty o różnych cechach się rozchodzą. Jest to powszechna technika analizy danych statystycznych stosowana w uczeniu maszynowym i eksploracji danych.

Klasyfikacja to proces kategoryzacji, w którym obiekty są rozpoznawane, różnicowane i rozumiane na podstawie zbioru danych szkoleniowych. Klasyfikacja jest nadzorowaną techniką uczenia się, w której dostępny jest zestaw szkoleniowy i poprawnie zdefiniowane obserwacje.


2

Z książki Mahout in Action i myślę, że bardzo dobrze wyjaśnia różnicę:

Algorytmy klasyfikacji są powiązane, ale wciąż zupełnie różne od algorytmów klastrowania, takich jak algorytm k-średnich.

Algorytmy klasyfikacji są formą uczenia się nadzorowanego, w przeciwieństwie do uczenia się bez nadzoru, które ma miejsce w przypadku algorytmów klastrowania.

Algorytm uczenia nadzorowanego to taki, który podaje przykłady zawierające pożądaną wartość zmiennej docelowej. Algorytmy bez nadzoru nie otrzymują pożądanej odpowiedzi, ale same muszą znaleźć coś wiarygodnego.


2

Jedna wkładka do klasyfikacji:

Klasyfikacja danych do predefiniowanych kategorii

Jedna wkładka do klastrowania:

Grupowanie danych w zestaw kategorii

Kluczowa różnica:

Klasyfikacja polega na pobieraniu danych i umieszczaniu ich we wstępnie zdefiniowanych kategoriach, aw grupowaniu zestaw kategorii, do których chcesz pogrupować dane, nie jest wcześniej znany.

Wniosek:

  • Klasyfikacja przypisuje kategorię do 1 nowego elementu, na podstawie już oznaczonych przedmiotów, podczas gdy Clustering bierze kilka nieznakowanych przedmiotów i dzieli je na kategorie
  • W Klasyfikacji kategorie \ grupy, które mają zostać podzielone, są znane wcześniej, natomiast w Klastrowaniu kategorie \ grupy, które mają zostać podzielone, są wcześniej nieznane.
  • W klasyfikacji są 2 fazy - faza szkolenia, a następnie faza testowa, natomiast w klastrowaniu jest tylko 1 faza - podzielenie danych treningowych w klastrze
  • Klasyfikacja jest uczeniem nadzorowanym, podczas gdy klastrowanie jest uczeniem nienadzorowanym

Napisałem długi post na ten sam temat, który można znaleźć tutaj:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/


1

Jeśli próbujesz złożyć dużą liczbę arkuszy na półce (na podstawie daty lub innej specyfikacji pliku), KLASYFIKUJESZ.

Jeśli chcesz utworzyć klastry z zestawu arkuszy, oznaczałoby to, że istnieje coś podobnego między arkuszami.


1

W eksploracji danych istnieją dwie definicje: „nadzorowany” i „nienadzorowany”. Gdy ktoś mówi komputerowi, algorytmowi, kodowi ..., że to coś jest jak jabłko, a to coś jest jak pomarańcza, jest to nadzorowane uczenie się i korzystanie z nadzorowanego uczenia się (jak znaczniki dla każdej próbki w zestawie danych) do klasyfikowania dane, otrzymasz klasyfikację. Ale z drugiej strony, jeśli pozwolisz komputerowi dowiedzieć się, co jest, i rozróżnisz funkcje danego zestawu danych, w rzeczywistości ucząc się bez nadzoru, w celu sklasyfikowania zestawu danych byłoby to nazywane klastrowaniem. W tym przypadku dane podawane do algorytmu nie mają znaczników i algorytm powinien znaleźć różne klasy.


1

Uczenie maszynowe lub sztuczna inteligencja jest w dużej mierze postrzegana przez zadanie, które wykonuje / wykonuje.

Moim zdaniem, myśląc o Grupowaniu i Klasyfikacji w pojęciu zadań, które osiągają, naprawdę pomaga zrozumieć różnicę między nimi.

Grupowanie ma na celu grupowanie rzeczy, a klasyfikacja ma na celu oznaczanie rzeczy.

Załóżmy, że jesteś w sali imprezowej, gdzie wszyscy mężczyźni są w garniturach, a kobiety w sukniach.

Teraz zadajesz swojemu przyjacielowi kilka pytań:

P1: Hej, możesz mi pomóc grupować ludzi?

Możliwe odpowiedzi, które może dać twój przyjaciel to:

1: Potrafi grupować ludzi na podstawie płci, mężczyzny lub kobiety

2: Potrafi grupować ludzi na podstawie ich ubrań, 1 w garniturach lub w innych fartuchach

3: Potrafi grupować ludzi na podstawie koloru ich włosów

4: Potrafi grupować ludzi na podstawie ich grupy wiekowej itp. Itd.

Istnieje wiele sposobów, w jaki przyjaciel może wykonać to zadanie.

Oczywiście możesz wpłynąć na jego proces decyzyjny, dostarczając dodatkowe dane, takie jak:

Czy możesz mi pomóc pogrupować te osoby według płci (lub grupy wiekowej, koloru włosów lub stroju itp.)

Q2:

Przed drugim kwartałem musisz wykonać pewne czynności wstępne.

Musisz uczyć lub informować swojego przyjaciela, aby mógł on podjąć świadomą decyzję. Powiedzmy, że powiedziałeś swojemu przyjacielowi, że:

  • Ludzie z długimi włosami to kobiety.

  • Ludzie z krótkimi włosami to mężczyźni.

Q2 Teraz wskazujesz na osobę z długimi włosami i zapytasz przyjaciela - czy to mężczyzna czy kobieta?

Jedyną odpowiedzią, jakiej możesz się spodziewać, jest: Kobieta.

Oczywiście na imprezie mogą być mężczyźni z długimi włosami i kobiety z krótkimi włosami. Ale odpowiedź jest prawidłowa w oparciu o naukę, którą przekazałeś znajomemu. Możesz dodatkowo usprawnić ten proces, ucząc swojego przyjaciela więcej o tym, jak odróżnić te dwa elementy.

W powyższym przykładzie

Pytanie 1 reprezentuje zadanie, które osiąga klastrowanie.

W klastrowaniu podajesz dane (osoby) do algorytmu (twojego przyjaciela) i poprosisz o zgrupowanie danych.

Teraz algorytm decyduje, jaki jest najlepszy sposób grupowania? (Płeć, kolor lub grupa wiekowa).

Ponownie możesz zdecydowanie wpłynąć na decyzję algorytmu, zapewniając dodatkowe dane wejściowe.

Pytanie 2 reprezentuje zadanie, które osiąga Klasyfikacja.

Tam podajesz swojemu algorytmowi (swojemu przyjacielowi) pewne dane (Ludzie), nazywane danymi szkoleniowymi, i każesz mu dowiedzieć się, które dane odpowiadają której etykiecie (Mężczyzna lub Kobieta). Następnie skieruj swój algorytm na określone dane, zwane danymi testowymi, i poproś o określenie, czy jest to mężczyzna, czy kobieta. Im lepsze jest twoje nauczanie, tym lepsze jest jego przewidywanie.

A Wstępne prace w Q2 lub Klasyfikacji to nic innego jak szkolenie twojego modelu, aby mógł nauczyć się różnicować. W przypadku klastrowania lub pierwszego kwartału ta praca wstępna jest częścią grupowania.

Mam nadzieję, że to komuś pomoże.

Dzięki


1

wprowadź opis zdjęcia tutaj

Klasyfikacja - zestaw danych może mieć różne grupy / klasy. czerwony, zielony i czarny. Klasyfikacja będzie próbowała znaleźć reguły, które podzielą je na różne klasy.

Custering - jeśli zbiór danych nie ma żadnej klasy i chcesz je umieścić w jakiejś klasie / grupie, robisz grupowanie. Fioletowe kółka powyżej.

Jeśli reguły klasyfikacji nie są dobre, będziesz mieć błędną klasyfikację podczas testowania lub twoje reguły nie będą wystarczająco poprawne.
jeśli tworzenie klastrów nie jest dobre, wystąpi wiele wartości odstających, tj. punkty danych nie mogą spaść w żadnym klastrze.


1

Kluczowe różnice między klasyfikacją a klastrowaniem to: Klasyfikacja to proces klasyfikacji danych za pomocą etykiet klas. Z drugiej strony klastrowanie jest podobne do klasyfikacji, ale nie ma predefiniowanych etykiet klas. Klasyfikacja jest ukierunkowana na naukę nadzorowaną. W przeciwieństwie do tego, klastrowanie jest również znane jako uczenie się bez nadzoru. Próbka szkoleniowa jest podawana w metodzie klasyfikacji, natomiast w przypadku grupowania dane szkoleniowe nie są dostarczane.

Mam nadzieję, że to pomoże!


-1

Uważam, że klasyfikacja to klasyfikacja rekordów w zbiorze danych na predefiniowane klasy, a nawet definiowanie klas w ruchu. Uważam to za warunek wstępny dla każdej cennej eksploracji danych, lubię myśleć o tym podczas nauki bez nadzoru, tj. Nie wiadomo, czego on szuka, podczas gdy eksploracja danych i klasyfikacja stanowi dobry punkt wyjścia

Grupowanie na drugim końcu podlega nadzorowanemu uczeniu się, tzn. Wiadomo, jakich parametrów szukać, korelacji między nimi oraz poziomów krytycznych. Uważam, że wymaga to pewnego zrozumienia statystyki i matematyki


3
W rzeczywistości jest na odwrót. Klasyfikacja jest zwykle nadzorowana, a grupowanie zwykle nie jest nadzorowane.
AlexK,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.