Jaka jest dokładnie różnica między uczeniem nadzorowanym i bez nadzoru?


28

Próbuję zrozumieć metody grupowania.

Co myślę, że rozumiem:

  1. W uczeniu nadzorowanym dane kategorii / etykiet są przypisane przed obliczeniem. Tak więc etykiety, klasy lub kategorie są używane do „uczenia się” parametrów, które są naprawdę znaczące dla tych klastrów.

  2. W uczeniu bez nadzoru zbiory danych są przypisywane do segmentów, bez znanych klastrów.

Czy to oznacza, że ​​jeśli nawet nie wiem, które parametry są kluczowe dla segmentacji, powinienem preferować naukę nadzorowaną?


2
Zauważ, że grupowanie nie jest jedynym rodzajem uczenia się bez nadzoru.
George

1
Nadzorowane uczenie się jest preferowane, gdy dostępne są oznaczone dane treningowe. Możesz podzielić dane na partycje przy użyciu metod nadzorowanych lub nienadzorowanych. Główną różnicą jest to, że w nadzorowanym ustawieniu znasz PRAWIDŁOWĄ segmentację danych treningowych.
Nick

Odpowiedzi:


23

Różnica polega na tym, że w nadzorowanym uczeniu się znane są „kategorie”, „klasy” lub „etykiety”. W uczeniu się bez nadzoru nie są, a proces uczenia się próbuje znaleźć odpowiednie „kategorie”. W obu rodzajach uczenia się bierze się pod uwagę wszystkie parametry w celu ustalenia, które są najbardziej odpowiednie do przeprowadzenia klasyfikacji.

To, czy wybrałeś nadzór czy nie, powinno zależeć od tego, czy wiesz, jakie są „kategorie” twoich danych. Jeśli wiesz, skorzystaj z nauki nadzorowanej. Jeśli nie wiesz, użyj bez nadzoru.

Ponieważ masz dużą liczbę parametrów i nie wiesz, które z nich są istotne, możesz użyć czegoś w rodzaju analizy składowej podstawowej, aby pomóc określić odpowiednie.


13

Pamiętaj, że istnieją ponad 2 stopnie nadzoru. Na przykład zobacz strony 24–25 (6-7) w rozprawie doktorskiej Christiana Biemanna, Bezobsługowe i wolne od wiedzy przetwarzanie języka naturalnego w paradygmacie odkrywania struktury, 2007.

Teza wyróżnia 4 stopnie: nadzorowany, częściowo nadzorowany, słabo nadzorowany i nienadzorowany oraz wyjaśnia różnice w kontekście przetwarzania języka naturalnego. Oto odpowiednie definicje:

  • W systemach nadzorowanych dane przedstawione algorytmowi uczenia maszynowego są w pełni oznakowane. Oznacza to, że: wszystkie przykłady są opatrzone klasyfikacją, którą maszyna ma reprodukować. W tym celu z danych uczy się klasyfikatora, proces przypisywania etykiet do jeszcze niewidzialnych instancji nazywa się klasyfikacją.
  • W systemach częściowo nadzorowanych maszyna może dodatkowo brać pod uwagę dane nieznakowane. Ze względu na większą bazę danych, częściowo nadzorowane systemy często przewyższają swoje nadzorowane odpowiedniki na tych samych oznaczonych przykładach. Powodem tego ulepszenia jest to, że więcej nieznakowanych danych umożliwia systemowi dokładniejsze modelowanie wewnętrznej struktury danych.
  • Bootstrapping, zwany także samokształceniem, jest formą uczenia się, która ma na celu wykorzystanie jeszcze mniej przykładów treningów, dlatego czasami nazywana jest słabo nadzorowanym . Bootstrapping rozpoczyna się od kilku przykładów szkoleniowych, trenuje klasyfikatora i wykorzystuje przemyślane pozytywne przykłady podane przez ten klasyfikator do przekwalifikowania. Wraz ze wzrostem zestawu przykładów treningowych klasyfikator ulega poprawie, pod warunkiem, że zbyt wiele negatywnych przykładów nie zostanie zaklasyfikowanych jako pozytywne, co może prowadzić do pogorszenia wyników.
  • Systemy nienadzorowane w ogóle nie mają żadnych przykładów szkolenia i przeprowadzają grupowanie. Jest to podział instancji danych na kilka grup. Wyniki algorytmów klastrowania są oparte na danych, a zatem bardziej „naturalne” i lepiej dostosowane do podstawowej struktury danych. Ta zaleta jest również jej główną wadą: bez możliwości powiedzenia maszynie, co ma robić (jak w klasyfikacji), trudno jest jednoznacznie ocenić jakość wyników grupowania. Ale brak przykładowego przygotowania do szkolenia czyni paradygmat bez nadzoru bardzo atrakcyjnym.

0

W nadzorowanym nauczaniu klasy są znane z góry, a także ich rodzaje, na przykład dwie klasy dobrych i złych klientów. Kiedy nowy obiekt (klient) pojawia się na podstawie jego atrybutów, klient może zostać przypisany do złej lub dobrej klasy klienta.

W uczeniu się bez nadzoru grupy / klasy nie są jeszcze znane, mamy przedmioty (klientów), więc pogrupuj klientów mających podobne nawyki zakupowe, stąd różne grupy są tworzone z klientów, tzn. Nie są jeszcze znane na podstawie podobnych nawyków kupowania.


0

W nadzorowanym uczeniu się wynik (zmienna zależna) zależy od zmiennej wejściowej (zmienna niezależna). W niektórych zestawach danych superwizorów respondent próbuje obliczyć pożądany cel.

W uczeniu się bez nadzoru nie ma nadzoru, więc system próbuje dostosować się do sytuacji i uczy się ręcznie na podstawie pewnych miar.

np .: Nauczyciel w klasie - nadzór - nauka nadzorowana Samokształcenie w klasie - brak nadzoru Uczenie się bez nadzoru

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.