Doceniam inne odpowiedzi, ale wydaje mi się, że pewne tło topologiczne dałoby bardzo potrzebną strukturę odpowiedzi.
Definicje
Zacznijmy od ustalenia definicji domen:
zmienna kategorialna to taka, której domena zawiera elementy, ale nie ma między nimi znanej relacji (dlatego mamy tylko kategorie). Przykłady zależą od kontekstu, ale powiedziałbym, że w ogólnym przypadku trudno porównywać dni tygodnia: czy jest poniedziałek przed niedzielą, jeśli tak, to co z następnym poniedziałkiem? Być może łatwiejszym, ale rzadziej używanym przykładem są ubrania: bez podania kontekstu, który nadawałby się do porządku, trudno powiedzieć, czy spodnie pojawiają się przed swetrami, czy odwrotnie.
zmienna porządkowa to taka, która ma zdefiniowaną całkowitą kolejność w domenie, tzn. dla każdego z dwóch elementów domeny możemy stwierdzić, że albo są one identyczne, albo jeden jest większy od drugiego. Likerta skalę jest przykład dobra definicji zmiennej porządkowej. „nieco zgadzam się” jest zdecydowanie bliższe „zdecydowanie zgadzam się” niż „nie zgadzam się”.
zmienna interwałowa to taka, której domena określa odległości między elementami ( metrykę ), co pozwala nam definiować interwały.
Przykłady domen
Jako najczęstszy zestaw, którego używamy, liczby naturalne i rzeczywiste mają standardowe całkowite zamówienie i dane. Dlatego musimy zachować ostrożność, przypisując liczby do naszych kategorii. Jeśli nie staramy się ignorować kolejności i odległości, praktycznie przekształcamy nasze dane kategoryczne w dane przedziałowe. Kiedy używa się algorytmu uczenia maszynowego, nie wiedząc, jak on działa, ryzykuje się niechętnymi przyjmowaniem takich założeń, potencjalnie unieważniając własne wyniki. Na przykład najpopularniejsze algorytmy głębokiego uczenia działają na liczbach rzeczywistych, wykorzystując ich interwał i ciągłe właściwości. Kolejny przykład, pomyśl o 5-punktowych skalach Likerta i o tym, w jaki sposób przeprowadzamy na nich analizę, że odległość między zdecydowanie się zgadza i zgadza sięjest tym samym co nie zgadzam się i ani się nie zgadzam, ani nie zgadzam . Trudno uzasadnić taki związek.
Innym zestawem, z którym często pracujemy, są łańcuchy . Istnieje wiele wskaźników podobieństwa ciągów, które przydają się podczas pracy z ciągami. Nie zawsze są one jednak przydatne. Na przykład w przypadku adresów John Smith Street i John Smith Road są dość bliskie pod względem podobieństwa ciągów, ale oczywiście reprezentują dwa różne byty, które mogą być daleko od siebie.
Statystyki podsumowujące
Ok, zobaczmy teraz, jak pasują do tego niektóre statystyki podsumowujące. Ponieważ statystyki działają z liczbami, ich funkcje są dobrze zdefiniowane w przedziałach czasowych. Zobaczmy jednak przykłady, czy / jak możemy uogólnić je na dane kategoryczne lub porządkowe:
- tryb - zarówno podczas pracy z danymi kategorialnymi, jak i porządkowymi możemy stwierdzić, który element jest najczęściej używany. Mamy to. Następnie możemy wyprowadzić wszystkie inne miary wymienione przez @Maddenker w ich odpowiedzi. Przydatny może być również przedział ufności @ gung.
- mediana - jak mówi @ peter-flom, dopóki masz zamówienie, możesz uzyskać swoją medianę.
- średnia , ale także odchylenie standardowe, percentyle itp. - otrzymujesz je tylko z danymi przedziałowymi, ze względu na potrzebę pomiaru odległości.
Przykład kontekstowości danych
Na koniec chciałbym jeszcze raz podkreślić, że kolejność i dane, które definiujesz w swoich danych, są bardzo kontekstowe. Powinno to być do tej pory oczywiste, ale dam wam ostatni przykład: pracując z lokalizacjami geograficznymi, mamy wiele różnych sposobów podejścia do nich:
- jeśli interesuje nas odległość między nimi, możemy pracować z ich geolokalizacją, co w zasadzie daje nam dwuwymiarową przestrzeń numeryczną, a zatem przedział.
- jeśli interesuje nas ich część relacji, możemy zdefiniować całkowity porządek (np. ulica jest częścią miasta, dwa miasta są równe, kontynent zawiera kraj)
- jeśli jesteśmy zainteresowani tym, czy dwa ciągi reprezentują ten sam adres, moglibyśmy pracować z pewnym odstępem ciągów, który tolerowałby błędy ortograficzne i zamianę pozycji słów, ale upewnij się, aby rozróżnić różne terminy i nazwy. To nie jest łatwa rzecz, ale tylko po to, aby ją przedstawić.
- Istnieje wiele innych przypadków użycia, z którymi wszyscy spotykamy się codziennie, gdzie nic z tego nie ma sensu. W niektórych z nich nie pozostaje nic innego, jak traktować adresy jako po prostu różne kategorie, w innych sprowadza się to do bardzo inteligentnego modelowania i wstępnego przetwarzania danych.