Przegląd
Istnieje wiele możliwych reprezentacji, a tym samym schematów baz danych, do przechowywania rozmytych dat i godzin (lub nawet tylko rozmytych dat):
- Data i godzina oraz kod wskazujący jego precyzję lub dokładność
- Data i godzina oraz przedział, w przypadku których istnieje kilka możliwości przedstawienia przedziału:
- Reprezentuj wszystkie przedziały jako liczbę całkowitą (lub inną liczbę) pewnej ustalonej jednostki, np. Dni, minuty, nanosekundy.
- Przedział reprezentuje zarówno liczbę całkowitą (lub inną liczbę), jak i kod wskazujący jej jednostki.
- Data rozpoczęcia i zakończenia
- Strunowy
- Rozkład prawdopodobieństwa:
- Ilości dziesiętne lub zmiennoprzecinkowe dla parametrów określających konkretny rozkład w określonej rodzinie, np. Średnia i odchylenie standardowe rozkładu normalnego.
- Funkcja rozkładu prawdopodobieństwa, np. Jako (przeglądowy) kod (potencjalnie z parametrami określonych wartości) lub jako wyrażenie w wystarczająco ekspresyjnym języku, formacie lub reprezentacji.
[1], [2] i [3] to wszystkie (domyślnie) jednolite przedziały, tj. Zbiór (jednakowo) możliwych punktów w czasie.
[4] jest najbardziej wyrazisty, tzn. Gdy dopuszcza wszelkie możliwe (lub przynajmniej arbitralnie długie) pisane zdania lub frazy językowe. Ale najtrudniej jest z tym pracować. W tym limicie sztuczna inteligencja na poziomie ludzkim byłaby wymagana do obsługi dowolnych wartości. W praktyce zakres możliwych wartości musiałby zostać poważnie ograniczony, a alternatywne wartości „ustrukturyzowane” byłyby prawdopodobnie preferowane dla wielu operacji, np. Sortowania, wyszukiwania.
[5] jest prawdopodobnie najbardziej ogólną zwartą reprezentacją, która jest (nieco) praktyczna.
Jednolite interwały
Jednolite interwały to najprostszy zwarty sposób reprezentowania zestawu (możliwych) wartości daty i godziny.
W przypadku [1] części wartości daty i godziny są ignorowane, tj. Części odpowiadające jednostkom drobniejszym niż wskazana precyzja lub dokładność; w przeciwnym razie jest to równoważne z [2], a kod dokładności / dokładności jest równoważny interwałowi z tymi samymi jednostkami (i implikowaną ilością 1).
[2] i [3] są wyraźnie równoważne. [1] jest ściśle mniej wyrazisty niż oba, ponieważ istnieją skuteczne odstępy czasu, których nie można przedstawić za pomocą [1], np. rozmyta data-czas odpowiadająca 12 godzinnemu przedziałowi, który obejmuje granicę daty.
[1] jest łatwiejszy dla użytkowników do wprowadzania danych niż jakakolwiek inna reprezentacja i na ogół powinien wymagać (przynajmniej nieznacznie) mniej pisania. Jeśli daty mogą być wprowadzane w różnych reprezentacjach tekstowych, np. „2013”, „2014-3”, „2015-5-2”, „7/30/2016 11p”, „2016-07-31 18:15” , precyzję lub dokładność można również wywnioskować automatycznie na podstawie danych wejściowych.
Dokładność lub precyzję [1] można również najłatwiej przekonwertować na formularz, który należy przekazać użytkownikom, np. „2015-5 z miesięczną dokładnością” na „maj 2015”, w porównaniu z „13 maja 2015 2p, plus minus 13,5 dni” (zauważ jednak, że ten ostatni i tak nie może być reprezentowany przez [1]).
Smyczki
W praktyce wartości ciągów będą musiały zostać przekonwertowane na inne reprezentacje w celu tworzenia zapytań, sortowania lub porównywania wielu wartości w inny sposób. Tak więc, chociaż każdy pisany naturalny (ludzki) język jest bardziej wyrazisty niż [1], [2], [3] lub [5], nie mamy jeszcze możliwości radzenia sobie znacznie poza standardowymi reprezentacjami tekstowymi lub formatami. Biorąc to pod uwagę, jest to prawdopodobnie najmniej przydatna reprezentacja sama w sobie .
Jedną z zalet tej reprezentacji jest to, że wartości powinny w praktyce być prezentowane użytkownikom w obecnej postaci i nie wymagają transformacji, aby były łatwo zrozumiałe.
Rozkłady prawdopodobieństwa
Rozkłady prawdopodobieństwa uogólniają jednolite reprezentacje przedziałów [1], [2], [3] i (prawdopodobnie) są równoważne (ogólnej) reprezentacji ciągu [4].
Jedną z zalet rozkładów prawdopodobieństwa nad łańcuchami jest to, że te pierwsze są jednoznaczne.
[5-1] byłoby odpowiednie dla wartości, które (głównie) są zgodne z istniejącym rozkładem, np. Wyjście wartości daty i czasu z urządzenia, dla którego wiadomo (lub uważa się), że pomiary są zgodne z określonym rozkładem.
[5-2] jest prawdopodobnie najlepszym (nieco) praktycznym sposobem kompaktowego przedstawienia arbitralnych wartości „rozmytej daty / godziny”. Oczywiście obliczalność użytych rozkładów prawdopodobieństwa ma znaczenie i są zdecydowanie interesujące (i być może niemożliwe) problemy do rozwiązania przy wyszukiwaniu, sortowaniu lub porównywaniu różnych wartości, ale wiele z nich jest już prawdopodobnie znanych lub rozwiązanych gdzieś w istniejących literatura matematyczna i statystyczna, więc jest to zdecydowanie bardzo ogólna i niejednoznaczna reprezentacja.