Mam wielu niezależnych programistów, którzy próbują zidentyfikować zdarzenia w szeregu czasowym - w tym przypadku oglądam wideo rozmowy twarzą w twarz i szukam określonych zachowań niewerbalnych (np. Skinienie głową) oraz kodują czas i kategorię każdego z nich zdarzenie. Dane te można rozsądnie potraktować jako szereg dyskretny w czasie o wysokiej częstotliwości próbkowania (30 klatek / sekundę) lub jako szereg ciągły w czasie, w zależności od tego, który z nich jest łatwiejszy do pracy.
Chciałbym obliczyć pewną miarę niezawodności między oceniającymi, ale spodziewam się pewnej niepewności w momencie wystąpienia zdarzeń; to znaczy, spodziewam się, że jeden programista może na przykład zakodować, że określony ruch rozpoczął się kwadrans później niż inni sądzili, że się zaczął. Są to rzadkie zdarzenia, jeśli to pomaga; zazwyczaj co najmniej kilka sekund (setki klatek wideo) między zdarzeniami.
Czy istnieje dobry sposób oceny wiarygodności między oceniającymi, który uwzględnia oba rodzaje porozumienia i nieporozumienia: (1) czy oceniający zgadzają się co do tego, jakie zdarzenie miało miejsce (jeśli występuje), oraz (2) czy zgadzają się, kiedy to miało miejsce? Druga jest dla mnie ważna, ponieważ jestem zainteresowany spojrzeniem na czas tych wydarzeń w stosunku do innych rzeczy zachodzących w rozmowie, takich jak to, co mówią ludzie.
Standardową praktyką w mojej dziedzinie wydaje się być dzielenie rzeczy na przedziały czasowe, powiedzmy 1/4 sekundy lub więcej, agregowanie zdarzeń zgłaszanych przez każdy koder na odcinek czasu, a następnie obliczanie kappa Cohena lub podobnej miary. Ale wybór czasu cięcia jest doraźny i nie mam pojęcia o niepewności w czasie wydarzeń.
Jak dotąd najlepiej mi się wydaje, że mogę obliczyć krzywą niezawodności; coś w rodzaju kappa w zależności od wielkości okna, w którym uważam dwa zdarzenia za zakodowane w tym samym czasie. Jednak nie jestem pewien, dokąd się udać ...