Cross wysyłając moje pytanie z matematyki, aby znaleźć pomoc dotyczącą statystyk.
Badam fizyczny proces generujący dane, które ładnie rzutują na dwa wymiary o wartościach nieujemnych. Każdy proces ma (rzutowaną) ścieżkę punktów - y - patrz obrazek poniżej.
Przykładowe ścieżki są niebieskie, kłopotliwy typ ścieżki został narysowany ręcznie na zielono, a obszar zainteresowania na czerwono:
Każda ścieżka jest wynikiem niezależnego eksperymentu. Przez kilka lat przeprowadzono dwadzieścia milionów eksperymentów, ale tylko dwa tysiące z nich wykazują funkcję, którą przedstawiamy jako ścieżkę. Zajmujemy się tylko eksperymentami, które generują ślad, więc nasz zestaw danych to (w przybliżeniu) dwa tysiące śladów.
Jak obliczyć prawdopodobieństwo wkroczenia dowolnej ścieżki do regionu, którego dotyczy problem?
Nie jest możliwe przeprowadzenie eksperymentów wystarczająco szybko, aby zobaczyć, jak często generowane są ścieżki, które wchodzą w obszar zainteresowania, dlatego musimy ekstrapolować z dostępnych danych.
Dopasowaliśmy minimalną odległość od każdego toru do danego regionu, ale nie jesteśmy przekonani, że daje to uzasadniony wynik.
1) Czy istnieje znany sposób dopasowania dystrybucji do tego typu danych w celu ekstrapolacji?
-lub-
2) Czy istnieje oczywisty sposób wykorzystania tych danych do stworzenia modelu do generowania śladów? Np. Użyj analizy głównego komponentu na ścieżkach jako punktów na dużej przestrzeni, a następnie dopasuj rozkład (Pearson?) Do ścieżek rzutowanych na te komponenty.