Jak znormalizować dane o nieznanej dystrybucji


12

Staram się znaleźć najbardziej odpowiedni charakterystyczny rozkład danych z powtarzanych pomiarów określonego rodzaju.

Zasadniczo w mojej gałęzi geologii często używamy datowania radiometrycznego minerałów z próbek (kawałków skały), aby dowiedzieć się, jak dawno temu wydarzenie miało miejsce (skała schłodziła się poniżej temperatury progowej). Zazwyczaj z każdej próbki zostanie wykonanych kilka (3-10) pomiarów. Następnie brana jest średnia i odchylenie standardowe . Jest to geologia, więc wiek chłodzenia próbek może wynosić od do lat, w zależności od sytuacji.μσ105109

Mam jednak powody sądzić, że pomiary nie są Gaussowskie: „wartości odstające”, albo zadeklarowane arbitralnie, albo za pomocą jakiegoś kryterium, takiego jak kryterium Peirce'a [Ross, 2003] lub test Q Dixona [Dean i Dixon, 1951] , są dość często (powiedzmy, 1 na 30) i są one prawie zawsze starsze, co wskazuje, że pomiary te są charakterystycznie wypaczone w prawo. Istnieją dobrze znane powody, dla których ma to związek z zanieczyszczeniami mineralogicznymi.

Średnia vs. mediana wieku próbki.  Czerwona linia wskazuje średnią = medianę.  Uwaga starsze środki spowodowane przekrzywionymi pomiarami.

Dlatego jeśli znajdę lepszą dystrybucję, która zawiera ogony tłuszczu i przekrzywienie, myślę, że możemy skonstruować bardziej znaczące parametry lokalizacji i skali i nie musimy tak szybko dozować wartości odstających. Tzn. Jeśli można wykazać, że tego rodzaju pomiary są logarytmiczne, log-Laplaciana lub cokolwiek innego, wówczas można zastosować bardziej odpowiednie miary maksymalnego prawdopodobieństwa niż i , które nie są solidne i mogą być stronnicze w tym przypadku systematycznie skośnych danych.σμσ

Zastanawiam się, jaki jest najlepszy sposób, aby to zrobić. Do tej pory mam bazę danych zawierającą około 600 próbek i 2-10 (lub więcej) powtórzeń pomiarów na próbkę. Próbowałem normalizować próbki, dzieląc każdą przez średnią lub medianę, a następnie patrząc na histogramy znormalizowanych danych. Daje to rozsądne wyniki i wydaje się wskazywać, że dane są w pewien sposób charakterystyczne dla Laplaciana:

wprowadź opis zdjęcia tutaj

Jednak nie jestem pewien, czy jest to odpowiedni sposób, aby to zrobić, czy też są pewne zastrzeżenia, których nie jestem świadomy, mogą wpływać na moje wyniki, aby wyglądały tak. Czy ktoś ma doświadczenie w tego typu sprawach i zna najlepsze praktyki?


4
Ponieważ „normalizacja” oznacza kilka różnych rzeczy w takich kontekstach, co dokładnie rozumiesz przez „normalizacja”? Jakie informacje próbujesz wydostać z danych?
Glen_b

1
@Glen_b: Przez „Normalizuj” rozumiem po prostu skalowanie rzeczy o medianę (lub średnią) wszystkich zmierzonych grup wiekowych przez medianę (lub średnią lub cokolwiek innego). Istnieją eksperymentalne dowody, że dyspersja w próbkach wzrasta liniowo wraz z wiekiem. Na podstawie danych chcę sprawdzić, czy ten typ pomiaru najlepiej charakteryzuje się rozkładem normalnym, logarytmicznym normalnym, beta lub innym, tak aby można było uzyskać najdokładniejszą lokalizację i skalę lub L1 vs. Regresja L2 uzasadniona itp. W tym poście pytam, w jaki sposób mogę pobrać dane, które opisałem i zbadać to.
kossatot

1
Nie mam specjalistycznej wiedzy w tej dziedzinie, ale twoje wykresy i myśl, którą w to włożyłeś, wyglądają dobrze. Być może już to widziałeś, ale artykuł w Wikipedii na temat Log-Laplace zawiera link do fajnego artykułu, który nie odnosi się bezpośrednio do twojego pytania, ale może mieć kilka ciekawych spostrzeżeń: wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
Wayne

Nie jestem pewien, czy całkowicie rozumiem, ale może ładowanie może pomóc? Jeśli odzyskasz wariancję itp. Swojej dystrybucji za pomocą metod ładowania początkowego, możesz użyć odzyskanych informacji do normalizacji danych. en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

Odpowiedzi:


1

Czy rozważałeś wzięcie średniej (3–10) pomiarów z każdej próbki? Czy możesz zatem pracować z rozkładem wynikowym - który przybliża rozkład t, który przybliża rozkład normalny dla większego n?


1

Nie sądzę, że używasz normalizacji do oznaczenia tego, co normalnie oznacza, co zwykle jest na przykład normalizacją średniej i / lub wariancji i / lub wybielania.

Myślę, że starasz się znaleźć nieliniową reparametryzację i / lub funkcje, które pozwalają używać modeli liniowych na danych.

To nie jest trywialne i nie ma prostej odpowiedzi. Dlatego naukowcom danych płaci się dużo pieniędzy ;-)

Jednym względnie prostym sposobem tworzenia nieliniowych elementów jest zastosowanie sieci neuronowej ze sprzężeniem zwrotnym, w której liczba warstw i liczba neuronów na warstwę kontroluje zdolność sieci do generowania cech. Wyższa pojemność => więcej nieliniowości, więcej przeregulowania. Niższa pojemność => większa liniowość, większe odchylenie, mniejsza wariancja.

Inną metodą, która daje nieco większą kontrolę, jest użycie splajnów.

Na koniec możesz ręcznie utworzyć takie funkcje, co moim zdaniem jest tym, co próbujesz zrobić, ale wtedy nie ma prostej odpowiedzi „czarnej skrzynki”: musisz dokładnie przeanalizować dane, poszukać wzorców i tak dalej .


Normalizacja ma kilka znaczeń w matematyce i naukach ścisłych; deklarowanie, że to, co oznacza osobiście najbardziej znany, jest standardem, jest tym, co kusi większość ludzi, ale nie będzie się myło z innymi. Mówiąc poważniej, zaczyna się od tematu, ale potem odchodzi. Gdzie widać zainteresowanie modelami nieliniowymi? Sieci neuronowe? Splajny? Co to ma wspólnego z identyfikacją dystrybucji lub rodziny dystrybucji, jakie jest pytanie? Nie widzę połączenia, więc zalecamy wycięcie tego, co nie jest istotne, lub rozwinięcie go, aby pokazać, jak to jest istotne.
Nick Cox

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.