Dlaczego warto korzystać z teorii ekstremalnych wartości?


18

Pochodzę z inżynierii lądowej, w której używamy teorii ekstremalnej wartości , takiej jak rozkład GEV do przewidywania wartości niektórych zdarzeń, takich jak największa prędkość wiatru , tj. Wartość, do której 98,5% prędkości wiatru byłoby niższe.

Moje pytanie brzmi: po co stosować tak ekstremalny rozkład wartości ? Czy nie byłoby łatwiej, gdybyśmy po prostu zastosowali rozkład ogólny i uzyskali wartość prawdopodobieństwa 98,5% ?

Odpowiedzi:


24

Oświadczenie: W poniższych punktach niniejszy ZASADA zakłada, że ​​Twoje dane są zwykle dystrybuowane. Jeśli faktycznie coś konstruujesz, porozmawiaj z silnym specjalistą ds. Statystyk i pozwól tej osobie podpisać się na linii, mówiąc, jaki będzie poziom. Porozmawiaj z pięcioma lub 25 z nich. Ta odpowiedź jest przeznaczona dla studenta inżynierii lądowej pytającego „dlaczego”, a nie dla inżyniera inżyniera pytającego „jak”.

Myślę, że pytanie kryje się w pytaniu „jaki jest ekstremalny rozkład wartości?”. Tak, to niektóre symbole algebry. Więc co? dobrze?

Pomyślmy o powodziach trwających 1000 lat. Są duże.

Kiedy się zdarzy, zabiją wielu ludzi. Wiele mostów spada.
Wiesz, który most nie idzie w dół? Ja robię. Nie ... jeszcze.

Pytanie: Który most nie spadnie podczas powodzi na 1000 lat?
Odpowiedź: Most zaprojektowany, aby go wytrzymać.

Dane potrzebne do zrobienia tego po swojemu:
Powiedzmy, że masz 200 lat codziennych danych dotyczących wody. Czy jest tam 1000-letnia powódź? Nie zdalnie. Masz próbkę jednego ogona rozkładu. Nie masz populacji. Gdybyś znał całą historię powodzi, miałbyś całkowitą populację danych. Zastanówmy się nad tym. Ile lat danych potrzebujesz, ile próbek, aby mieć co najmniej jedną wartość, której prawdopodobieństwo wynosi 1 na 1000? W idealnym świecie potrzebujesz co najmniej 1000 próbek. W prawdziwym świecie panuje bałagan, więc potrzebujesz więcej. Zaczynasz otrzymywać kursy 50/50 przy około 4000 próbek. Zaczynasz mieć gwarancję posiadania więcej niż 1 przy około 20 000 próbek. Próbka nie oznacza „wody w jednej sekundzie w porównaniu do następnej”, ale miarę dla każdego unikalnego źródła zmienności - jak zmienność z roku na rok. Jeden środek w ciągu roku, wraz z innym środkiem w ciągu kolejnego roku stanowią dwie próbki. Jeśli nie masz 4000 lat dobrych danych, prawdopodobnie nie masz na przykład 1000-letniej powodzi w danych. Dobrą rzeczą jest to, że nie potrzebujesz tak dużo danych, aby uzyskać dobry wynik.

Oto, jak uzyskać lepsze wyniki przy mniejszej ilości danych:
jeśli spojrzysz na maksymalne wartości roczne, możesz dopasować „ekstremalny rozkład wartości” do 200 wartości poziomów maksymalnych w ciągu roku i uzyskasz rozkład obejmujący 1000-letnią powódź -poziom. Będzie to algebra, a nie faktyczne „jak duże to jest”. Możesz użyć równania, aby określić, jak duża będzie powódź na 1000 lat. Następnie, biorąc pod uwagę tę objętość wody - możesz zbudować swój most, aby się jej oprzeć. Nie strzelaj do dokładnej wartości, strzelaj do większej, w przeciwnym razie projektujesz, aby zawiodła podczas 1000-letniej powodzi. Jeśli masz odwagę, możesz użyć ponownego próbkowania, aby dowiedzieć się, o ile więcej na podstawie dokładnej wartości 1000 lat musisz ją zbudować, aby była odporna.

Oto dlaczego EV / GEV są odpowiednimi formami analitycznymi:
Uogólniony rozkład wartości ekstremalnych zależy od tego, jak bardzo zmienia się maksimum. Zmiana maksimum zachowuje się naprawdę inaczej niż zmiana średniej. Rozkład normalny, poprzez centralne twierdzenie graniczne, opisuje wiele „tendencji centralnych”.

Procedura:

  1. wykonać następujące 1000 razy:
    i. wybierz 1000 liczb ze standardowego rozkładu normalnego
    ii. oblicz maksimum dla tej grupy próbek i zapisz ją
  2. teraz wykreśl rozkład wyniku

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")
    

To NIE jest „standardowy rozkład normalny”: wprowadź opis zdjęcia tutaj

Szczyt wynosi 3,2, ale maksimum idzie w górę do 5,0. Ma przekrzywienie. Nie spada poniżej około 2,5. Jeśli posiadasz rzeczywiste dane (normalna norma) i po prostu wybierasz ogon, wówczas losowo wybierasz coś wzdłuż tej krzywej. Jeśli ci się poszczęści, skieruj się w stronę centrum, a nie dolnego ogona. Inżynieria jest przeciwieństwem szczęścia - polega na konsekwentnym uzyskiwaniu pożądanych rezultatów za każdym razem. „ Liczby losowe są zdecydowanie zbyt ważne, aby pozostawić je przypadkowi ” (patrz przypis), szczególnie dla inżyniera. Rodzina funkcji analitycznych, która najlepiej pasuje do tych danych - rodzina ekstremalnych wartości rozkładów.

Przykład dopasowania:
Załóżmy, że mamy 200 losowych wartości maksymalnego roku ze standardowego rozkładu normalnego i zamierzamy udawać, że to nasza 200-letnia historia maksymalnych poziomów wody (cokolwiek to oznacza). Aby uzyskać dystrybucję, wykonaj następujące czynności:

  1. Próbkuj zmienną „store” (aby zrobić krótki / łatwy kod)
  2. pasuje do uogólnionego ekstremalnego rozkładu wartości
  3. znajdź średnią rozkładu
  4. użyj ładowania początkowego, aby znaleźć górny limit 95% CI w wariancie średniej, abyśmy mogli w tym celu ukierunkować naszą inżynierię.

(kod zakłada, że ​​powyższe zostały uruchomione jako pierwsze)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

To daje wyniki:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

Można je podłączyć do funkcji generowania, aby utworzyć 20 000 próbek

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Postępowanie zgodnie z poniższymi instrukcjami da 50/50 szans na porażkę w dowolnym roku:

średnia (y3)
3,23681

Oto kod określający, jaki jest 1000-letni poziom „powodzi”:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Postępowanie zgodnie z poniższymi wskazówkami powinno dać ci 50/50 szans na porażkę podczas powodzi 1000 lat.

p1000
4.510931

Aby ustalić 95% górny CI, użyłem następującego kodu:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

Wynik był:

> mytarget
     95% 
4.812148

Oznacza to, że aby oprzeć się znacznej większości powodzi 1000 lat, biorąc pod uwagę, że Twoje dane są nieskazitelnie normalne (mało prawdopodobne), musisz zbudować dla ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

albo

> 1/(1-out)
   shape 
1077.829 

... 1078 lat powodzi.

Dolne linie:

  • masz próbkę danych, a nie rzeczywistą całkowitą populację. Oznacza to, że twoje kwantyle są szacunkowe i mogą być wyłączone.
  • Rozkłady takie jak uogólniony rozkład wartości ekstremalnych są budowane w celu użycia próbek do ustalenia rzeczywistych ogonów. Szacują się znacznie gorzej niż przy szacowaniu wartości próbek, nawet jeśli nie masz wystarczającej liczby próbek do klasycznego podejścia.
  • Jeśli jesteś solidny, sufit jest wysoki, ale wynikiem tego jest - nie zawiedziesz.

Powodzenia

PS:

  • 1/(1-0,985)67
  • Biorąc pod uwagę poprzedni punkt, średnio co 67 lat obywatele powinni przebudować. Więc przy pełnym koszcie inżynierii i budowy co 67 lat, biorąc pod uwagę żywotność konstrukcji cywilnej (nie wiem co to jest), w pewnym momencie może być tańsze w inżynierii na dłuższy okres między burzami. Zrównoważona infrastruktura obywatelska to taka, która ma trwać co najmniej jeden okres życia człowieka bez awarii, prawda?

PS: więcej zabawy - film na YouTube (nie mój)
https://www.youtube.com/watch?v=EACkiMRT0pc

Przypis: Coveyou, Robert R. „Generowanie liczb losowych jest zbyt ważne, aby pozostawić je przypadkowi”. Zastosowane prawdopodobieństwo i metody Monte Carlo oraz współczesne aspekty dynamiki. Studia z matematyki stosowanej 3 (1969): 70-111.


2
Być może nie jestem wystarczająco jasny. Moim głównym zmartwieniem jest to, dlaczego extreme value distributionzamiast używać the overall distributiondanych, a nie uzyskać wartości 98,5%.
cqcn1991

Co rozumiesz przez ogólną populację?
kjetil b halvorsen

1
zaktualizowałem odpowiedź.
EngrStudent - Przywróć Monikę

2
@EngrStudent świetna odpowiedź, jednak byłoby jeszcze lepiej, gdybyś pokazał, jak EVT działa tutaj lepiej niż przy użyciu rozkładu normalnego oprócz ilustracji.
Tim

2
Po wykonaniu pewnych prac związanych z modelowaniem powiedziałbym, że stosowanie dystrybucji rodzicielskiej jest po prostu niebezpieczne, ponieważ danych jest bardzo niewiele, a ekstrapolacja jest po prostu niebezpieczna i niestabilna, do modelowania ekstremalnych zdarzeń. I w ten sposób powinniśmy zamiast tego użyć teorii EV.
cqcn1991

7

Wykorzystujesz teorię wartości ekstremalnych do ekstrapolacji z zaobserwowanych danych. Często posiadane dane po prostu nie są wystarczająco duże, aby zapewnić rozsądne oszacowanie prawdopodobieństwa ogona. Biorąc przykład @ EngrStudent za wydarzenie 1 na 1000 lat: odpowiada to znalezieniu 99,9% kwantyla rozkładu. Ale jeśli masz tylko 200 lat danych, możesz obliczyć empiryczne oszacowania kwantyli do 99,5%.

Teoria ekstremalnych wartości pozwala oszacować kwantyl 99,9%, przyjmując różne założenia dotyczące kształtu rozkładu w ogonie: że jest gładki, rozkłada się według określonego wzoru i tak dalej.

Być może myślisz, że różnica między 99,5% a 99,9% jest niewielka; w końcu to tylko 0,4%. Ale to różnica w prawdopodobieństwie , a kiedy jesteś w ogonie, może to przełożyć się na ogromną różnicę w kwantylach . Oto ilustracja tego, jak wygląda rozkład gamma, który nie ma zbyt długiego ogona. Niebieska linia odpowiada kwantylowi 99,5%, a czerwona linia to kwantyl 99,9%. Podczas gdy różnica między nimi jest niewielka na osi pionowej, separacja na osi poziomej jest znaczna. Separacja staje się większa tylko w przypadku naprawdę długich ogonów; gamma jest w rzeczywistości dość nieszkodliwym przypadkiem.

wprowadź opis zdjęcia tutaj


Twoja odpowiedź jest nieprawidłowa. Punkt 99,9% rocznej śmierci normalnej nie odpowiada zdarzeniu 1 na 1000 lat. Maksymalnie 1000 normalnych ma inny rozkład. Myślę, że rozwiązano to w innych odpowiedziach.
Mark L. Stone,

@ MarkL.Stone Nigdzie nie wspomniałem o maksimum 1000 normalnych.
Hong Ooi,

1
Właśnie o to mi chodzi. Wydarzenie 1 na 1000 lat powinno opierać się na maksimum 1000 normalnych rocznie. To bardzo różni się od punktu 99,9 $ na corocznym Normal. Zobacz mój komentarz do odpowiedzi Karela Macka poniżej.
Mark L. Stone,

@ MarkL.Stone Celem wykresu jest tylko pokazanie, że gdy jesteś w ogonie, małe zmiany prawdopodobieństwa odpowiadają dużym zmianom w kwantylach. Możesz zastąpić 99% kwantyla GEV, GPD lub dowolnej innej dystrybucji. (I nawet nie wspomniałem o normalnym rozkładzie.)
Hong Ooi

Poza tym szacowanie maksimów za pomocą GEV jest tylko jednym ze sposobów uzyskania kwantyli ogonowych. Innym sposobem jest oszacowanie kwantyli bezpośrednio przez GPD (przy założeniu ciężkiego rozkładu).
Hong Ooi,

7

Jeśli interesuje Cię tylko ogon, sensowne jest skoncentrowanie wysiłków związanych z gromadzeniem danych i analizą na ogonie. Powinno to być bardziej wydajne. Podkreśliłem gromadzenie danych, ponieważ ten aspekt jest często ignorowany podczas przedstawiania argumentu dla dystrybucji EVT. W rzeczywistości gromadzenie odpowiednich danych w celu oszacowania ogólnej dystrybucji w niektórych polach może być niewykonalne . Wyjaśnię bardziej szczegółowo poniżej.

Jeśli patrzysz na 1 na 1000 lat powodzi, jak w przykładzie @ EngrStudent, to aby zbudować ciało normalnej dystrybucji, potrzebujesz dużo danych, aby wypełnić go obserwacjami. Potencjalnie potrzebujesz każdej powodzi, która miała miejsce w ciągu ostatnich setek lat.

A teraz zatrzymaj się na chwilę i pomyśl, co to właściwie jest powódź? Kiedy moje podwórko jest zalane po ulewnym deszczu, czy to powódź? Prawdopodobnie nie, ale gdzie dokładnie jest linia wyznaczająca powódź od zdarzenia, które nie jest powodzią? To proste pytanie podkreśla problem z gromadzeniem danych. Jak możesz się upewnić, że zbieramy wszystkie dane na ciele zgodnie z tym samym standardem przez dziesięciolecia, a może nawet stulecia? Zebranie danych na temat rozkładu powodzi jest praktycznie niemożliwe.

Stąd, że to nie tylko kwestia efektywności w analizie , ale to kwestia wykonalności z danych kolekcji : czy modelować całą dystrybucję lub tylko ogon?

Oczywiście z ogonami zbieranie danych jest znacznie łatwiejsze. Jeśli zdefiniujemy wystarczająco wysoki próg dla ogromnej powodzi , możemy mieć większą szansę, że wszystkie lub prawie wszystkie takie zdarzenia zostaną prawdopodobnie zarejestrowane w jakiś sposób. Trudno przeoczyć niszczycielską powódź, a jeśli obecna będzie jakakolwiek cywilizacja, zostanie zachowana pamięć o tym wydarzeniu. Dlatego sensowne jest budowanie narzędzi analitycznych, które koncentrują się w szczególności na ogonach, biorąc pod uwagę, że gromadzenie danych jest znacznie bardziej odporne na zdarzenia ekstremalne niż na nie-ekstremalne w wielu dziedzinach, takich jak badania niezawodności.


+1 Interesujące i przekonujące punkty, szczególnie w uwagach na końcu.
whuber

(+1) W związku z ostatnim punktem (zachowana pamięć) efekt Sadlera może być interesujący.
GeoMatt22

@ GeoMatt22, po raz pierwszy zobaczyłem gazetę i pojęcie efektu Sadlera. Dzięki za link
Aksakal

To naprawdę doskonały punkt. Jest to system, więc podejście systemowe może mieć doskonałą wydajność. Najlepsza analiza na świecie może zostać zatruta niepotrzebnymi danymi. Dość prosta analiza, jeśli zostanie dostarczona z dobrymi danymi, może przynieść świetne wyniki. Słuszne uwagi!
EngrStudent - Przywróć Monikę

6

Zwykle rozkład podstawowych danych (np. Prędkości wiatru Gaussa) dotyczy pojedynczego punktu próbkowania. 98 percentyl powie ci, że dla każdego losowo wybranego punktu istnieje 2% szansa, że ​​wartość będzie większa niż 98 percentyl.

Nie jestem inżynierem lądowym, ale wyobrażam sobie, że chciałbyś wiedzieć, że nie jest prawdopodobne, aby prędkość wiatru w danym dniu przekraczała określoną liczbę, ale rozkład największego możliwego podmuchu, powiedzmy: rok. W takim przypadku, jeśli dzienne maksymalne porywy wiatru są, powiedzmy, wykładniczo rozłożone, to tym, czego chcesz, jest rozkład maksymalnego podmuchu wiatru w ciągu 365 dni ... właśnie to miał rozwiązać ekstremalny rozkład wartości.


1

Zastosowanie kwantylu ułatwia dalsze obliczenia. Inżynierowie budowlani mogą zastąpić wartość (na przykład prędkość wiatru) wzorami pierwszorzędnymi i uzyskują zachowanie systemu dla ekstremalnych warunków, które odpowiadają kwantowi 98,5%.

Zastosowanie całego rozkładu mogłoby wydawać się dostarczać więcej informacji, ale skomplikowałoby obliczenia. Mogłoby to jednak umożliwić zastosowanie zaawansowanych metod zarządzania ryzykiem, które optymalnie zrównoważą koszty związane z (i) budową oraz (ii) ryzykiem awarii.


Cóż ... Mogę nie wystarczyć. Chcę tylko wiedzieć, dlaczego używamy teorii skrajnych wartości zamiast ogólnej dystrybucji (całej dystrybucji?), Której zwykle używamy?
cqcn1991

1
Jeżeli funkcja skumulowanego rozkładu dla dowolnej instancji, taka jak dzienna maksymalna prędkość wiatru, wynosi F (x), to funkcja skumulowanego rozkładu dla maksymalnie n niezależnych instancji (np. N = 365 dla roku z dzienną maksymalną prędkością wiatru ) to F ^ n (x). Różni się to od F (x).
Mark L. Stone,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.