Problem z wędkarstwem


10

Załóżmy, że chcesz łowić ryby w pobliskim jeziorze od 8:00 do 20:00. Z powodu przełowienia wprowadzono prawo, które mówi, że możesz złowić tylko jedną rybę dziennie. Kiedy złapiesz rybę, możesz ją zatrzymać (i w ten sposób wrócić do domu z tą rybą), lub wrzucić ją z powrotem do jeziora i kontynuować łowienie (ale ryzykuj później osiedlenie się z mniejszą rybą lub brak ryb). Chcesz złapać jak największą rybę; w szczególności chcesz zmaksymalizować oczekiwaną masę ryb, które przywieziesz do domu.

Formalnie możemy ustawić ten problem w następujący sposób: ryby są łapane w określonym tempie (więc czas potrzebny do złapania następnej ryby jest zgodny ze znanym rozkładem wykładniczym), a rozmiar złowionych ryb jest zgodny z pewną (znaną) dystrybucją . Chcemy pewnego procesu decyzyjnego, który biorąc pod uwagę aktualny czas i rozmiar właśnie złowionej ryby, decyduje, czy zatrzymać ją, czy odrzucić.

Pytanie zatem brzmi: jak podjąć taką decyzję? Czy jest jakiś prosty (lub skomplikowany) sposób decydowania, kiedy przestać łowić ryby? Myślę, że problem jest równoznaczny z ustaleniem, na pewien czas t, jaka oczekiwana masa ryb, którą optymalny rybak zabrałby do domu, gdyby zaczęli w czasie t; optymalny proces decyzyjny pozwoliłby utrzymać rybę tylko wtedy, gdy jest ona cięższa niż oczekiwana masa. Ale to wydaje się trochę samoreferencyjne; określamy optymalną strategię połowową pod kątem optymalnego rybaka i nie jestem pewien, jak postępować.


5
Sprawdź problem sekretarza na Wikipedii - w szczególności sekcję 1 / e-prawa najlepszego wyboru.
soakley

2
Myślę, że kluczową różnicą tutaj jest to, że zakładamy, że wiemy, jak wszystko jest dystrybuowane, podczas gdy kluczem do tego rozwiązania jest to, że wykorzystuje on pierwszych 1 / e kandydatów tylko po to, aby zdobyć część tej wiedzy i zdefiniować dobry próg. Myślę, że podobny pomysł nie mógłby tu zadziałać. Można sobie wyobrazić wyprowadzenie progu z rozkładów, ale nie sądzę, że należy to naprawić; Myślę, że z czasem próg powinien się zmniejszać, ponieważ masz coraz mniej czasu na lepsze łowienie / jakąkolwiek rybę.
b2coutts

1
@ soakley zobacz także moją odpowiedź na odpowiedź olooney; (oczekiwana) wartość oczekiwania zależy nie tylko od tego, jakie połowy dostaniesz w przyszłości, ale które z tych połowów faktycznie przyjmie Twoja strategia. Sądzę więc, że w tym pytaniu jest również dziwny aspekt autoreferencji.
b2coutts

1
Jaką funkcję lub wartość staramy się zoptymalizować? To znaczy, jak ważymy ryzyko i zysk? Czy warto wymyślić metodę, która maksymalizuje wartość oczekiwaną wielkości złowionych ryb? Czy łowimy tylko jeden dzień, czy wiele dni, a w drugim przypadku, w jaki sposób dni są ze sobą skorelowane?
Sextus Empiricus

1
Wiemy, że dystrybucja ... czy to odnosi się tylko do rodzaju dystrybucji, czy też obejmuje parametry dystrybucji?
Sextus Empiricus

Odpowiedzi:


4

Niech λ oznacza szybkość procesu Poissona i niech S.(x)=1-fa(x) gdzie fa(x) jest funkcją skumulowanego rozkładu rozkładu wielkości ryb.

Niech t=0 oznacza koniec dnia i niech sol(t) , t0 , oznacza oczekiwany połów w przedziale (t,0) który otrzymujemy, jeśli zastosujemy optymalną strategię. Wyraźnie sol(0)=0 . Ponadto, jeśli złapiemy rybę o rozmiarze x w czasie t , powinniśmy ją zatrzymać i przestać łowić, jeśli jest większa niż sol(t) . To jest nasza zasada decyzyjna. Realizacja procesu i zrealizowana decyzja (zielony punkt) mogą zatem wyglądać następująco:

wprowadź opis zdjęcia tutaj

Pracując w ciągłym czasie, wykorzystując pomysły ze stochastycznego programowania dynamicznego , zmianę w sol(t) w czasie opisuje proste równanie różniczkowe. Rozważmy nieskończenie mały odstęp czasu (t-ret,t) . Prawdopodobieństwo, że złowimy rybę o rozmiarze X>sol(t) w tym przedziale czasu wynosi

λretS.(sol(t)),
przeciwnym razie nasz oczekiwany połów wyniesie sol(t) .

Stosując wzór na średni pozostały okres życia , oczekiwany rozmiar ryby większy niż sol(t) jako

mi(X|X>sol(t))=sol(t)+1S.(sol(t))sol(t)S.(x)rex.

Zatem, stosując prawo całkowitego oczekiwania, oczekiwany połów w przedziale (t-ret,0) staje się

g(tdt)=[λdtS(g(t))][sol(t)+1S.(sol(t))sol(t)S.(x)rex]+[1-λretS.(sol(t)]sol(t).

Zmiana układu okazuje się, że sol(t) spełnia wymagania

(1)resolret=-λsol(t)S.(x)rex.
Uwaga sposóbsol(t)w kierunku końca spadku dzień przy szybkości równa iloczynowi natężenia Poissonaλi średniej wielkości ryb0S.(x)rexodzwierciedla to zostanie w tym miejscu najlepiej od trzymania każda ryba, którą moglibyśmy złowić.

Xexp(α)S.(x)=mi-αx

resolret=-λαmi-αsol(t)
sol(t)=1αln(1-λt),
t0α=λ=1sol(-12)

g <- function(t,lambda, rate) {
  1/rate*log(1-lambda*t)
}
catch <- function(daylength=12, lambda=1, rfn=runif, gfn=g, ...) {
  n <- rpois(1,daylength*lambda)
  starttime <- -daylength
  arrivaltimes <- sort(runif(n,starttime,0))
  X <- rfn(n,...)
  j <- match(TRUE, X > gfn(arrivaltimes,lambda,...))
  if (is.na(j))
    0
  else
    X[j]
}
nsim <- 1e+5
catches <- rep(0,nsim)
for (i in 1:nsim)
  catches[i] <- catch(gfn=g,rfn=rexp,rate=1,lambda=1)
> mean(catches)
[1] 2.55802
> g(-12,1,1)
[1] 2.564949

XU(0,1)

sol(t)=1-11-λt/2)
sol(t)t-


3
sol(t)(t,0)

1
sol(t)(t,0)tsol(t)

1
sol(t)=1-miλt-1λt
sol(t)
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.