Załóżmy, że chcesz łowić ryby w pobliskim jeziorze od 8:00 do 20:00. Z powodu przełowienia wprowadzono prawo, które mówi, że możesz złowić tylko jedną rybę dziennie. Kiedy złapiesz rybę, możesz ją zatrzymać (i w ten sposób wrócić do domu z tą rybą), lub wrzucić ją z powrotem do jeziora i kontynuować łowienie (ale ryzykuj później osiedlenie się z mniejszą rybą lub brak ryb). Chcesz złapać jak największą rybę; w szczególności chcesz zmaksymalizować oczekiwaną masę ryb, które przywieziesz do domu.
Formalnie możemy ustawić ten problem w następujący sposób: ryby są łapane w określonym tempie (więc czas potrzebny do złapania następnej ryby jest zgodny ze znanym rozkładem wykładniczym), a rozmiar złowionych ryb jest zgodny z pewną (znaną) dystrybucją . Chcemy pewnego procesu decyzyjnego, który biorąc pod uwagę aktualny czas i rozmiar właśnie złowionej ryby, decyduje, czy zatrzymać ją, czy odrzucić.
Pytanie zatem brzmi: jak podjąć taką decyzję? Czy jest jakiś prosty (lub skomplikowany) sposób decydowania, kiedy przestać łowić ryby? Myślę, że problem jest równoznaczny z ustaleniem, na pewien czas t, jaka oczekiwana masa ryb, którą optymalny rybak zabrałby do domu, gdyby zaczęli w czasie t; optymalny proces decyzyjny pozwoliłby utrzymać rybę tylko wtedy, gdy jest ona cięższa niż oczekiwana masa. Ale to wydaje się trochę samoreferencyjne; określamy optymalną strategię połowową pod kątem optymalnego rybaka i nie jestem pewien, jak postępować.