Dlaczego kamery nie rejestrują zakresu dynamiki tak, jak robią to nasze oczy?


29

Siedząc w pokoju bez włączonych świateł i spoglądając przez okno, mogę łatwo zobaczyć wnętrze pokoju, nawet jeśli skupię się na drzewie na zewnątrz.

Dlaczego aparat nie może zarejestrować podobnego obrazu do tego, co widzą moje oczy? Sądzę, że nowsze aparaty powinny być w stanie łatwo uchwycić tak duży zakres dynamiki. Nie wierzę, że wyświetlanie jest problemem, jeśli zostanie przechwycony tak duży zakres dynamiki, ponieważ można go znormalizować. W aparacie cyfrowym muszę ustawić ekspozycję, która będzie prawidłowo rejestrować tylko scenę zewnętrzną lub wewnętrzną.

Czy to tylko problem z aparatami cyfrowymi, czy to samo dotyczy kamer filmowych?

Podobne pytanie zostało już omówione tutaj Jak uchwycić scenę dokładnie tak, jak widzą to moje oczy? . Nie mówię o rozdzielczości, ostrości ani szczegółach. Interesuje mnie ekspozycja lub zakres dynamiczny podobny do tego, kiedy skupiamy się na jednej scenie.


2
Nie rozumiem, dlaczego mówisz „nowsza kamera powinna być w stanie łatwo uchwycić tak duży zakres dynamiki”. Są oparte na zupełnie innej technologii niż nasze oczy, więc naprawdę nie rozumiem, dlaczego oczekujesz, że będą miały podobne cechy.
Philip Kendall

Czy to cały zakres dynamiczny stanowi większość problemu?
LifeH2O

Mam na myśli eksperyment, nakręć scenę na papierze za pomocą obiektywu, a następnie sfotografuj ją za pomocą aparatu. Powinien znormalizować zakres dynamiczny.
LifeH2O

4
Odwiedź jvsc.jst.go.jp/find/mindlab/english/index.html, aby zobaczyć interaktywnie, jak oszukuje Cię mózg;)
Stormenet

1
@Stormenet: To jest naprawdę piekło!
Chinmay Kanchi

Odpowiedzi:


45

Powodem, dla którego widzisz tak duży zakres dynamiki, nie jest to, że oko, jako urządzenie optyczne, może faktycznie uchwycić taki zakres - powód jest taki, że twój mózg może łączyć informacje z wielu „ekspozycji” z oczu i utwórz panoramę HDR sceny przed sobą.

Oko jest dość słabe z punktu widzenia jakości obrazu, ale ma bardzo wysoką „szybkość klatek” i może bardzo szybko zmieniać czułość, kierunek i ostrość.

Mózg pobiera wszystkie obrazy z oka i tworzy obraz, który wydaje się, że widzisz - obejmuje to szczegóły z obrazów o różnej czułości, a nawet szczegóły, które są całkowicie wykonane w oparciu o to, czego oczekujesz. (Jest to jeden z powodów, dla których istnieją złudzenia optyczne - mózg można oszukać, że „widzi” rzeczy, których tak naprawdę nie ma).

Możesz więc widzieć aparatem tak samo jak okiem, po prostu zrobić wiele ekspozycji przy różnych ustawieniach, a następnie załadować wszystko do Photoshopa, stworzyć panoramę HDR i użyć „wypełnienia świadomego zawartości”, aby wypełnić luki.

Nawiasem mówiąc, dlaczego kamery „powinny” być w stanie uchwycić ten zasięg, a monitory nie powinny być w stanie go odtworzyć? Jeśli technologia, która nie istnieje, powinna istnieć, monitory powinny być w stanie odtworzyć wszystko, co widzimy (i powinienem być w stanie wziąć urlop w hotelu o niskiej grawitacji na Księżycu)


1
pokonałeś mnie o około 4 minuty niemal identyczną odpowiedzią!
Matt Grum

22

Możesz mieć niewielką przewagę w zakresie dynamiki czujnika w porównaniu z kamerą, ale większość z tego robi różnicę, mając wyrafinowany system automatycznej ekspozycji, sakady , przetwarzanie HDR i system rozpoznawania scen, który utrzymuje się na wielu ekspozycjach . Ludzki mózg jest co najmniej tak samo ważny dla układu wzrokowego, jak oko .

Przedstawiony w scenie o bardzo dużym zakresie dynamicznym, ludzki układ wzrokowy potrzebuje czasu, aby się przystosować. Nie dlatego, że musimy dostosować ustawienie zakresu dynamicznego, ale dlatego, że musimy oddzielnie przeanalizować bardzo jasne i bardzo ciemne części sceny, a następnie skleić ważne części obrazu razem. Okropna część tego, co „widzimy”, zależy od tego, czy już wiemy, co tam jest; możemy użyć bardzo niewielu wskazań prawdziwych szczegółów, aby wypełnić puste pola (a gdy nie mamy wystarczającej ilości prawdziwych informacji, możemy interpolować - ale nie zawsze poprawnie ).

Pozyskanie kamery - dowolnej kamery - do działania na tym poziomie będzie oznaczać zaprojektowanie systemu, który „będzie wiedział”, na co patrzy. Możemy już zrobić „głupią” wersję tego, używając różnych technik HDR (w twoim konkretnym przykładzie, zwykle poprzez proste maskowanie, w którym drzwi byłyby wycięte z ekspozycji w ciemności i wersję z jasnej ekspozycji wstawioną na jej miejsce). Obecny zautomatyzowany proces opiera się całkowicie na jasności (ponieważ nie może analizować znaczenia ani znaczenia) i ma tendencję do tworzenia oczywistych artefaktów. A jeśli kiedykolwiek widziałeś surowy, 32-bitowy obraz HDR, który nie został jeszcze zmapowany (co jest zasadniczo tym, co można uzyskać wyłącznie poprzez zwiększenie zakresu dynamicznego czujnika), prawdopodobnie zauważysz że obraz jest bardzo „płaski” i pozbawiony kontrastu lokalnego i globalnego. Wiedząc, jaka jest scena, możemy wykonać mapowanie, aby zdecydować, gdzie kontrast jest lokalnie ważny. Dopóki aparat nie podejmie takich samych decyzji, nie będzie w stanie wygenerować obrazu, który będzie wyglądał jak mózg.


9

Ma to związek ze sposobem, w jaki mózg interpretuje informacje dostarczane przez oczy (lub mówiąc inaczej, to oprogramowanie, a nie sprzęt).

Widzimy tylko kolor i szczegóły w bardzo wąskim polu w centrum naszej wizji. Aby zbudować szczegółowy kolorowy obraz, jaki postrzegamy, mózg porusza to centralne miejsce bez naszej wiedzy.

Nie jestem neurobiologiem, ale rozumiem, że skoro mózg tworzy szerszy obraz z wielu małych migawek, to również dokonuje pewnej normalizacji jasności, uzyskując obraz, który wszędzie wygląda mniej więcej na taką samą jasność, mimo że niektóre obszary są dużo jaśniejsze w rzeczywistości. Zasadniczo zdolność widzenia ciemnych i jasnych rzeczy w tym samym czasie jest iluzją.

Nie ma powodu, dla którego takie zachowanie nie może być naśladowane przez aparaty cyfrowe, ani nie ma żadnego powodu, dla którego nie moglibyśmy stworzyć czujników zdolnych do znacznie większego zakresu dynamicznego przy pojedynczej ekspozycji. W rzeczywistości Fuji wyprodukował czujnik ze zdjęciami o bardzo niskiej czułości, aby uchwycić dodatkowe szczegóły świateł.

Problem sprowadza się do niemożności wyświetlenia obrazów o wysokim zakresie dynamicznym. Aby wyświetlać takie obrazy na standardowym monitorze o niskim zakresie dynamiki, musisz wykonać specjalne przetwarzanie zwane tonemapping, które ma swój własny zestaw wad. Dla większości konsumentów kamery o wysokim zakresie dynamicznym byłyby po prostu bardziej kłopotliwe.


3

Podsumowanie:

  • Bóg stworzył nasze oczy.

  • Robimy kamery.

  • Nie dogoniliśmy jeszcze Boga.

  • ALE najlepsza dostępna kamera odpowiada wymaganiom, które opisujesz.

  • Istnieją sposoby na osiągnięcie tego, co chcesz. Po prostu postanowiłeś zdefiniować je jako nie to, czego chcesz. To jest twój wybór.

Poziom światła w zaciemnionym pomieszczeniu z oknem otwartym na scenę zewnętrzną może wynosić nawet około 0,1 luksa (0,1 lumenów na metr kwadratowy). Poziom oświetlenia sceny zewnętrznej może wynosić od 10 do tysięcy luksów w opisanej sytuacji.

Przy 100 luksach zewnętrznych i 0,1 luksach wewnętrznych współczynnik wynosi 1000: 1 lub nieco poniżej 10 bitów zakresu dynamicznego. Wiele nowoczesnych aparatów może różnicować różnice tonalne na obu końcach tego zakresu jest ustawione poprawnie. Jeśli poziom światła drzewa nasyca czujnik, masz około 4 bitów poziomu dostępnych w pokoju = 16 poziomów oświetlenia. abyś mógł zobaczyć pewien stopień szczegółowości z najjaśniejszym poziomem Z WYJĄTKIEM, że poziom światła jest tak niski, że oczy miałyby z tym problem.

Jeśli poziom światła drzewa wynosił 1000 luksów (= 1% pełnego światła słonecznego), potrzebujesz około 13 bitów zakresu dynamicznego. Poradzą sobie z tym najlepsze dostępne pełnoklatkowe kamery 35 mm. Korekta kamery musiałaby być natychmiastowa, a ty miałbyś około zerowej informacji tonalnej w pokoju. Ten poziom oświetlenia zewnętrznego jest wyższy niż w sytuacji nocnej z oświetleniem.

Wiele nowoczesnych średnich i najwyższych lustrzanek cyfrowych ma wbudowane przetwarzanie HDR, które umożliwia uzyskanie znacznie większych zakresów dynamicznych dzięki połączeniu wielu obrazów. Nawet zdjęcie HDR z 2 zdjęciami z łatwością pomieści Twoją scenę. Moje Sony A77 oferuje HDR do +/- 6 EV z 3 klatkami. To da ponad 20 bitów zakresu dynamicznego - pozwalając na bardzo odpowiednie zmiany tonalne na górze i na dole w twoim przykładzie.


11
Ewentualnie można powiedzieć, że ewolucja miała pięćset milionów lat
przewagi

4
To dotyk teologiczny ...
Rowland Shaw

2
Nie sądzę, że to odpowiada na pytanie - po prostu mówi „bo oczy są lepsze”. W porządku. Jak oni to osiągają?
mattdm

1
@ naught101 - „catch up” jest raczej delikatnie dopracowanym środkiem :-). Oko samo w sobie jest pod pewnymi względami gorsze od tego, co najlepsze, co potrafimy. Ale nadal zarządza niesamowitymi wyczynami. np. oko przystosowane do ciemności może wykryć pojedynczy foton! Ale to, co sprawia, że ​​życie pretendentów jest strasznie trudne, polega na tym, że oko jest tylko częścią zintegrowanego systemu wielonarządowego - a mózg jak dotąd wymaga pewnego bicia.
Russell McMahon

1
@RowlandShaw - tylko jeśli chcesz, aby tak było. Inni zaproponowali własne tłumaczenie tego poglądu na świat. Takie oświadczenie może być metaforą tego, czym chcesz (Cthulu, FSM, Ever-looshin, ...) lub nie.
Russell McMahon

2

Czy problem dotyczy wyłącznie aparatów cyfrowych, czy jest taki sam w przypadku kamer filmowych?

Żadna z odpowiedzi jeszcze tego nie dotknęła, przynajmniej przynajmniej ... tak, to też jest bardzo problem z filmem. Na przykład słynna kolorowa folia przezroczysta Fuji Velvia ma naprawdę zgniły zakres dynamiki (choć świetny kolor!) Na ogół cierpi na to folia przezroczysta. Z drugiej strony filmy negatywne mogą mieć bardzo dobry zakres dynamiki, prawie tak dobry, jak najlepsze obecne aparaty cyfrowe. Jest on jednak traktowany nieco inaczej - podczas gdy technologia cyfrowa reaguje liniowo na światło, film ma wbudowaną wyraźną krzywą kontrastu „S”. Czarni i prawie czarni oraz biali i prawie biali są skupieni bardziej niż w środkowych tonach.

Należy pamiętać, że ponieważ zdjęcia filmowe zazwyczaj zostaną wydrukowane tuszem na białym papierze, nie ma zbyt dużego limitu zakresu dynamiki, który chciałby uchwycić w pierwszej kolejności! Przechwytywanie, powiedzmy, trzydziestostopniowego zakresu dynamicznego, a następnie wysyłanie go do ... co to jest ballpark DR odbitki fotograficznej? Pięć przystanków? Sześć? ... nośnik wyjściowy wyglądałby ... co najmniej. Podejrzewam, że jest to czynnik bardziej niż jakiekolwiek nie do pokonania przeszkody w chemii, która ma ograniczony zakres dynamiki filmu fotograficznego. Nie chodzi o to, że nie możemy tego zrobić, ale o to, że aktywnie nie chcemy tego robić.


2

Wystarczająco dużo rzeczy do wypełnienia książki - ale jej najprostszy sens polega na tym, że ludzkie oczy widzą jasność logarytmicznie, podczas gdy kamery „widzą” jasność liniowo.

Więc jeśli przyjmiesz warunek, w którym jasność sięga od 1 do 10000 (losowo wybrana liczba), w bazie logarytmicznej 10 ludzkie oko zobaczyłoby jasność jako 0 do 5, podczas gdy kamera, liniowo, widzi ją jako 1 do 10000. Budowanie czujnik, który może objąć tak duży zasięg, jest trudny, ponieważ zakłócenia zakłócają niskie pomiary i przepełnienia zakłócają pomiary wyższej jasności. Powiedziawszy to, uważam, że istnieje kamera RED, która może zarejestrować 18 stopni zakresu dynamicznego - nie jestem pewien, czy jest to tylko prototyp czy model produkcyjny.

Nawiasem mówiąc, różnica logarytmiczna vs. liniowa również powoduje, że jasność podwaja się lub zmniejsza o połowę na różnicę jeden stop.

Ale to wystarczy na temat badań - więc jest to tylko krótki wskaźnik.


Ten logarytmiczny efekt w ludzkim oku spłaszcza zakres dynamiczny, a mózg sobie z tym radzi, ponieważ osiąga taki efekt przez całe życie. Jeśli kamera miałaby również spłaszczyć zakres dynamiczny, wtedy, gdy zobaczysz wynik, dostaniesz podwójne spłaszczenie, a twój mózg jest przyzwyczajony tylko do pojedynczego spłaszczania. Jeśli miałbyś oglądać świat za pomocą urządzenia, które to robiło i kontynuowałeś widok przez kilka dni, przyzwyczaiłeś się do niego jak zwykle. Po usunięciu urządzenia świat wyglądałby surowo i nadmiernie kontrastowo.
Skaperen

@ Skaperen Nie sądzę, że nazwałbym logarytmem spłaszczającym zakres dynamiczny. Jeśli skalujesz jasność logarytmicznie i liniowo w porównaniu obok siebie, logarytmiczne może wydawać się bardziej płaskie, ALE pytanie brzmi, ile widzimy miejsc po przecinku? Technicznie oba obrazy nadal zawierają te same informacje tylko w różnych skalach - a skalowanie nie zmienia zawartych informacji, o ile nie wystąpią błędy zaokrąglania.
DetlevCM,

2

Oko nie rejestruje zakresu dynamicznego. Kompresuje zakres dynamiczny, a następnie „przetwarzanie końcowe” w mózgu tworzy iluzję zakresu dynamicznego. Skompresowany zakres dynamiczny sprawia, że ​​możesz jednocześnie widzieć cienie i oświetlone obszary. „Wzmocnienie”, że tak powiem, jest automatycznie podnoszone w częściach siatkówki, która wykrywa cienie, rozjaśniając je i zmniejszając tam, gdzie siatkówka widzi oświetlone obszary. Mózg wciąż wie, że patrzy w cień, więc stwarza wrażenie, że jest tam ciemno. To rodzaj rozszerzenia skompresowanych danych, że tak powiem, abyś nie wiedział, że zakres dynamiczny został skompresowany.

Czujniki w aparatach cyfrowych mogą łatwo przewyższać siatkówkę w surowym zakresie dynamicznym. Problem polega na tym, że nie kontrolujesz ekspozycji na podstawie obszaru. Aparaty mają ustawienia wzmocnienia (zwykle przedstawiane w terminologii filmowej jako ustawienia ISO), które są globalne.

Można powiedzieć, że to, co robi oko, przypomina używanie jednocześnie „ISO 100” dla jasnego obszaru i „ISO 800” dla ciemnego obszaru jednocześnie.

Gdyby kamera mogła regulować wzmocnienie dla określonych obszarów pikseli na podstawie jasności, byłoby to niewątpliwie przydatne, ale wiemy z zastosowania takich efektów wyrównywania wzmocnienia w przetwarzaniu końcowym, że mózg tak naprawdę nie jest oszukiwany. Nie wygląda naturalnie. Wygląda naturalnie tylko wtedy, gdy twoje oko robi to w koordynacji z własnym mózgiem.


2

Jest to interesujące pytanie, jeśli dajesz mu szansę zamiast przedstawiać oczywiste powody, dla których aparaty są już tak wykonane.

Rozważmy najbliższą opcję. Mapowanie tonów to metoda, w której filtr dolnoprzepustowy jest stosowany do wartości wykładniczych obrazu RGBe. Odgrywa to dużą rolę w tym, jak coś widzą oczy. Ale zastanówmy się, że nasze oczy przyjmują długie obrazy. Działają one bardziej jak kamery wideo niż aparaty fotograficzne.

Mapowanie tonów można by znacznie poprawić, gdyby zostało zbudowane jak moduł cieniujący GLSL działający w czasie rzeczywistym ze specjalną kamerą wideo, która może przechwytywać ciągły strumień obrazów HDR.

W znacznie bardziej uproszczonym przykładzie zdjęcia „HDR” w iPhonie to kompozycje obrazu o niskiej i wysokiej ekspozycji przepchniętego przez proces mapowania tonów, który działa całkiem dobrze, jeśli go nie wypróbowałeś. Wiele innych aparatów konsumenckich robi podobne rzeczy.

Jest też fascynujący temat, w jaki sposób intuicja / intencja / wolna wola odgrywają rolę w kalibrowaniu twoich oczu wraz z upływem czasu. Jeśli patrzysz na ciemną ścianę i myślisz o zwróceniu głowy w stronę jasno oświetlonego okna, twój mózg może powiedzieć twoim oczom, aby poszły naprzód i zaczęły zamykać źrenice. Aparat z automatyczną ekspozycją może zrobić to samo, ale tylko wtedy, gdy wpadnie za dużo światła. Ludzie pracujący w kinie spędzają dużo czasu na płynnym ustawianiu czasu ustawień kamer filmowych, dzięki czemu czują się naturalnie w skomplikowanym ujęciu (lub oświetlenie sceny w taki sposób, że ustawienia kamer nie muszą tak naprawdę być dostosowywane) Ale znowu, jedynym powodem tego rodzaju rzeczy jest to, że reżyser wie, co się stanie z kamerą, zanim to nastąpi.


0

Największym problemem byłoby odtworzenie przechwyconego obrazu.

Nie jest poza technologią stworzenie czujnika obrazu i konfiguracji, która uchwyciłaby niezwykle szeroki zakres poziomów jasności na jednym obrazie. W końcu to tylko kwestia zliczania fotonów, która jest technologią, która skaluje się do niezbędnych poziomów. Obecne aparaty wykorzystują przede wszystkim ustawienia ekspozycji do modulowania jasności, jaką widzi czujnik, chociaż więcej pracy można by wykonać w czujniku, co może być przyczyną większego szumu błędu, ale z pewnością możesz uzyskać większy zasięg poza matrycą fotograficzną niż co jest obecnie dostępne na rynku.

Ale problem jest taki: skoro masz ten obraz, co masz zrobić z tym? Nawet wysokiej klasy wyświetlacze nadal używają kolorów 24-bitowych, co oznacza, że ​​dozwolone są tylko 256 odcieni na kanał koloru. Obecne drukarki są podobnie ograniczone, jeśli nie bardziej. Tak więc nic nie można zrobić z takim obrazem bez pewnego przetworzenia, aby zredukować zasięg do tego, co produkują istniejące kamery.

Prawdopodobnie już widziałeś ten problem: większość obecnych formatów RAW ma już szerszy zakres, niż można go odtworzyć, a zakres kolorów musi już zostać skompresowany lub przycięty, zanim będzie można zobaczyć zdjęcie. Dodanie jeszcze większego zakresu do wyjścia RAW byłoby po prostu tym samym. Aparat byłby prawdopodobnie znacznie droższy, ale zdjęcia nie byłyby znacznie lepsze, ponieważ nadal musisz przyciąć zakres do 24-bitowych kolorów, zanim będziesz mógł na niego spojrzeć.

Mimo to, być może dzięki odpowiedniemu oprogramowaniu i odpowiedniemu użytkownikowi, możesz uzyskać z niego coś wspaniałego. Prawdopodobnie nie byłoby to bardzo podobne do obecnej fotografii HDR, ale nie musiałbyś robić wielu zdjęć.


2
Problemem nie są bity na kolor - określa liczbę wyraźnych odcieni, ale nie mówi nic o ogólnym zakresie.
mattdm

@mattdm true; ale ogólny zasięg jest funkcją urządzenia wyjściowego niezależnego od samych danych obrazu. Współczynnik jasności i kontrastu na moim wyświetlaczu są funkcją i są znane tylko mojemu wyświetlaczowi i nie ma na nie wpływu aparat, którego użyłem do zrobienia zdjęcia. I znowu, urządzenia wyjściowe są czynnikiem ograniczającym, a nie kamery. Jednak ilość bitów na kolor ma wpływ na zakres w tym sensie, że zwiększenie zasięgu bez zwiększania liczby poziomów w zakresie daje po prostu jaśniejszy / ciemniejszy obraz, nie pozwalając zobaczyć nic więcej w środku.
tylerl
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.