Biorąc pod uwagę pewne zdarzenie w grze, jakie jest maksymalne opóźnienie w wytwarzaniu dźwięku, aby odtwarzacz prawidłowo powiązał dźwięk z tym wydarzeniem (i nie dostrzega opóźnienia)?
Biorąc pod uwagę pewne zdarzenie w grze, jakie jest maksymalne opóźnienie w wytwarzaniu dźwięku, aby odtwarzacz prawidłowo powiązał dźwięk z tym wydarzeniem (i nie dostrzega opóźnienia)?
Odpowiedzi:
Poniższy wynik obliczono dla synchronizacji warg, która jest uważana za „najbardziej zauważalny błąd synchronizacji audio-wideo ” .
Wikipedia mówi
W przypadku aplikacji telewizyjnych dźwięk powinien prowadzić wideo o nie więcej niż 15 milisekund, a dźwięk powinien opóźniać wideo o nie więcej niż 45 milisekund. W przypadku filmu za akceptowalną synchronizację warg uważa się nie więcej niż 22 milisekundy w dowolnym kierunku.
Laboratorium Mediów i Acoustics skrócie mówi
Wyniki eksperymentu wykazały, że średni próg wiodący audio dla detekcji synchronizacji audio / wideo wynosił 185,19 ms, przy standardowym odchyleniu 42,32 ms
ATSC mówi
Na pierwszy rzut oka wydaje się luźny: +90 ms do -185 ms jako „Okno akceptacji”
i
- Niewykrywalny od -100 ms do +25 ms
- Wykrywalny przy -125 ms i +45 ms
- Staje się nie do przyjęcia przy -185 ms i +90 ms
(- Dźwięk opóźniony, + Dźwięk zaawansowany)
Podsumowując
Wyniki nie są tak odległe od siebie. Wydaje się, że maksymalne dopuszczalne opóźnienie wynosi około 150 ms, czyli 9 klatek przy 60 klatkach na sekundę.
Poczucie, że powiedzmy, że eksplozja, którą widzisz i słyszysz, jest pojedynczym zdarzeniem, będzie miała tolerancje opisane w innych odpowiedziach - nie więcej niż ~ 50 ms; niektórzy ludzie mogą być bardziej wrażliwi (np. muzycy), dlatego sugeruję celowanie w 30ms lub nie więcej niż 2 klatki w 60fps.
Uważam, że postrzegana odległość powinna wpływać na te tolerancje. Ludzie oczekują, że odległe dźwięki będą nieco opóźnione, ponieważ w rzeczywistości dźwięk opóźnia się o około 1 ms na każdą stopę odległości. Eksplozja na zmniejszonej „mapie” gry RTS może mieć większą tolerancję na opóźnienie dźwięku niż gracz strzelający z własnej broni w FPS.
Specjalistyczne przypadki, takie jak właściwe wyczucie gry muzycznej / rytmicznej, mogą wymagać znacznie ostrzejszych tolerancji, 15-20 ms lub nawet niższych - na przykład, jeśli gracz słyszy zarówno „akcję wejściową”, jak śpiewanie do mikrofonu lub uderzanie plastikowy instrument, a także dźwięk generowany przez system dla tego samego zdarzenia, wówczas opóźnienie 50 ms spowoduje dziwne miksowanie dźwięków „oryginalnych” i „odtwarzanych”.
Ponadto pamiętaj o opóźnieniu między początkiem pliku audio a „zdarzeniem” w tym pliku audio - w wielu klipach audio „zdarzenie” nie będzie na krawędzi, możesz usłyszeć odgłos błyskawicy uderzenie tam, gdzie „uderzenie” ma miejsce po 200 ms od początku, co byłoby oczywiste dla wszystkich, i prawie wszystkie pliki dźwiękowe, nawet uderzenie w bęben, będą miały pewne opóźnienie.
Wzrok i słuch są głęboko związane z ludzką percepcją i jeśli jedno z nich jąka się w stosunku do drugiego, będzie to zauważalne. Nie jest w porządku, jeśli przez większość czasu jest bardzo szybki, ale czasami występuje opóźnienie o 0,2 sekundy, gdy coś się ładuje - ludzie zauważą takie sytuacje. To dlatego dźwięk często jest odtwarzany w osobnym wątku, odizolowany od innych działań i po prostu otrzymuje szybkie powiadomienia o tym, które wstępnie załadowane klipy powinny być odtwarzane.
Każda sytuacja, w której odtwarzacz powoduje dźwięk (gry muzyczne, pistolety w FPS), będzie wymagała bardzo małego opóźnienia, ponieważ gracz wysłał impuls, aby to zrobić w tym momencie, tak jak w przypadku muzyka słyszącego opóźnienie instrumentu, będzie szczególnie świadomy bardzo małych opóźnień. Inżynierowie dźwięku martwią się opóźnieniami nagrywania poniżej 5 mS rujnują „groove”
Journal of American Academy of Audiology stwierdza, że ludzie (nie tylko muzycy), gdy słuchają własnego głosu z opóźnieniem, są świadomi opóźnień tak krótkich jak 3mSec, a opóźnienie dłuższe niż 10 mSec budziło zastrzeżenia przez 90% czasu.
Ludzie wykorzystują opóźnienie czasowe między uszami do uzyskania informacji kierunkowych, dlatego muszą być w stanie przetwarzać i wyodrębniać informacje z opóźnień poniżej 1 m
Cytowane powyżej 185,19 ms jest nieistotne, ponieważ odnosi się do wiodącego błędu dźwięku, a w każdym razie do tego, co ludzie uznali za akceptowalne, gdy biernie oglądają film, a nie aktywnie uczestniczą w grze.
Przyjęta tutaj odpowiedź dotyczy głównie percepcji synchronizacji dźwięku podczas biernego oglądania wideo. W takich przypadkach publiczność nie może łatwo określić dokładnie, kiedy dźwięk powinien być odtwarzany, chyba że uczestniczy w znakach ostrzegawczych w filmie. Oznacza to, że mają ograniczone oczekiwania na dźwięk.
Istnieją dwa ważne przypadki w grach, w których to założenie o niskim oczekiwaniu nie obowiązuje:
Kiedy sam odtwarzacz spowodował dźwięk (jak wskazuje SamB), więc od momentu, gdy zamierzają nacisnąć przycisk, wiedzą dokładnie, kiedy spodziewają się usłyszeć dźwięk.
Kiedy dźwięk ma wylądować na okresowym takcie , jak w grach muzycznych lub cokolwiek z tykającym timerem / licznikiem, ten rytm pozwala graczowi przewidzieć następny dźwięk i zauważyć, że gra się po czasie.
W tym wykładzie z GDC 2013 Mathieu Pavageau argumentuje, że gracze mogą dostrzec różnice w precyzji synchronizacji powyżej około 5 ms , o wiele mniej wybaczające niż sugerowałyby to przykłady z synchronizacji warg. Sprawdź sekcje „Przykłady postrzegania czasu” i „Przykład gier Ubisoft”, aby usłyszeć to na własne oczy. Możesz usłyszeć, że menu Rayman Origins nie brzmi „opóźnione” per se po zsynchronizowaniu w ciągu 16 ms (klatka wideo), ale po zsynchronizowaniu w ciągu 5 ms brzmi zauważalnie lepiej i mocniej.
Pavageau opowiada się za wykorzystaniem zwrotnego dźwięku niskiego poziomu, aby uzyskać tego rodzaju precyzję klatek podrzędnych, jeśli chcesz mieć mocno rytmiczną rozgrywkę tej odmiany.
W przypadku gier, które wymagają od osoby reagowania na sygnały dźwiękowe, każda milisekunda, w której dźwięk jest opóźniany, spowoduje również opóźnienie reakcji osoby. Ktoś, kto po prostu ogląda film lub przerywnik filmowy, może nie zauważyć zbyt wiele, jeśli audio i wideo nie są dokładnie zsynchronizowane, ale często jest ważne, a czasem bardzo ważne, aby audio było zsynchronizowane z tym, co powinien robić odtwarzacz .
Teoretycznie wszystko powyżej 50 ms może być zauważalne, jeśli chodzi o skojarzenie ze zdjęciami, w 25 ms możesz zacząć słyszeć dźwięk i jego opóźnienie jako dwa oddzielne dźwięki, więc powiedziałbym, że zdecydowanie zalecam pozostanie poniżej 50 ms, a jeśli może nawet pozostać na poziomie od 5 do 15 ms, byłoby naprawdę miło.
Mam nadzieję, że to Ci pomoże!