W niektórych miejscach czytałem, że muzyka jest próbkowana z częstotliwością 44,1 kHz, podczas gdy słyszymy tylko do 20 kHz. Dlaczego tak jest
W niektórych miejscach czytałem, że muzyka jest próbkowana z częstotliwością 44,1 kHz, podczas gdy słyszymy tylko do 20 kHz. Dlaczego tak jest
Odpowiedzi:
Należy pamiętać, że uzasadnienie opublikowano w wielu miejscach: Wikipedia: Dlaczego 44,1 kHz?
44,100 zostało wybrane przez Sony, ponieważ jest to iloczyn kwadratów pierwszych czterech liczb pierwszych. Dzięki temu można ją podzielić przez wiele innych liczb całkowitych , co jest przydatną właściwością w próbkowaniu cyfrowym.
44100 = 2^2 * 3^2 * 5^2 * 7^2
Jak zauważyłeś, 44100 jest również ponad dwukrotnie większy niż ludzki słuch. Tuż nad częścią filtrów daje pewną swobodę, dlatego czyni je mniej kosztowne (mniej chipy odrzucone).
Jak zauważa Russell w komentarzach, podzielny przez wiele innych liczb całkowitych miał natychmiastową korzyść w momencie wyboru częstotliwości próbkowania. Wczesne cyfrowe audio zostało nagrane na istniejących analogowych nośnikach zapisu wideo, które obsługiwały, w zależności od regionu, specyfikację wideo NTSC lub PAL . NTSC i PAL miały różne szybkości linii na pole i pól na sekundę, których LCM (wraz z próbkami na linię) wynosi 44100 .
Szybkość Nyquista przekracza dwukrotność limitu pasma sygnału pasma podstawowego, który chcesz przechwycić bez dwuznaczności (np. Aliasing).
Próbkuj z częstotliwością niższą niż dwa razy 20 kHz, a nie będziesz w stanie odróżnić bardzo wysokich i bardzo niskich częstotliwości po prostu patrząc na próbki, ze względu na aliasing.
Dodano: Należy pamiętać, że każdy sygnał o skończonej długości ma nieskończoną obsługę w dziedzinie częstotliwości, dlatego nie jest ściśle ograniczony pasmem. Jest to kolejny powód, dla którego próbkowanie dowolnego nieskończonego źródła dźwięku nieco powyżej dwukrotnie widma najwyższej częstotliwości (w sygnale pasma podstawowego) jest wymagane, aby uniknąć znacznego aliasingu (poza tylko przyczynami skończonego przejścia filtra).
Zasadniczo podwojenie szerokości pasma jest powszechnym wymogiem przy próbkowaniu sygnału, dlatego kHz to minimum. Następnie nieco więcej jest przydatne, aby poradzić sobie z niedoskonałym filtrowaniem i kwantyzacją . Szczegóły poniżej.
Teoretycznie nie potrzebujesz tego, co jest wymagane w praktyce. Jest to zgodne z cytatem (przypisywanym wielu):
Teoretycznie nie ma różnicy między teorią a praktyką. W praktyce jest.
Nie jestem ekspertem od dźwięku, ale zostałem przeszkolony przez osoby próbujące / kompresujące dźwięk wysokiej jakości. Moja wiedza może być zardzewiała, weź ją ostrożnie.
Po pierwsze, standardowa teoria próbkowania działa pod pewnymi założeniami: układami liniowymi i niezmiennością czasową. Następnie znane jest zjawisko ciągłego ograniczania pasma, które teoretycznie może być próbkowane przy około dwukrotnej szerokości pasma (lub dwukrotności maksymalnej częstotliwości dla sygnałów pasma podstawowego) bez strat. „Wskaźnik Nyquista” jest często definiowany jako:
minimalny poziom, przy którym sygnał może być próbkowany bez wprowadzania błędów
Jest to część analityczna „twierdzenia o próbkowaniu”. „Może być” jest ważne. Istnieje część syntezy: ciągły sygnał „ można zrekonstruować” analogicznie za pomocą sinusów kardynalnych. Nie jest to jedyna technika i nie uwzględnia wstępnego filtrowania dolnoprzepustowego, nieliniowego (takiego jak kwantyzacja, nasycenie) i innych czynników wariacyjnych.
Ludzki słuch nie jest prostym tematem. Przyjmuje się, że ludzie słyszą częstotliwości od 20 Hz do 20 000 Hz. Ale takie dokładne granice w Hertz nie są cechą natury dla wszystkich ludzi. Stopniowa utrata wrażliwości na wyższe częstotliwości jest częsta z wiekiem. Z drugiej strony:
W idealnych warunkach laboratoryjnych ludzie słyszą dźwięk o częstotliwości tak niskiej jak 12 Hz i tak wysokiej jak 28 kHz, chociaż próg gwałtownie wzrasta przy 15 kHz u dorosłych
Słuch nie jest liniowy: istnieją progi przesłuchania i cierpienia . Nie jest niezmienny w czasie. Istnieją efekty maskowania zarówno w czasie, jak i częstotliwości.
Jeśli pasmo od 20 Hz do 20 000 Hz jest powszechnym zakresem, a 40 000 Hz teoretycznie powinno wystarczyć, trochę więcej potrzeba, aby poradzić sobie z dodatkowymi zniekształceniami. Ogólna zasada mówi, że 10% więcej jest w porządku ( -krotność pasma sygnału) i 44 100 Hz to robi. Wraca do późnych lat siedemdziesiątych. Dlaczego nie używa się 44 000 Hz? Głównie ze względu na standardy wyznaczane przez popularność płyt CD, których technologia jak zwykle opiera się na kompromisie. Ponadto 44,100 to iloczyn kwadratów pierwszych czterech liczb pierwszych ( ), stąd ma małe czynniki, korzystne dla obliczeń (jak FFT).
Tak więc od do (i wielokrotności) mamy równowagę w zakresie bezpieczeństwa, kwantyzacji, użyteczności, obliczeń i standardów.
Istnieją inne opcje: na przykład format DAT został wydany z próbkowaniem 48 kHz, z początkowo trudną konwersją. 96 kHz jest omówione w odniesieniu do kwantyzacji (lub głębokości bitów) w Jakiej częstotliwości próbkowania i głębokości bitów należy użyć? Jest to temat kontrowersyjny, patrz wersety 24-bitowe 48 kHz 24-bitowe 96 kHz . Możesz na przykład sprawdzić częstotliwość próbkowania Audacity .
Odpowiedź na pytanie, dlaczego wynosi dokładnie 44,1 kHz, została już wyjaśniona - ale aby skupić się na aspekcie pytania związanego z ograniczeniem ludzkiej percepcji, powód jest dość prosty.
Rozdzielczość w czasie musi być wystarczająca, aby móc wygenerować wszystkie możliwe kształty fali do wyczuwalnego limitu. Zgodnie z twierdzeniem o próbkowaniu rozdzielczość musi być taka, aby częstotliwość próbkowania była co najmniej dwa razy większa od tej częstotliwości. Intuicyjnie, przy najwyższej częstotliwości, potrzebujesz co najmniej 2 punktów, aby reprezentować maksimum i minimum twojego sygnału - dając tę falę prostokątną Ascii-art:
_ _
|_| |_
Aby wiernie odtworzyć sygnał, im wyższa częstotliwość próbkowania, tym lepiej. Wybrano ~ 40 kHz, ponieważ była to niska częstotliwość próbkowania, dla której większość ludzi nie jest w stanie odróżnić (po rekonstrukcji). Po wprowadzeniu próbkowania audio pamięć i pamięć były drogie, a wyższe częstotliwości próbkowania nie były tanie.
Przy dwukrotnej górnej granicy ludzkiego słuchu dwie próbki na cykl są bardzo słabą rekonstrukcją, nawet jeśli spełniają kryteria Nyquista dla sygnałów próbkowania, prosty wykres przedstawiający falę sinusoidalną z dwiema próbkami na cykl pokaże, jak słabe są dwie próbki na cykl w odtwarzaniu kształtu fali. Możesz dosłownie zamienić sinusoidę w falę kwadratową; to dobrze, że przy 20 kHz nikt nie może powiedzieć. Założę się, że pies może.