Pokaż innym, jak się słyszę

Sooo .. Myślałem o tym. Wszyscy wiemy, że brzmi inaczej niż to, co słyszymy z własnego głosu. Łatwo jest dowiedzieć się, jak inni nas słyszą, nagrywając się i słuchając.

Ale co na odwrót?

Czy istnieje sposób na przekształcenie naszego głosu w taki sposób, aby inni mogli nas usłyszeć, gdy postrzegamy własny głos? Uważam to za dość interesujące pytanie. Niestety nie udało mi się znaleźć niczego w Internecie po kilku wyszukiwaniach w Google. Czy nikt o tym nie myślał, czy jest to niemożliwe z jakiegoś powodu, którego nie widzę?

Wszelkie uwagi w tym zakresie będą mile widziane :).

signal-analysis audio transform

— Dunkingdev
źródło

Możesz uprościć problem: Nagraj swoją mowę, która słuchana przez słuchawki będzie brzmiała tak samo, jak twoja mowa, gdy mówisz w komorze bezechowej. Nie jestem pewien, jak to zrobić.

— Olli Niemitalo,

Chciałem tylko dokładnie to zaproponować. Czy jednak naprawdę konieczne jest wykluczenie wpływu pokoju? Kierunkowość Twojego głosu jako źródła dźwięku jest z pewnością czynnikiem, ale myślę, że ta metoda prawdopodobnie zadziała całkiem dobrze, jeśli nagranie zostanie wykonane w tym samym miejscu, w którym ma miejsce „procedura dostosowania”.

— Zupa jabłkowa

Odpowiedzi:

Nie jest to niemożliwe, ale nie będzie to także spacer po parku.

To, co chcielibyście zrobić, to dodać do sygnału głosowego wibracje, które są dostarczane do ucha przez kości i nie są dostępne dla nikogo innego.

Ale łatwiej to powiedzieć niż zrobić w dokładny sposób.

Propagacja dźwięku przez medium zależy w dużej mierze od jego gęstości . Dźwięk płynie z prędkością ~ 1500 m / s w wodzie i z mniejszym rozpraszaniem niż w powietrzu (~ 340 m / s). Kość jest gęstsza niż powietrze, dlatego dźwięk powinien przemieszczać się szybciej przez kość. Oznacza to, że „twój” dźwięk zaczyna najpierw wzbudzać uszy, a następnie dźwięk odbierany przez „normalny” kanał powietrzny. W rzeczywistości kość ma wewnętrzną strukturę, która może wpływać na sposób, w jaki przechodzą przez nią różne częstotliwości, ale w zakresie częstotliwości, o którym mówimy, być może możemy uznać ją za równoważne ciało stałe. Można to jedynie przybliżyć, ponieważ każda próba pomiaru musiałaby być inwazyjna, ale także dlatego, że słuch jest subiektywny.

Słuch lub percepcja dźwięku są tutaj OGROMNYMI przyczynkami trudności. Samo ucho, ucho zewnętrzne (widoczny bit), kanał i mechanizm wewnętrzny współpracują ze sobą w bardzo skomplikowany sposób. To jest przedmiot psychoakustyki . Jednym z przykładów tego złożonego przetwarzania są dźwięki fantomowe, w których mózg wypełnia rzeczy, które powinny tam być. Sam mózg mógł już opracować sposoby izolowania generowanego przez siebie sygnału, które są dla nas jeszcze niedostępne.

Ale uproszczony ( uproszczony! ) Sposób na zauważenie różnic między byciem słuchaczem własnego dźwięku, a nie jest następujący:

Nagraj krótkie i proste słowo (np. „Fishbone”), które ma zarówno niskie częstotliwości (b, o, n), jak i wysokie częstotliwości (F, sh, i, e)) z odrobiną ciszy i zapętl je przez korektor dźwięku przez słuchawki. Rozpocznij odtwarzanie i zsynchronizuj samo wypowiadanie słowa z nagraniem (więc coś w stylu „Fishbone ... Fishbone ... Fishbone ...”). Teraz spróbuj bawić się korektorem, dopóki to, co usłyszysz i wypowiesz, będzie dość podobne.

W tym momencie ustawienia korektora reprezentowałyby różnice między dźwiękiem a tym, co jest postrzegane przez ciebie, i teoretycznie każda inna mowa przechodząca przez ten korektor symulowałaby sposób, w jaki dociera do twoich uszu, tak jakbyś wygenerował go za pomocą źródło w twoim ciele.

Mam nadzieję że to pomoże.

— A_A
źródło

jest to prawdopodobnie niemożliwe ze względu na indywidualne różnice w postrzeganiu i niemożność kwantyfikacji tej subiektywności. Różnice mogą być jednak niewielkie, tak jak w przypadku każdej wyprodukowanej nakrętki 1000uF jest nieco inna ...

— Fat32

@ Fat32 Nie mogłem zdecydować o niemożliwości, ponieważ technicznie możliwe byłoby ilościowe określenie / zmierzenie wkładu drugiego kanału, który jest ustalany przez kości i przy rozsądnych założeniach daje pewne przybliżenie. Podobnie jak w przypadku stanu zdrowia, który jest całkowicie odmienny z perspektywy „pacjenta”. To byłoby lepsze przybliżenie niż tylko EQ. Ale w punkcie odbioru tak, w tej chwili nie można sugerować ostatecznego „filtra”, który przekształciłby klip dźwiękowy zgodnie z żądaniem.

— A_A,

ponownie powiedziane w inny sposób: biorąc pod uwagę ten sam dokładny bodziec fizyczny powstaje w ślimakach dwóch różnych osobników, oni (prawdopodobnie) usłyszą dwie różne percepcje, a to, co faktycznie słyszą (afaik), jest doświadczeniem własnym, zamkniętym na wszelkie zewnętrzne zapytania jakiegokolwiek rodzaju, jeszcze matematycznego ... Mówiąc to, ludzie mogą komunikować się akustycznie, co wynika z dyskretnej natury języka.

— Fat32

Wielkie dzięki! Było to bardzo pouczające i pomocne, a jednocześnie bardzo rozczarowujące xD. Bałem się, że każda ludzka struktura kości zmienia dźwięk w inny sposób ... ale nie myślałem o samym uchu jako o innym zaburzeniu. Cóż, przynajmniej MOGĄ istnieć dla każdego człowieka pewna funkcja, która odpowiednio tłumaczy dźwięk ~.

— Dunkingdev,

@KevinFiegenbaum Dziękujemy za poinformowanie mnie. Percepcja jest źródłem wielu myśli. Mózg sprzęga się z rzeczywistością za pomocą zmysłów i tworzy i potwierdza (lub odrzuca) modele tego, co prawdopodobnie się dzieje. Złudzenia optyczne to przypadki, w których dwa „domysły” (modele) pasują do tego samego wyjaśnienia, a mózg nie może się zdecydować, więc przełącza się między nimi. Wszystkie zmysły docierają do mózgu już zakodowanego i niezwykle trudno jest naprawdę wiedzieć, jak są odczuwane przez jednostkę. Najlepsze, co możemy zrobić, to rozsądne domysły. Wszystkiego najlepszego.

— A_A,

Najbardziej praktyczną próbą, o której wiem, jest Won i Berger (2005) . Jednocześnie nagrywali wokalizacje na ustach za pomocą mikrofonu i na czaszce za pomocą domowego wibrometru. Następnie oszacowali odpowiednie funkcje przenoszenia z liniowym kodowaniem predykcyjnym i wygładzeniem cepstralnym.

— StrongBad
źródło

Zanim się rozczarujesz, pozwól mi zaproponować inne podejście.

Widzę, że masz dwie bardzo różne części: znajomość korekcji do zrobienia (spersonalizowane dla każdej osoby) i zastosowanie jej do określonego sygnału (twojego głosu).

Pierwsza część: model wewnętrznego ludzkiego aparatu słuchowego

Są profesjonaliści, którzy pracują nad zbieraniem danych na ten temat, standaryzacją tego procesu i tak dalej. Afaik, staramy się opracować miary i wykresy wykraczające poza klasyczny audiogram (który mierzy sygnały powietrza i kości). Niektóre z nich to „testy słuchowe” (bardziej subiektywne, ale również interesujące).

Dopasuj się do tych specjalistów. Jeśli śledzisz ich pracę, potrzebujesz tylko ich wyników. Pozwól im wykonywać ciężkie podnoszenie. Znają swoją rolę, co zajęło im kilkadziesiąt lat śledztwa. Postępują w wiedzy, której potrzebujesz. To jest: rodzaj audiogramu do pomiaru, jak ktoś słyszy „w sobie”. Założę się, że to przedstawiają. Potrzebujesz tylko tego wykresu.

2. część: symulacja

Zrobiłem coś podobnego do tego, co próbujesz zrobić. Z audiogramu dowolnej osoby możesz słyszeć jak ona sama. Odbywa się to za pomocą ffmpeg. Możesz to sprawdzić tutaj: comomeoyes.com

Zasadniczo nagrywasz swój głos, a algorytm wyrównuje go do spersonalizowanego audiogramu. W ten sposób możesz wprowadzić audiogram osoby z ubytkiem słuchu i słuchać samemu, jak on / ona słyszy.

Rozumiem, że chciałbyś zrobić to samo, ale z innym audiogramem, który modeluje, w jaki sposób wewnętrzny aparat słuchowy wyrównuje dźwięk.

Założę się, że taki audiogram mógłby już istnieć, a audiolodzy, lekarze, lekarze otorynolaryngologii, badacze i tacy mogą dyskutować o rodzajach testów akustycznych, które należy wykonać, aby uzyskać dane potrzebne do modelowania przydatnego wykresu z pomiarów.

Powodzenia. Twoja próba może pomóc innym.

— Giuseppe
źródło