Technika binauralna jest jednym z podejść, które pozwala na odtworzenie sceny akustycznej w trzech wymiarach. Opiera się na modelowaniu obuusznego odbioru dźwięku i jest wykorzystywana głównie w słuchawkach. W ostatnich latach termin „dźwięk binauralny” stale zyskuje popularność w zastosowaniach wymagających audio wysokiej jakości, od gier wideo i wirtualnej rzeczywistości, przez aplikacje do medytacji, po profesjonalne narzędzia do obróbki muzyki. Rosnące zainteresowanie tą techniką wynika z jej skuteczności w odtwarzaniu przestrzennego charakteru dźwięku w sposób zbliżony do naturalnego odbioru słuchowego człowieka.
Dźwięk binauralny to metoda rejestracji lub syntezy dźwięku uwzględniająca sposób, w jaki sygnał akustyczny dociera do obojga uszu, podlegając filtracji przez głowę, małżowiny uszne oraz tułów słuchacza. W przeciwieństwie do klasycznego stereo, technika ta nie ogranicza się do separowania kanałów lewego i prawego, lecz zachowuje także subtelne różnice czasowe, różnice poziomów oraz zmiany w widmie, kluczowe dla mechanizmów lokalizacji źródeł dźwięku. Efekt ten uzyskuje się zarówno przez nagrania wykonywane z użyciem sztucznej głowy wyposażonej w mikrofony, jak i przez cyfrowe modelowanie w oparciu o tzw. funkcję przenoszenia głowy (Head-Related Transfer Function, HRTF).
Dźwięk binauralny
Odtwarzany za pomocą słuchawek dźwięk binauralny pozwala na realistyczne odwzorowanie sceny akustycznej, w której źródła dźwięku mogą być postrzegane jako znajdujące się przed, za, ponad lub wokół słuchacza. Wynika to z wykorzystania naturalnych mechanizmów słyszenia przestrzennego, jak międzyuszne różnice czasowe (Interaural Time Difference, ITD), różnice poziomów sygnału (Interaural Level Difference, ILD) i filtracja akustyczna wynikająca z cech morfologicznych ucha. W tym przypadku słuchawki stanowią podstawowe medium odsłuchowe, gdyż eliminują przesłuch międzykanałowy, który przy odsłuchu z głośnika osłabia efekt przestrzenności. Wprawdzie istnieją rozwiązania umożliwiające reprodukcję binauralną również przez głośniki, wymagają jednak wysoce precyzyjnej kalibracji i kontrolowanych warunków odsłuchowych.
Dźwięk binauralny nie jest nowością – pierwsze próby obuusznego odbioru transmisji operowych podejmowano już pod koniec XIX wieku. Współcześnie jednak postęp w dziedzinie technologii cyfrowych znacząco rozszerzył możliwości w tym zakresie, pozwalając na tworzenie realistycznych efektów binauralnych bez konieczności fizycznej rejestracji dźwięków. To otworzyło drogę do ich szerszego zastosowania.
Obecnie dźwięk binauralny jest wykorzystywany m.in. w mediach społecznościowych, na przykład w ASMR (Autonomous Sensory Meridian Response), czyli specjalnych nagraniach odprężających, w przypadku których możliwość lokalizacji źródeł dźwięków potęguje wrażenia relaksacyjne. Poza tym w grach i wirtualnej rzeczywistości zwiększa realizm oraz orientację przestrzenną, natomiast w aplikacjach terapeutycznych i medytacyjnych wspiera koncentrację oraz poczucie obecności. Coraz częściej sięgają po niego także twórcy muzyki, traktując binauralność jako narzędzie do tworzenia immersyjnych środowisk odsłuchowych.
Technika binauralna jest dynamicznie rozwijającą się dziedziną, łączącą wiedzę z zakresu akustyki, psychoakustyki i przetwarzania sygnałów. W miarę jak zwiększa się znaczenie mediów cyfrowych, możliwość wiarygodnego odtwarzania w nich naturalnych wrażeń słuchowych staje się kluczowa. Niezależnie od zastosowania technika binauralna pozwala w bardziej intuicyjny sposób, bliższy rzeczywistym doświadczeniom, obcować z zarejestrowanymi dźwiękami.
Realizacja dźwięku binauralnego opiera się na modelowaniu sposobu, w jaki fala akustyczna jest filtrowana przez ciało słuchacza, co odwzorowuje funkcja HRTF. W bardziej zaawansowanych zastosowaniach uwzględnia się również akustykę pomieszczenia.
HRTF i BRIR
Odbiór przestrzenny dźwięku jest subiektywny, bo zależy od indywidualnych cech anatomicznych, przede wszystkim narządu słuchu, ale i innych części ciała. Wynika to stąd, że budowa małżowiny usznej, jak również głowy i tułowia, mają wpływ na charakterystykę fali akustycznej, która dociera do przewodu słuchowego, na podstawie zmian której układ słuchowy wnioskuje, skąd dochodzi dźwięk. W konsekwencji każdy człowiek jest w unikalny sposób dostrojony do odbioru dźwięków w swoim otoczenia. Brak odwzorowania jego indywidualnych cech morfologicznych i relacji pomiędzy nimi w urządzeniu audio zmniejsza realizm wrażeń słuchowych u odbiorcy. Dlatego podstawę realizacji dźwięku przestrzennego stanowi funkcja przenoszenia głowy.
HRTF jest zależną od kierunku funkcją przenoszenia, opisującą, jak sygnał akustyczny emitowany przez źródło w polu swobodnym (idealnym, jednorodnym, izotropowym ośrodku, takim jak otwarta przestrzeń, w którym fale dźwiękowe rozchodzą się swobodnie, bez odbić od granic lub przeszkód) jest przekazywany do przewodu słuchowego odbiorcy. W dziedzinie czasu funkcji przenoszenia głowy odpowiada odpowiedź impulsowa HRIR (Head-Related Impulse Responses). Wynikiem splotu sygnału mono z odpowiedziami impulsowymi HRIR lewego i prawego ucha jest właśnie sygnał binauralny, który przy odsłuchu na słuchawkach umożliwia percepcję źródła dźwięku jako zlokalizowanego w konkretnym punkcie trójwymiarowej przestrzeni odsłuchowej.
Funkcje HRTF mogą być ponadto łączone z odpowiedziami impulsowymi pomieszczeń RIR (Room Impulse Responses), co pozwala uzyskać binauralne odpowiedzi impulsowe pomieszczeń BRIR (Binaural Room Impulse Responses). BRIR uwzględniają zarówno kierunkową filtrację wynikającą z indywidualnych cech anatomicznych słuchacza, jak i wpływ akustyki konkretnego otoczenia, jak odbicia oraz pogłos. Dzięki temu umożliwiają bardziej kompleksowe i realistyczne odwzorowanie przestrzennego charakteru dźwięku w określonym środowisku.
Pomiary HRTF
Funkcję HRTF można wyznaczyć przez bezpośredni pomiar przeprowadzany w polu swobodnym. Warunki takie uzyskuje się w pomieszczeniu bezechowym. Mikrofony umieszcza się w przewodzie słuchowym badanego. Następnie zestaw głośników rozmieszczonych dookoła jego głowy emituje akustyczne sygnały testowe z wielu kierunków i wysokości. Wynik badania to zbiór odpowiedzi impulsowych HRIR lub charakterystyk będących ich odpowiednikami w dziedzinie częstotliwości, mierzonych oddzielnie dla lewego i prawego ucha. Metoda ta cechuje się wysoką dokładnością i stanowi punkt odniesienia dla innych technik. Zarazem jednak jest kosztowna, czasochłonna oraz wrażliwa na precyzyjne umiejscowienie sond mikrofonowych, co utrudnia jej skalowanie.
Z tych powodów w ciągu ostatnich lat opracowano i udostępniono liczne publiczne zbiory funkcji HRTF, obejmujące pomiary dla wielu osób, często wzbogacone o dane antropometryczne i modele geometryczne głowy i tułowia. Zasoby te, przechowywane w standaryzowanych formatach wymiany danych, stały się fundamentem dla badań w dziedzinie dźwięku przestrzennego i jego zastosowań.
Ponieważ przeprowadzenie oddzielnego pomiaru w komorze bezechowej dla każdego użytkownika jest niewykonalne, dynamicznie rozwijają się techniki przybliżania funkcji HRTF. Jedno z podejść polega na dopasowaniu użytkownika do „najbliższej” mu funkcji HRTF z istniejącej bazy danych na podstawie ograniczonego zestawu cech, takich jak wymiary głowy i kształt małżowiny usznej. Wykorzystuje się także trójwymiarowe skany głowy i uszu w połączeniu z symulacją rozchodzenia się fali dźwiękowej do bezpośredniego obliczania HRTF na podstawie fizycznego modelu. Coraz częściej bazuje się również na algorytmch uczenia maszynowego, które pozwalają przewidywać zindywidualizowane HRTF na podstawie bardzo ograniczonych danych wejściowych, takich jak kilka parametrów antropometrycznych lub zdjęcie małżowiny usznej. Podejścia te zmniejszają nakład pracy związany z pozyskiwaniem danych, jednocześnie poprawiając jakość percepcyjną w porównaniu z użyciem uniwersalnych, niezindywidualizowanych HRTF.
Pomiary BRIR
Badania pokazują niestety, że nawet niewielkie różnice w kształcie małżowiny usznej mogą jednak prowadzić do istotnych przesunięć w charakterystyce częstotliwościowej ucha, która determinuje percepcję odległości źródła dźwięku w pionie i w poziomie. Eksperymenty odsłuchowe wykazują, że mimo wszystko korzystanie ze zindywidualizowanych HRTF poprawia dokładność lokalizacji, eksternalizację, czyli wrażenie, że dźwięk znajduje się poza głową i ogólną naturalność odbioru. Skala tych korzyści zależy jednak od kontekstu odsłuchu, ruchów głowy oraz spójności akustyki otoczenia. Często dobrze dobrana, niezindywidualizowana funkcja HRTF, której dopełnieniem jest śledzenie ruchów głowy oraz indywidualne możliwości adaptacji użytkownika, mogą zapewnić mu przekonujące wrażenia przestrzenne. Mimo że błędy lokalizacji źródła dźwięku występują częściej niż w przypadku zmierzonych HRTF, coraz więcej badań dowodzi, że układ słuchowy potrafi się z czasem w jakimś stopniu przystosować do ogólnych charakterystyk.
Analogiczne sposoby pozyskiwania i ograniczenia dotyczą binauralnych odpowiedzi impulsowych pomieszczenia. Pomiar BRIR przeprowadza się dla konkretnej osoby, która znajduje się w ustalonej pozycji w danym wnętrzu, z wybranego miejsca odtwarzając sygnał testowy. Dźwięk, propagując w przestrzeni, oddziałuje zarówno z geometrią i materiałami pomieszczenia, jak i z anatomią słuchacza. Zarejestrowane sygnały tworzą parę odpowiedzi impulsowych, osobną dla lewego oraz prawego ucha, które zawierają pełny zestaw informacji niezbędnych do wiernego odtworzenia tego samego wrażenia słuchowego za pomocą słuchawek. W praktyce możliwe jest również uzyskiwanie BRIR w sposób hybrydowy, poprzez połączenie zmierzonej odpowiedzi impulsowej pomieszczenia (RIR), pozyskanej przy użyciu mikrofonu dookólnego, z ogólną albo zindywidualizowaną HRTF. Taki proces, oparty na splotach sygnałów, pozwala w krótkim czasie uzyskać charakterystykę konkretnego wnętrza i odtworzyć w słuchawkach wrażenie obecności w danym środowisku akustycznym, bez konieczności wykonywania pełnych pomiarów na miejscu.
Monika Jaworowska