Skuteczne rozpoznawanie głosu przez maszyny

Projektanci interfejsów głosowych jeszcze kilka lat temu stali jedynie przed dwoma poważnymi wyzwaniami - sprawieniem, aby urządzenie reagowało na głos i sprawieniem, żeby urządzenie go rozumiało. Obie te funkcje nie działają jeszcze w pełni poprawnie, interfejsy dalej mają problemy ze zrozumieniem niektórych słów, szczególnie wypowiadanych zbyt szybko lub niewyraźnie. Pomimo to, można je uznać za funkcjonalne na tyle, że korzystanie z nich jest często wydajniejsze od tradycyjnego pisania i wygodne dla użytkowników.

Dopiero upowszechnienie się interfejsów głosowych pokazało, że przed branżą stoi jeszcze jedno, prawdopodobnie najtrudniejsze, wyzwanie - sprawienie, żeby urządzenie reagowało tylko i wyłącznie na głos danego użytkownika. Bez zapewnienia tej funkcjonalności, interfejsy głosowe szybko stają się bezużyteczne w miejscach, gdzie znajduje się dużo ludzi - każda osoba może przypadkiem aktywować swoim głosem urządzenie innej osoby. Systemy bez prawidłowo działającego rozpoznawania głosu mogą być również aktywowane poprzez dźwięki otoczenia, takie jak grające radio czy włączony telewizor, wystarczy, że ktoś na antenie wypowie słowo-klucz (takie jak chociażby "OK, Google" czy "Hej Siri").

Słowo klucz może zostać wypowiedziane na antenie nie tylko przypadkowo. W 2017 sieć fast-foodów Burger King wypuściła 15-sekundową reklamę telewizyjną w której aktor wypowiadał frazę "OK, Google", prosząc następnie o opisanie ich burgera. Pomimo tego, że reklama trwała jedynie 15 sekund, urządzenia wyposażone w asystenta Google, które ją usłyszały odczytywały skład burgera przez kolejną minutę. Projektanci interfejsów głosowych musieli zatem wprowadzić rozwiązania zapobiegające nieautoryzowanej aktywacji systemów.

Rozpoznawanie mowy (speech recognition) to technologia pozwalająca komputerowi na poprawną identyfikację słów wypowiedzianych przez człowieka. Komputer nie analizuje w niej żadnych innych czynników takich jak akcent, ton głosu czy jego barwa. Pomimo że wykrywanie mowy powstało niemal 50 lat temu, w dalszym ciągu nie udaje się osiągnąć 100-procentowej poprawności.

Rozpoznawanie głosu (voice recognition) to technologia pozwalająca komputerowi zidentyfikować osobę mówiącą analizując barwę jej głosu. Jej głównym zastosowaniem są właśnie interfejsy głosowe, jej zastosowanie pozwala na aktywację wybranych funkcji interfejsu poprzez wypowiadanie słów aktywacyjnych jedynie przez osobę do tego upoważnioną.

Voice activity detection to algorytm rozpoznający aktywność rozmówcy (mowę lub jej brak). Jego zastosowanie umożliwia znaczne zaoszczędzenie zasobów dzięki analizowaniu jedynie fragmentów, gdzie wykryta została mowa, pomijając hałasy i dźwięki tła.

Jak rozpoznać głos?

Najpopularniejszym sposobem na uniemożliwienie nieautoryzowanej aktywacji urządzenia jest zapisywanie w jego pamięci słowa-klucza wypowiedzianego przez właściciela. Dzięki temu, za każdym razem, kiedy zostanie ono usłyszane, zostanie porównane z zapisanymi wcześniej próbkami głosu. Dopiero jeśli okażą się pasujące do siebie, urządzenie zostanie aktywowane.

Niestety, analiza tembru (barwy dźwięku) jest skomplikowanym procesem, narażonym na liczne błędy. Dodatkowo, projektanci muszą zapewnić dość dużą tolerancję przy porównywaniu próbek - głos ludzki nigdy nie jest za każdym razem identyczny i zmienia się pod wpływem stresu, zmęczenia lub choroby.

Jedno z ciekawszych rozwiązań wspomagających analizę tembru zastosowali twórcy Alexy Amazona. Jeśli ponad dwa urządzenia nieznajdujące się w jednym pomieszczeniu usłyszą w tym samym momencie identycznie wypowiedziane słowo klucz, zostaje ono potraktowane jako część audycji radiowej bądź telewizyjnej i wpisane na czarną listę. Rozwiązanie pozwala to zapobiegać masowej nieautoryzowanej aktywacji urządzeń przez specjalnie spreparowane do tego audycje i reklamy.

Nieco inne podejście stosują projektanci inteligentnych samochodów. Umiejscowili oni mikrofony z każdej strony w kabinie samochodu. Zamontowane tak czujniki działają jak ludzkie ucho, pozwalając dokładnie określić pozycję źródła dźwięku, a co za tym idzie, wykryć kierowcę. Dzięki temu system może zignorować polecenia wydawane przez pasażerów czy radio. Rozwiązanie te z powodzeniem wykorzystali producenci marek takich jak Audi, Mercedes i BMW. W tak ograniczonej przestrzeni jak samochód nie zachodzi konieczność dokładnej analizy tembru - wystarczy wiedzieć skąd dobiega dźwięk.

Pomimo powszechności interfejsów głosowych, żadne rozwiązanie obecne na rynku nie działa jeszcze w 100% poprawnie. Producentów czeka jeszcze wiele pracy, aby ich urządzenia rozpoznawały idealnie nie tylko mowę, ale i barwę dźwięku. Prawdopodobnie największym wsparciem w tej kwestii okaże się uczenie maszynowe, jednak z pewnością nie stanie się to w ciągu najbliższych kilku lat. (PM)

Powiązane treści