Interfejsy głosowe w samochodach - rzeczywistość czy nadal odległa przyszłość?

Rynek aplikacji z wbudowanym rozpoznawaniem głosu rozwija się bardzo dynamicznie. Eksperci z Meticulous Research szacują, że jego całkowita wartość wyniesie ponad 20 mld dolarów do roku 2025, a rynek motoryzacyjny będzie stanowił jej bardzo istotną część. Optymizm ten nie jest podzielany przez konsumentów. Serwis Voicebot skupiający entuzjastów technologii rozpoznawania głosu zapytał niedawno swoich użytkowników, czy wykrywanie mowy jest dla nich istotnym czynnikiem przy wyborze samochodu. Tylko 7,6% wskazało, że jest to niezbędna funkcja w samochodzie, a 11,5% wskazało, że jest to istotny czynnik. Biorąc pod uwagę grupę docelową serwisu, wynik ten wydaje się mocno pesymistyczny dla perspektyw rozwoju branży.

Głośne problemy

Na niezbyt wysokie zainteresowanie interfejsami głosowymi w samochodach w dużej mierze może przekładać się jego niedoskonałość. Aby komputer był w stanie przetworzyć ludzki głos, musi przechwycić go w jakości pozwalającej na jego analizę. Podczas jazdy można napotkać wiele źródeł hałasu - dźwięk silnika, klimatyzacji, ruchu drogowego czy nawet hałas spowodowany nierówną nawierzchnią, każde z nich zakłóca pracę mikrofonu, wpływając niekorzystnie na liczbę błędów i czas analizy. Aby zredukować wpływ dźwięków otoczenia na działanie systemu, producenci wykorzystują algorytmy filtrowania dźwięku i odsiewania szumu, ale w dalszym ciągu nie są one 100% skuteczne.

Dużo większym wyzwaniem jest rozpoznawanie mowy w momencie, w którym w kabinie samochodu znajdują się również inne osoby poza kierowcą. Wiele osób mówiących jednocześnie nie pozwala systemowi zrozumieć, które polecenia padły od prowadzącego pojazd, a które od pasażerów, którzy mogli wypowiedzieć pewne słowa aktywacyjne, uruchamiające funkcje systemowe podczas normalnej rozmowy.

Rys. 1. Wartość rynku rozpoznawania mowy w USA i jej dalsza prognoza (mld dolarów)

Aktualnie identyfikacja kierowcy po jego barwie głosu nie może odbywać się lokalnie, bo nie ma takich zasobów obliczeniowych w istniejących w pojazdach komputerach, aby zidentyfikować go w czasie rzeczywistym. Najczęstszą używaną alternatywą, działającą z powodzeniem w osobistych asystentach zainstalowanych w telefonach komórkowych, jest przetwarzanie głosu w chmurze obliczeniowej. Niestety, zapewnienie pewnej i wydajnej komunikacji dla samochodu jest niezwykle trudne ze względu na jego stale zmieniające się położenie i prędkość. Producenci próbują obejść ten problem, używając wielu mikrofonów zamiast jednego. Czujniki zamontowane po obu stronach samochodu działają jak ludzkie ucho, pozwalając dokładnie określić pozycję źródła dźwięku, a co za tym idzie, wykryć kierowcę. System ten z powodzeniem wykorzystali producenci marek takich jak Audi, Mercedes i BMW.

Przed inżynierami odpowiedzialnymi za interfejsy głosowe w samochodach w dalszym ciągu stoi wiele problemów do rozwiązania. Sprawnie działające systemy mogą przekonać do siebie o wiele większą grupę konsumentów niż w chwili obecnej, pozwalając rynkowi na dynamiczny wzrost, tak mocno oczekiwany przez analityków.

Interfejsy głosowe a technologie detekcji

Ciągły rozwój technologii często skutkuje pojawieniem się wielu podobnie brzmiących pojęć, lecz o diametralnie innym znaczeniu. Interfejsy głosowe nie są tutaj wyjątkiem. Czym różni się wykrywanie głosu od wykrywania mowy oraz na jakie inne technologie warto zwrócić uwagę?
Wykrywanie mowy (speech recognition) to technologia pozwalająca komputerowi na poprawną identyfikację słów wypowiedzianych przez człowieka. Komputer nie analizuje w niej żadnych innych czynników, takich jak akcent, ton głosu czy jego barwa. Pomimo że wykrywanie mowy opracowano niemal 50 lat temu, w dalszym ciągu nie udaje się osiągnąć jego 100% poprawności.
Wykrywanie głosu (voice recognition) to technologia pozwalająca komputerowi zidentyfikować osobę mówiącą poprzez analizę barwy jej głosu. Jej głównym zastosowaniem są właśnie interfejsy głosowe, jej użycie pozwala na aktywację wybranych funkcji interfejsu poprzez wypowiadanie słów aktywacyjnych jedynie przez osobę do tego upoważnioną.
Voice activity detection to algorytm rozpoznający aktywność rozmówcy (mowę lub jej brak). Jego zastosowanie umożliwia znaczne zaoszczędzenie zasobów dzięki analizowaniu jedynie fragmentów, gdzie wykryta została mowa, z pominięciem hałasu i dźwięków tła.

(PM)

Powiązane treści