Nowe podejście do funkcji głosowych w urządzeniach

Innymi słowy chodzi o to, że wydzielenie obliczeń do zoptymalizowanego bloku ma więc też na celu to, aby funkcje ML oraz AI nie powodowały wzrostu zużycia energii, przekreślającego zastosowanie w sprzęcie bateryjnym. Celem jest przetwarzanie danych na krawędzi, a zatem wstępna obróbka (selekcja) na wejściu, po to, aby odciążyć jednostkę główną. Drugim celem jest brak konieczności przekazywania złożonych obliczeniowo zadań do chmury, aby aplikacja działała lokalnie, czyli nie wymagała połączenia z siecią.

Takie możliwości przydają się w wielu scenariuszach układowych, między innymi zaawansowanych czujnikach, IoT, układach pomiarowych, niemniej najbardziej pożądane i biznesowo wartościowe zastosowanie związane jest z interfejsem człowiek-maszyna, a dokładniej sterowaniem głosem.

Interakcja głosowa w elektronice pojawiła się na rynku już blisko 15 lat temu w telefonach Apple w postaci asystenta głosowego Siri, ale nigdy nie spełniła obietnic naturalnej konwersacji i była ograniczona do własnościowego środowiska produktów Apple. Mimo to położyła podwaliny pod kolejne rozwiązanie – Alexa firmy Amazon, która trafiła do milionów głośników i elektroniki konsumenckiej.

Alexa również nie spełniła oczekiwań. Konsumenci przyjęli głos jako funkcjonalność do ustawiania budzika, sprawdzania pogody, sterowania domem, ale nie do kupowania, na co liczył Amazon. Zakupy głosowe nie wzbudzały zaufania, nie pozwalały świadomie decydować i nie dawały informacji zwrotnej. Ponadto obawy dotyczące prywatności wynikające z tego, że asystenci działają w oparciu o przetwarzanie w chmurze, znacząco ograniczyły penetrację rynku. To samo spotkało systemy rozpoznawania mowy w telewizorach. Negatywne odczucia użytkowników wynikały też z oparcia działania asystentów na przetwarzaniu w chmurze, gdyż wysyłanie danych i odbiór wyników często powodowały irytujące opóźnienia i tym samym brak responsywności aplikacji.

Wspólnie Siri i Alexa udowodniły, że głosowy interfejs użytkownika może być atrakcyjną funkcjonalnością i biznesowym kołem napędowym dla elektroniki, o ile tylko będzie działał zgodnie z oczekiwaniami. Podobnie było zresztą z ekranami dotykowymi, które na początku działały topornie i miały wiele ograniczeń.

Nowe podejście do funkcji głosowych jest takie, że mowa ma być przetwarzana lokalnie, czyli sprzęt nie będzie wysyłał do chmury nagrań do przetworzenia. Wyeliminuje to problemy z zachowaniem prywatności i opóźnieniami – im więcej byłoby urządzeń, tym byłyby one większym problemem. Koszty przetwarzania danych w chmurze też są istotnym czynnikiem.

Kluczem do tego, aby interfejs głosowy trafił do termostatu, są chipy zapewniające dużą wydajność w czasie rzeczywistym, realizujące wnioskowanie sieci neuronowych przy niezwykle niskim zużyciu energii i małych kosztach szacowanych na 3‒10 dolarów za układ SoC w zależności od klasy sprzętu. Taki chip musi nasłuchiwać, wykrywać słowa wywołujące, dokonywać analizy intencji i w dalszym kroku rozpoznawać język naturalny w czasie nie dłuższym niż 100 ms.

Takie możliwości zapewniają procesory o architekturze macierzowo-wektorowej zdolne do przetwarzania równoległego, stąd dlatego są wbudowywane jako silnik do SoC razem z Arm lub RISC- V. Obciążenia wnioskowania, takie jak wykrywanie słów wybudzających, wykrywanie słów kluczowych, tłumienie szumów i analiza intencji stanowią obecnie ponad 80% cykli obliczeniowych i do 90% dynamicznego zużycia energii w układach SoC. Co ciekawe, taki silnik AI zwykle zajmuje 2‒3 razy więcej powierzchni krzemowej niż normalny rdzeń i zapewnia o rzędy wielkości wyższą przepustowość na wat.

Przetwarzanie lokalne danych na krawędzi jest bezsprzecznie dzisiaj na ustach wielu producentów półprzewodników i wydaje się, że w końcu trafi pod strzechy.

Robert Magdziak

Powiązane treści