Nowe podejście do rozpoznawania mowy - przetwarzanie tylko lokalnie!

Coraz więcej mikroprocesorów i zaawansowanych mikrokontrolerów pojawiających się na rynku ma wbudowane akceleratory wspomagające i przyspieszające operacje związane z uczeniem maszynowym oraz algorytmy sztucznej inteligencji. Ta dodatkowa jednostka ma za zadanie przyspieszenie obliczeń, odciążenie procesora od wykonywania złożonych operacji oraz optymalizację działania aplikacji pod kątem zużycia energii.

Posłuchaj
00:00

Innymi słowy chodzi o to, że wydzielenie obliczeń do zoptymalizowanego bloku ma więc też na celu to, aby funkcje ML oraz AI nie powodowały wzrostu zużycia energii, przekreślającego zastosowanie w sprzęcie bateryjnym. Celem jest przetwarzanie danych na krawędzi, a zatem wstępna obróbka (selekcja) na wejściu, po to, aby odciążyć jednostkę główną. Drugim celem jest brak konieczności przekazywania złożonych obliczeniowo zadań do chmury, aby aplikacja działała lokalnie, czyli nie wymagała połączenia z siecią.

Takie możliwości przydają się w wielu scenariuszach układowych, między innymi zaawansowanych czujnikach, IoT, układach pomiarowych, niemniej najbardziej pożądane i biznesowo wartościowe zastosowanie związane jest z interfejsem człowiek-maszyna, a dokładniej sterowaniem głosem.

Interakcja głosowa w elektronice pojawiła się na rynku już blisko 15 lat temu w telefonach Apple w postaci asystenta głosowego Siri, ale nigdy nie spełniła obietnic naturalnej konwersacji i była ograniczona do własnościowego środowiska produktów Apple. Mimo to położyła podwaliny pod kolejne rozwiązanie – Alexa firmy Amazon, która trafiła do milionów głośników i elektroniki konsumenckiej.

Alexa również nie spełniła oczekiwań. Konsumenci przyjęli głos jako funkcjonalność do ustawiania budzika, sprawdzania pogody, sterowania domem, ale nie do kupowania, na co liczył Amazon. Zakupy głosowe nie wzbudzały zaufania, nie pozwalały świadomie decydować i nie dawały informacji zwrotnej. Ponadto obawy dotyczące prywatności wynikające z tego, że asystenci działają w oparciu o przetwarzanie w chmurze, znacząco ograniczyły penetrację rynku. To samo spotkało systemy rozpoznawania mowy w telewizorach. Negatywne odczucia użytkowników wynikały też z oparcia działania asystentów na przetwarzaniu w chmurze, gdyż wysyłanie danych i odbiór wyników często powodowały irytujące opóźnienia i tym samym brak responsywności aplikacji.

Wspólnie Siri i Alexa udowodniły, że głosowy interfejs użytkownika może być atrakcyjną funkcjonalnością i biznesowym kołem napędowym dla elektroniki, o ile tylko będzie działał zgodnie z oczekiwaniami. Podobnie było zresztą z ekranami dotykowymi, które na początku działały topornie i miały wiele ograniczeń.

Nowe podejście do funkcji głosowych jest takie, że mowa ma być przetwarzana lokalnie, czyli sprzęt nie będzie wysyłał do chmury nagrań do przetworzenia. Wyeliminuje to problemy z zachowaniem prywatności i opóźnieniami – im więcej byłoby urządzeń, tym byłyby one większym problemem. Koszty przetwarzania danych w chmurze też są istotnym czynnikiem.

Kluczem do tego, aby interfejs głosowy trafił do termostatu, są chipy zapewniające dużą wydajność w czasie rzeczywistym, realizujące wnioskowanie sieci neuronowych przy niezwykle niskim zużyciu energii i małych kosztach szacowanych na 3‒10 dolarów za układ SoC w zależności od klasy sprzętu. Taki chip musi nasłuchiwać, wykrywać słowa wywołujące, dokonywać analizy intencji i w dalszym kroku rozpoznawać język naturalny w czasie nie dłuższym niż 100 ms.

Takie możliwości zapewniają procesory o architekturze macierzowo-wektorowej zdolne do przetwarzania równoległego, stąd dlatego są wbudowywane jako silnik do SoC razem z Arm lub RISC- V. Obciążenia wnioskowania, takie jak wykrywanie słów wybudzających, wykrywanie słów kluczowych, tłumienie szumów i analiza intencji stanowią obecnie ponad 80% cykli obliczeniowych i do 90% dynamicznego zużycia energii w układach SoC. Co ciekawe, taki silnik AI zwykle zajmuje 2‒3 razy więcej powierzchni krzemowej niż normalny rdzeń i zapewnia o rzędy wielkości wyższą przepustowość na wat.

Przetwarzanie lokalne danych na krawędzi jest bezsprzecznie dzisiaj na ustach wielu producentów półprzewodników i wydaje się, że w końcu trafi pod strzechy.

Robert Magdziak

Powiązane treści
Jak maszyna może skutecznie rozpoznawać głos?
Rozpoznawanie mowy napędza rynek mikrofonów MEMS
Rozpoznawanie mowy - techniki i zastosowania
Rozpoznawanie mowy jako interfejs użytkownika
Interfejsy głosowe - z chmury do brzegu
Zobacz więcej w kategorii: Opinie
Projektowanie i badania
Czy oprogramowanie narzędziowe nie ma wartości?
Komponenty
Indeks, symbol, oznaczenie, czyli jak nazwać produkt
Projektowanie i badania
Świat poszukuje kompetentnych inżynierów elektroników. Chiny i Tajwan w centrum walki o talenty
Komponenty
Wojna technologiczna a stare technologie procesowe
Komponenty
GPSR i NIS 2 zmieniają warunki w dystrybucji
Elektromechanika
Farming 4.0 i Agriculture 4.0, czyli nowoczesne rolnictwo
Zobacz więcej z tagiem: Komunikacja
Gospodarka
Druga generacja satelitów GNSS Galileo jest rozwijana z pełną prędkością
Technika
Automatyka przemysłowa i budynkowa na dwóch przewodach
Gospodarka
Arrow Electronics polskim dystrybutorem rozwiązań Cohesity w zakresie bezpieczeństwa i zarządzania danymi

Komponenty indukcyjne

Podzespoły indukcyjne determinują osiągi urządzeń z zakresu konwersji mocy, a więc dążenie do minimalizacji strat energii, ułatwiają miniaturyzację urządzeń, a także zapewniają zgodność z wymaganiami norm w zakresie EMC. Stąd rozwój elektromobilności, systemów energii odnawialnej, elektroniki użytkowej sprzyja znacząco temu segmentowi rynku. Zapotrzebowanie na komponenty o wysokiej jakości i stabilności płynie ponadto z aplikacji IT, telekomunikacji, energoelektroniki i oczywiście sektorów specjalnych: wojska, lotnictwa. Pozytywnym zauważalnym zjawiskiem w branży jest powolny, ale stały wzrost zainteresowania klientów rodzimą produkcją pomimo wyższych cen niż produktów azjatyckich. Natomiast paradoksalnie negatywnym zjawiskiem jest fakt, że jakość produktów azjatyckich jest coraz lepsza i jeśli stereotyp "chińskiej bylejakości" przestanie być popularny, to rodzima produkcja będzie miała problem z utrzymaniem się na rynku bez znaczących inwestycji w automatyzację i nowe technologie wykonania, kontroli jakości i pomiarów.
Zapytania ofertowe
Unikalny branżowy system komunikacji B2B Znajdź produkty i usługi, których potrzebujesz Katalog ponad 7000 firm i 60 tys. produktów