Sztuczna inteligencja już całkiem nieźle radzi sobie z rozpoznawaniem mowy naturalnej. A jak sobie radzi z wsłuchiwaniem się w głos jednej osoby w hałasie? Google twierdzi, że dla jego SI to również pestka.
Mam ciekawą i frustrującą wadę, jeśli chodzi o podzielność uwagi. Mogę pracować i słuchać muzyki. Mogę czytać i obserwować otoczenie. Mogę robić wiele rzeczy równocześnie. Ale gdy dwie osoby do mnie mówią, to nie słyszę żadnej. Nie jestem w stanie usłyszeć rozmówcy w telefonie, jeśli ktoś coś do mnie mówi, stojąc obok mnie. Wygląda na to, że moje zdolności poznawcze są gorsze od tych posiadanych przez maszynę.
Inżynierowie Google’a zdołali już tak wyszkolić swoją sztuczną inteligencję, by ta wiedziała dokładnie kto mówi i co mówi, nawet jeżeli przemawiających osób jest wiele. Jak tego dokonali? Bardzo prostym rozwiązaniem, które nie wymaga zagłębiania się w meandry programowania, by móc je wyjaśnić.
SI Google’a, by rozpoznać mowę, wsłuchuje się w jedną osobę w gwarze i obserwuje ruchy jej warg.
https://www.youtube.com/watch?v=_7aMiqXubWo
Rezultaty są zdumiewające. Google przez uczenie maszynowe w modelu sieci neuronowej nauczył izolować poszczególne ścieżki z dźwiękowej sceny i generować czystą ścieżkę danej wypowiedzi na podstawie tego, co się dzieje z twarzą przemawiającej osoby. Algorytm radzi sobie nawet wtedy, gdy twarz jest tymczasowo zasłonięta – na przykład przez mikrofon czy gestykulację.
Możliwości zastosowania tego algorytmu są szerokie w licznych dziedzinach związanych z komunikacją i analityką. Ale jak to rozwiązanie wpisuje się w ofertę Google’a? Tu na razie możemy tylko zgadywać, ale oczywistym wydaje się komunikator Duo, który ułatwiłby rozumienie tego, co mówi do nas rozmówca, jeżeli znajduje się w tłumie. Nie zapominajmy też o możliwości rozszerzenia Tłumacza Google’a oraz wzmocnieniu modułów analitycznych na YouTube.
Google na razie nie deklaruje żadnej nawet przybliżonej daty wprowadzenia tej techniki na rynek.
Google wie, co robi. I co kto mówi