Google wie, co robi. I co kto mówi

Sztuczna inteligencja już całkiem nieźle radzi sobie z rozpoznawaniem mowy naturalnej. A jak sobie radzi z wsłuchiwaniem się w głos jednej osoby w hałasie? Google twierdzi, że dla jego SI to również pestka.

Mam ciekawą i frustrującą wadę, jeśli chodzi o podzielność uwagi. Mogę pracować i słuchać muzyki. Mogę czytać i obserwować otoczenie. Mogę robić wiele rzeczy równocześnie. Ale gdy dwie osoby do mnie mówią, to nie słyszę żadnej. Nie jestem w stanie usłyszeć rozmówcy w telefonie, jeśli ktoś coś do mnie mówi, stojąc obok mnie. Wygląda na to, że moje zdolności poznawcze są gorsze od tych posiadanych przez maszynę.

Inżynierowie Google’a zdołali już tak wyszkolić swoją sztuczną inteligencję, by ta wiedziała dokładnie kto mówi i co mówi, nawet jeżeli przemawiających osób jest wiele. Jak tego dokonali? Bardzo prostym rozwiązaniem, które nie wymaga zagłębiania się w meandry programowania, by móc je wyjaśnić.

SI Google’a, by rozpoznać mowę, wsłuchuje się w jedną osobę w gwarze i obserwuje ruchy jej warg.

https://www.youtube.com/watch?v=_7aMiqXubWo

Rezultaty są zdumiewające. Google przez uczenie maszynowe w modelu sieci neuronowej nauczył izolować poszczególne ścieżki z dźwiękowej sceny i generować czystą ścieżkę danej wypowiedzi na podstawie tego, co się dzieje z twarzą przemawiającej osoby. Algorytm radzi sobie nawet wtedy, gdy twarz jest tymczasowo zasłonięta – na przykład przez mikrofon czy gestykulację.

Możliwości zastosowania tego algorytmu są szerokie w licznych dziedzinach związanych z komunikacją i analityką. Ale jak to rozwiązanie wpisuje się w ofertę Google’a? Tu na razie możemy tylko zgadywać, ale oczywistym wydaje się komunikator Duo, który ułatwiłby rozumienie tego, co mówi do nas rozmówca, jeżeli znajduje się w tłumie. Nie zapominajmy też o możliwości rozszerzenia Tłumacza Google’a oraz wzmocnieniu modułów analitycznych na YouTube.

Google na razie nie deklaruje żadnej nawet przybliżonej daty wprowadzenia tej techniki na rynek.

Google wie, co robi. I co kto mówi

Google wie, co robi. I co kto mówi

SI Google’a, by rozpoznać mowę, wsłuchuje się w jedną osobę w gwarze i obserwuje ruchy jej warg.

Trending Articles

Marek Dyjak - Sznyty (1997)

Poszukuje ich zachodniopomorska Policja. Zobacz listę najgroźniejszych...

Mein Kampf The Ford Translation By Adolf Hitler [Audiobook PL]

Malezyjska zupa z batatami i kurczakiem

Najnowszy PLEX MEDIA SERWER 1.3.3.3148 i TV LG 47LM670S-ZA - brak połączenia...

C4 Picasso 2011 - błąd U1218

Xiegu x6100

[Giulia] Giulia więcej

Farming Simulator 17 Spolszczenie – Spolszczenie FS 17 PL

Dahl Kjell Ola - Mały złoty pierścionek [Audiobook PL]

TRX Antek AVT - 2310 ver 2,0

Автовишка HAULOTTE HA 16 SPX

POTANIACZ

Zrób Sam - rocznik 1985 [PDF] [PL]

Maxgear opinie

BMW E61 2.5d błąd 43E2 - klapa gasząca a DPF

Eveline ➤ Matowe pomadki Velvet Matt Lipstick 500, 506, 5007

Auta / Cars (2006) PLDUB.BRRip.480p.XviD.AC3-LTN / DUBBING PL

Peugeot 508 problem z elektroniką

AŚ Jelenia Góra