Google ažurira tehnologiju koja stoji iza glasovnog pretraživanja kako bi bilo brže i preciznije

Google je izgradio novu tehnologiju za pokretanje glasovnog pretraživanja, za koju tvrtka kaže da će je učiniti još bržom i preciznijom. Nova tehnologija koristi konekcionističku vremensku klasifikaciju (CTC) i tehnike diskriminacije u skladu s redoslijedom. Godine 2012. Google je prešao iz Gaussovog modela mješavine (GMM) u dubinske neuronske mreže (DNN), što je omogućilo kompaniji da bolje procijeni koji zvuk korisnik proizvodi u to vrijeme, te pružio povećanu točnost prepoznavanja govora.

Naši poboljšani akustički modeli oslanjaju se na ponavljajuće neuronske mreže (RNN). RNN-ovi imaju petlje povratnih informacija u svojoj topologiji, što im omogućuje modeliranje vremenskih ovisnosti: kada korisnik govori / u / u prethodnom primjeru, njihov artikulacijski aparat dolazi iz / j / zvuka i iz / m / zvuka prije. Pokušajte to izgovoriti naglas - "muzej" - vrlo prirodno teče u jednom dahu i RNN-ovi to mogu snimiti. RNN vrsta koja se ovdje koristi je dugotrajna memorija (LSTM) RNN koja putem memorijskih ćelija i sofisticiranog mehanizma za izradu memorija pamti informacije bolje od ostalih RNN-ova. Usvajanje takvih modela već je značajno poboljšalo kvalitetu našeg prepoznavatelja.

Promjenu tehnologije napravio je Google, a sada se koristi za pokretanje glasovnog pretraživanja u Googleovoj aplikaciji i na iOS-u i Androidu, kao i na diktate na Android uređajima.

Izvor: Google istraživački blog