Google je izgradio novu tehnologiju za pokretanje glasovnog pretraživanja, za koju tvrtka kaže da će je učiniti još bržom i preciznijom. Nova tehnologija koristi konekcionističku vremensku klasifikaciju (CTC) i tehnike diskriminacije u skladu s redoslijedom. Godine 2012. Google je prešao iz Gaussovog modela mješavine (GMM) u dubinske neuronske mreže (DNN), što je omogućilo kompaniji da bolje procijeni koji zvuk korisnik proizvodi u to vrijeme, te pružio povećanu točnost prepoznavanja govora.
Naši poboljšani akustički modeli oslanjaju se na ponavljajuće neuronske mreže (RNN). RNN-ovi imaju petlje povratnih informacija u svojoj topologiji, što im omogućuje modeliranje vremenskih ovisnosti: kada korisnik govori / u / u prethodnom primjeru, njihov artikulacijski aparat dolazi iz / j / zvuka i iz / m / zvuka prije. Pokušajte to izgovoriti naglas - "muzej" - vrlo prirodno teče u jednom dahu i RNN-ovi to mogu snimiti. RNN vrsta koja se ovdje koristi je dugotrajna memorija (LSTM) RNN koja putem memorijskih ćelija i sofisticiranog mehanizma za izradu memorija pamti informacije bolje od ostalih RNN-ova. Usvajanje takvih modela već je značajno poboljšalo kvalitetu našeg prepoznavatelja.
Promjenu tehnologije napravio je Google, a sada se koristi za pokretanje glasovnog pretraživanja u Googleovoj aplikaciji i na iOS-u i Androidu, kao i na diktate na Android uređajima.
Izvor: Google istraživački blog