Written by

Glasić iz vašeg telefona odsad će više zvučati kao čovjek, a ne kao robot

moj android| Views: 49

telefon

Jeste li spremni za to da vam se vaš pametni telefon obraća glasom koji ne zvuči kao robot? Upravo za to će se pobrinuti kompanija Google i Tacotron 2, sistem koji obučava neuronske mreže da generišu normalni govor.

Da bi taj glas zvučao što prirodnije Google je u Tacotron 2 unio ideje iz prethodnih sistema WaveNet i prvog Tacotron-a. Pitate se kako sve to funkcioniše? Koristi se model sekvence u sekvencu optimizovan tako da TTS može da mapira niz poruka u niz funkcija koje enkodiraju audio. Te funkcije i 80-dimenzionalni audio spektogram sa okvirima koji se prebrojavaju svakih 12.5 milisekundi, ne samo da obuhvataju izgovor riječi, već i različite suptilnosti ljudskog govora kao što su jačina, brzina i intonacija. Sve te funkcije se konvertuju u talasni oblik od 24 kHz. Rezultat je digitalni glasić koji može da savlada neke od najsuptilnijih nijansi ljudskog govora.

No, to nije sve – Tacotron 2 će bez problema izgovarati složene riječi, tačno rastumačiti namjeru teksta koji je pun grešaka, te uzeti u obzir i interpunkciju, intonaciju i izgovor i to na osnovu semantičkog konteksta rečenice.