Galvenais Inovēt Google jaunais teksta-runas AI ir tik labs, ka mēs derēsim, ka to nevar pateikt no īsta cilvēka

Google jaunais teksta-runas AI ir tik labs, ka mēs derēsim, ka to nevar pateikt no īsta cilvēka

Jūsu Horoskops Rītdienai

Vai jūs varat atšķirt mākslīgi mākslīgā intelekta radīto runu no reāla, dzīva cilvēka? Varbūt jūs vienmēr domājāt, ka varētu. Varbūt jums patīk Alexa un Siri, bet ticiet, ka nekad nevienu no viņiem nejaukt ar faktisko sievieti.

Lietas drīz kļūs daudz interesantākas. Google inženieri ir smagi strādājuši, izveidojot teksta-runas sistēmu, ko sauc Takotrons 2 . Saskaņā ar a papīrs viņi publicēja šomēnes, sistēma vispirms izveido teksta spektrogrammu, vizuālu attēlojumu tam, kā runai jāskan. Šis attēls tiek ievietots, izmantojot Google esošo WaveNet algoritmu, kas izmanto attēlu, lai radītu ārkārtīgi dabiski skanošu cilvēka runu.

kima Veidana vīrs Kevins Knots

Izmantojot šo metodi, pētnieki ziņo: 'Mūsu modelis vidējo viedokļu vērtējumu (MOS) sasniedz 4,53, salīdzinot ar 4,58 MOS profesionāli ierakstītas runas gadījumā.' (Vidējais viedokļu vērtējums ir telekomunikāciju termins, kas mēra, kā kaut kas izklausās patiess.)

Kā pierāda Google audio paraugi, Tacotron 2 no konteksta var noteikt atšķirību starp lietvārdu “desert” un darbības vārdu “desert”, kā arī lietvārdu “present” un darbības vārdu “present”, un attiecīgi mainīt tā izrunu. Tas var likt uzsvaru uz lielajiem burtiem un piemērot pareizo locījumu, uzdodot jautājumu, nevis sniedzot paziņojumu.

Un tas var radīt tekstu, kas izklausās tik līdzīgs cilvēka runai, ka ir grūti vai neiespējami uzzināt atšķirību. Ja vēlaties uzzināt, cik grūti tas ir, dodieties uz Google audio paraugu lapa un ritiniet uz leju līdz pēdējai paraugu kopai ar nosaukumu “Tacotron 2 vai cilvēks?” Tur jūs atradīsit Tacotron 2 un reālu personu, kas katrs saka tādus teikumus kā: 'Šī meitene izveidoja video par Zvaigžņu karu lūpu krāsu.

SPOILER ALERT: Lai pārbaudītu sevi, klausieties paraugus un uzminiet, kurš ir pirms pārējās šīs slejas lasīšanas.

Tātad, kuri paraugi ir teksta pārveidošana runā un kuri ir īsta cilvēka balss? Google inženieri nesaka, bet viņi ir atstājuši ļoti lielu pavedienu. Katram no .wav faila paraugiem ir faila nosaukums, kas satur vai nu terminu “gen”, vai “gt”. Pamatojoties uz šo rakstu, ir ļoti iespējams, ka “gen” norāda Tacotron 2 ģenerēto runu, un “gt” ir īsta cilvēka runa. (“GT”, visticamāk, nozīmē “pamatpatiesība”, mašīnmācīšanās termins, kas būtībā nozīmē “reālu darījumu”.)

Pieņemot, ka tas ir pareizi, šeit ir atbildes uz testu:

cik veca ir Elisona Munna

'Šī meitene izveidoja videoklipu par Zvaigžņu karu lūpu krāsu.'

1. paraugs: Īsts cilvēks

2. paraugs: takotrons 2

'Viņa ieguva doktora grādu socioloģijā Kolumbijas universitātē.'

1. paraugs: takotrons 2

2. paraugs: Īsts cilvēks

'Džordžs Vašingtons bija pirmais ASV prezidents.'

1. paraugs: takotrons 2

2. paraugs: Īsts cilvēks

Elizabetes Bērklijas neto vērtība 2016

'Es esmu pārāk aizņemts romantikai.'

1. paraugs: Īsts cilvēks

2. paraugs: takotrons 2

Cik tev taisnība? Un vai jūs tiešām varētu atšķirt, vai jums vienkārši vajadzēja uzminēt?