Noul algoritm de inteligență artificială de la Microsoft îți poate clona vocea din trei secunde de audio

Dă şi tu share articolului

Microsoft susține că noua sa tehnologie de inteligență artificială (A)I de conversie a textului în vorbire poate reproduce cu precizie vocea dumneavoastră dintr-un clip audio de trei secunde.
Numele ei este VALL-E.

Tehnologia care stă la baza sistemului, pe care Microsoft o numește “model de limbaj cu codec neuronal” într-un studiu recent, este complicată, dar, în utilizare, pare a fi destul de simplă.
Se poate produce un discurs cu sunet real prin inserarea unui eșantion audio, urmat de un text.

Bineînțeles, există deja o mulțime de programe text-to-speech disponibile.
De exemplu, majoritatea site-urilor de știri au capacități de dictare automată, iar Siri și Alexa sunt asistenți vocali foarte apreciați.

Cu toate acestea, majoritatea programelor de creare a vorbirii de pe piață cer acum o mulțime de date de intrare.
În plus, acestea nu au reușit încă să facă vocile AI să sune deosebit de uman, în mare parte pentru că exprimarea tonurilor emoționale și a inflexiunilor subtile este extrem de dificilă.

Cum funcționează VALL-E de la Microsoft

Sistemul de modelare a limbajului OpenAI GPT-3, în care Microsoft a investit foarte mult prin investiția sa absolut masivă în OpenAI, ar fi o tehnologie deosebit de utilă pentru a fi combinată cu noul generator de voce pentru a produce conținut, potrivit dezvoltatorilor VALL. Cei de la E au adăugat, de asemenea, că VALL-E are o serie de aplicații, printre care “TTS cu focalizare zero, editare a discursului și creare de conținut”.

Teoretic, ați putea pune cap la cap o mulțime de informații autentice și cu un sunet convingător, incredibil de rapid, prin combinarea VALL-E și GPT-3, două piese puternice de tehnologie bazată pe inteligență artificială.

Dar, bineînțeles, aici intră în scenă unele situații ipotetice cu limite etice tulburi.
După cum puteți vedea, dacă aveți nevoie de doar trei secunde de sunet, este posibil să folosiți orice, de la un interviu cu o celebritate până la povestea de Instagram a unei persoane reale pentru a critica pe cineva. Prin urmare, octeții de sunet falși și înșelători sunt, în mod evident, o preocupare aici.

Cu toate acestea, Microsoft a avut grijă să abordeze această problemă, menționând că se abține deocamdată să facă codul open source din cauza “posibilelor pericole în exploatarea conceptului”.
Compania afirmă, de asemenea, că încearcă să implementeze un sistem care poate determina dacă muzica a fost produsă cu ajutorul VALL-E, dar ar putea dori să se consulte cu colegii lor de la OpenAI pentru a vedea cât de simplu este de fapt acest lucru.

Dă şi tu share articolului

Te-ar mai putea interesa

Leave a Comment