Microsoft a prezentat VALL-E, un model capabil să recreeze vocea unei persoane pornind de la un eșantion audio de trei secunde, ca un exemplu al celor mai recente lucrări ale sale în domeniul inteligenței artificiale text-to-speech.
Astfel, vorbirea se potrivește nu numai cu timbrul, ci și cu tonul emoțional al vorbitorului și chiar cu acustica camerei.
Sistemele text-to-speech personalizate sau de înaltă calitate ar putea să o folosească într-o zi, deși, în cazul deepfake, există riscul de abuz.
Microsoft se referă la VALL-E ca la un “model de limbaj cu codec neural”.
Sursa sa este rețeaua neuronală de compresie Encodec de la Meta, care are ca sursă rețeaua de compresie Encodec cu inteligență artificială, care creează sunet din introducerea textului și scurte mostre ale fișierului audio țintă.
Cum funcționează VALL-E de la Microsoft
Cercetătorii explică în lucrarea lor cum au antrenat VALL-E folosind 60.000 de ore de vorbire în limba engleză de la mai mult de 7.000 de persoane din colecția audio LibriLight a Meta.
O voce din datele de antrenament trebuie să se potrivească cu vocea pe care încearcă să o emuleze.
În acest caz, se face o presupunere cu privire la calitatea vocii vorbitorului țintă pe baza datelor de instruire și a textului care urmează să fie rostit.
Pe pagina Github a VALL-E, echipa demonstrează în mod specific cât de eficient funcționează acest lucru.
Ei au o cerere de trei secunde din partea vorbitorului care trebuie să imite pentru fiecare propoziție pe care doresc ca AI să o “vorbească”, un “adevăr de bază” al aceluiași vorbitor care spune o propoziție diferită pentru comparație, o sinteză tipică “de bază” text-to-speech și, în cele din urmă, eșantionul VALL-E la final.
Se pot auzi rezultate mixte; unele sună artificial, în timp ce altele sunt destul de realiste.
Este remarcabil faptul că tonul emoțional al mostrelor originale este încă prezent.
Ca urmare, dacă vorbitorul și-a înregistrat vocea într-o cameră plină de ecou, VALL-E pare să provină din aceeași locație. De asemenea, se potrivește cu mediul acustic.
Microsoft intenționează să mărească datele de antrenament pe care le folosește pentru model pentru a “îmbunătăți performanța modelului în ceea ce privește prozodia, stilul de vorbire și similaritatea vorbitorului”.
De asemenea, caută modalități de a reduce limbajul ambiguu sau trecut cu vederea.