Forskare hos Meta AI har gjort ett betydande framsteg inom generativ AI för tal. Nu har dom skapat Voicebox, den första modellen som kan anpassa sig till uppgifter i genererat språk som den inte specifikt utbildades för att slutföra, med oöverträffad prestanda.
Från Metas egen blogg:
Liksom generativa system för bilder och text skapar Voicebox resultat i en enorm mängd stilar, och kan skapa resultat från grunden samt modifiera ett prov den fått. Men istället för att skapa en bild eller ett stycke text, producerar Voicebox ljudklipp av hög kvalitet. Modellen kan syntetisera tal på sex språk, samt utföra brusreducering, innehållsredigering, stilomvandling och generera en mängd olika prov.
Före Voicebox krävde generativ AI för tal specifik träning för varje uppgift med noggrant förberedda träningsdata. Voicebox använder en ny metod för att lära sig endast från rå ljud och en medföljande transkription. Till skillnad från autoregressiva modeller för ljudgenerering, kan Voicebox modifiera vilken del som helst av ett givet prov, inte bara slutet på en ljudklipp som den fått.
Voicebox bygger på en metod som kallas Flow Matching, vilken har visat sig förbättra diffusionsmodeller. Voicebox presterar bättre än den nuvarande toppmodellen på engelska, VALL-E, på zero-shot text-till-tal när det gäller både intelligibilitet (5,9 procent jämfört med 1,9 procent ordfelstakt) och ljudlikhet (0,580 jämfört med 0,681), samtidigt som den är upp till 20 gånger snabbare. För cross-lingual stilöverföring överträffar Voicebox YourTTS genom att minska den genomsnittliga ordfelstakten från 10,9 procent till 5,2 procent och förbättrar ljudlikheten från 0,335 till 0,481.
Voicebox uppnår nya bästa resultat, och presterar bättre än både Vall-E och YourTTS när det gäller ordfelstakt.
flerspråkiga benchmarks. Det finns många spännande användningsområden för generativa talmodeller, men på grund av potentiella risker för missbruk, gör vi inte Voicebox-modellen eller koden offentligt tillgänglig just nu. Även om vi anser att det är viktigt att vara öppna med AI-gemenskapen och dela vår forskning för att förbättra AI:s nuvarande status, är det också nödvändigt att hitta rätt balans mellan öppenhet och ansvar. Med dessa överväganden delar vi idag ljudprover och en forskningsartikel som beskriver vår metod och de resultat vi har uppnått. I artikeln detaljerar vi också hur vi byggde en mycket effektiv klassificerare som kan skilja mellan autentiskt tal och ljud genererat med Voicebox.
Ett nytt tillvägagångssätt för talgenerering
En av de största begränsningarna hos befintliga talgeneratorer är att de endast kan tränas på data som har förberetts speciellt för den uppgiften. Dessa indata – kända som monotona, rena data – är svåra att producera, så de finns endast i begränsade mängder och de resulterar i utdata som låter monotona.
Vi byggde Voicebox baserat på Flow Matching-modellen, vilket är Meta’s senaste framsteg inom icke-autoregressiva generativa modeller som kan lära sig högst icke-deterministisk kartläggning mellan text och tal. Icke-deterministisk kartläggning är användbart eftersom det möjliggör för Voicebox att lära av varierade taldatatyper utan att dessa variationer måste noggrant etiketteras. Det betyder att Voicebox kan träna på mer diversifierade data och en mycket större skala av data.
Vi tränade Voicebox med mer än 50 000 timmar inspelat tal och transkript från ljudböcker i det allmänna domänet på engelska, franska, spanska, tyska, polska och portugisiska. Voicebox är tränat att förutsäga ett talsegment när det ges det omgivande talet och transkriptet av segmentet. Efter att ha lärt sig att införa tal från sammanhanget kan modellen sedan tillämpa detta över talgenereringsuppgifter, inklusive att generera delar i mitten av en ljudinspelning utan att behöva återskapa hela inmatningen.
Denna mångsidighet gör att Voicebox kan prestera bra över en mängd olika uppgifter, inklusive:
In-kontext text-till-tal syntes: Genom att använda ett ljudprov som är bara två sekunder långt, kan Voicebox matcha provets ljudstil och använda den för text-till-tal-generering. Framtida projekt kan bygga vidare på denna förmåga genom att ge tal till människor som inte kan tala, eller genom att låta människor anpassa rösterna som används av icke-spelarkaraktärer och virtuella assistenter.
Tvärkulturell stilöverföring: Med ett talprov och ett stycke text på engelska, franska, tyska, spanska, polska eller portugisiska kan Voicebox producera en uppläsning av texten på det språket. Denna förmåga är spännande eftersom det i framtiden skulle kunna användas för att hjälpa människor att kommunicera på ett naturligt, autentiskt sätt – även om de inte talar samma språk.
Talavbrusning och redigering: Voicebox’s in-kontext inlärning gör den bra på att generera tal för att sömlöst redigera segment inom ljudinspelningar. Den kan återsyntetisera den del av talet som korrumperats av kortvarigt brus, eller ersätta felaktigt uttalade ord utan att behöva spela in hela talet på nytt. En person kan identifiera vilket rått segment av talet som är korrumperat av brus (som en hund som skäller), klippa ut det och instruera modellen att återskapa det segmentet. Denna förmåga kan en dag användas för att göra rengöring och redigering av ljud lika enkelt som populära bildredigeringsverktyg har gjort justering av bilder.
Diverse talprovtagning: Eftersom Voicebox har lärt sig från varierande data ”i det vilda”, kan den generera tal som bättre representerar hur människor pratar i den riktiga världen och på de sex ovan nämnda språken. I framtiden kan denna förmåga användas för att generera syntetisk data för att bättre träna en talassistentmodell. Våra resultat visar att taligenkänningsmodeller tränade på Voicebox-genererat syntetiskt tal presterar nästan lika bra som modeller tränade på verkligt tal, med 1 procent felstegsförsämring jämfört med 45 till 70 procent försämring med syntetiskt tal från tidigare text-till-tal-modeller.
Dela generativ AI-forskning ansvarsfullt
Som den första mångsidiga, effektiva modellen som framgångsrikt utför uppgiftsgeneralisering, tror vi att Voicebox kan inleda en ny era av generativ AI för tal. Liksom med andra kraftfulla nya AI-innovationer erkänner vi att denna teknik för med sig potentialen för missbruk och oavsiktlig skada. I vår artikel detaljerar vi hur vi byggde en mycket effektiv klassificerare som kan skilja mellan autentiskt tal och ljud genererat med Voicebox för att mildra dessa möjliga framtida risker. Vi anser att det är viktigt att vara öppen om vårt arbete så att forskningssamhället kan bygga vidare på det och för att fortsätta de viktiga samtal vi har om hur man bygger AI ansvarsfullt, varför vi delar vårt tillvägagångssätt och resultaten i en forskningsartikel.
Voicebox representerar ett viktigt steg framåt inom generativ AI-forskning. Andra skalbara generativa AI-modeller med uppgiftsgeneraliseringsförmåga har väckt entusiasm om potentiella tillämpningar över uppgifter när det gäller text, bild och videogenerering. Vi hoppas se en liknande effekt för tal i framtiden. Vi ser fram emot att fortsätta vår utforskning inom ljudområdet och se hur andra forskare bygger vidare på vårt arbete.