Videoprogramvarusystem Synkroniserar Läppar Till Andra Språk

Videoprogramvarusystem synkroniserar läppar till andra språk

Ett team av forskare i Indien har utvecklat ett system för att översätta ord till ett annat språk och få det till att se som en talares läppar rör sig i synk med det språket.

Automatisk ansikte-till-ansikte-översättning, som beskrivs i detta dokument från oktober 2019, är ett framsteg över text-till-text- eller tal-till-tal-översättning, eftersom det inte bara översätter tal, utan också ger en läppsynkroniserad ansiktsbild.

För att förstå hur detta fungerar, kolla in demonstrationsvideoen nedan, skapad av forskarna. Vid markeringen 6:38 ser du ett videoklipp av den sena prinsessan Diana i en intervju 1995 med journalisten Martin Bashir, där han förklarar: ”Jag skulle vilja vara en drottning av människors hjärtan, i människors hjärtan, men jag gör inte ser mig inte vara en drottning i det här landet. ”

Ett ögonblick senare ser du henne uttala samma citat på hindi – med läpparna i rörelse, som om hon faktiskt talade det språket.

”Kommunikation effektivt över språkbarriärer har alltid varit en viktig ambition för människor över hela världen,” förklarar Prajwal K.R., en doktorand i datavetenskap vid International Institute of Information Technology i Hyderabad, Indien, via e-post. Han är huvudförfattaren till tidningen, tillsammans med sin kollega Rudrabha Mukhopadhyay.

”Idag fylls internet med pratande ansiktsvideor: YouTube (300 timmar laddas upp per dag), föreläsningar online, videokonferenser, filmer, TV-program och så vidare,” skriver Prajwal, som går med sitt förnamn. ”Aktuella översättningssystem kan bara generera en översatt talutsignal eller textundertexter för sådant videoinnehåll. De hanterar inte den visuella komponenten. Som ett resultat av det översatta talet när det läggs på videon skulle läpprörelserna vara synkroniserade med audio.

”Således bygger vi på tal-till-tal-översättningssystemen och föreslår en pipeline som kan ta en video av en person som talar på ett källspråk och skicka ut en video av samma högtalare som talar på ett målspråk så att röststilen och läpprörelser matchar målspråket, ”säger Prajwal. ”Genom att göra detta blir översättningssystemet holistiskt, och som det framgår av våra mänskliga utvärderingar i detta dokument, förbättrar användarupplevelsen avsevärt när det gäller att skapa och konsumera översatt audiovisuellt innehåll.”

Face-to-Face-översättning kräver ett antal komplexa feats. ”Med en video om en person som talar har vi två stora informationsströmmar att översätta: den visuella och talinformationen,” förklarar han. De åstadkommer detta i flera stora steg. ”Systemet transkriberar först meningarna i talet med automatisk taligenkänning (ASR). Detta är samma teknik som används i röstassistenter (till exempel Google Assistant) i mobila enheter.” Därefter översätts de transkriberade meningarna till önskat språk med hjälp av Neural Machine Translation-modeller, och sedan konverteras översättningen till talade ord med en text-till-tal-synthesizer – samma teknik som digitala assistenter använder.

Slutligen korrigerar en teknik som heter LipGAN läpprörelserna i den ursprungliga videon för att matcha det översatta talet.

Videoprogramvarusystem synkroniserar läppar till andra språk

”Således får vi en helt översatt video med läppsynkronisering också,” förklarar Prajwal.

”LipGAN är det viktigaste bidraget i vårt papper. Det är detta som ger den visuella modaliteten in i bilden. Det är viktigast eftersom det korrigerar läppsynkroniseringen i den slutliga videon, vilket avsevärt förbättrar användarupplevelsen.”

Syftet är inte bedrägeri, utan kunskapsdelning

En artikel, publicerad 24 januari 2020 i New Scientist, beskrev genombrottet som ett ”deep fake”, en term för videor där ansikten har bytts ut eller digitalt ändrats med hjälp av konstgjord intelligens, ofta för att skapa ett vilseledande intryck, som den här BBC-berättelsen förklarades. Men Prajwal hävdar att det är en felaktig beskrivning av Face-to-Face-översättning, som inte är avsedd att lura, utan snarare för att göra översatt tal lättare att följa.

”Vårt arbete är främst inriktat på att bredda omfattningen av de befintliga översättningssystemen för att hantera videoinnehåll,” förklarar han. ”Detta är en mjukvara skapad med en motivation att förbättra användarupplevelsen och bryta ner språkbarriärer över videoinnehåll. Det öppnar upp ett mycket brett spektrum av applikationer och förbättrar tillgängligheten för miljontals videor online.”

Den största utmaningen när det gäller att göra ansikts-till-ansikte översättningsarbete var ansiktsgenerationsmodulen. ”Nuvarande metoder för att skapa läppsynkroniseringsfilmer kunde inte generera ansikten med önskade poser, vilket gjorde det svårt att klistra in det genererade ansiktet i målvideoen,” säger Prajwal. ”Vi införlivade en” pose prior ”som en inmatning till vår LipGAN-modell, och som ett resultat kan vi skapa ett exakt läppsynkroniserat ansikte i den önskade målposen som kan sömlöst blandas i målvideon.”

Forskarna ser för sig Face-to-Face-översättning som används för att översätta filmer och videosamtal mellan två personer som var och en talar ett annat språk.”Att få digitala karaktärer i animerade filmer att sjunga / prata visas också i vår video”, konstaterar Prajwal.

Dessutom förutser han att systemet ska användas för att hjälpa elever över hela världen att förstå online-föreläsningsvideor på andra språk. ”Miljontals främmande studenter över hela världen kan inte förstå utmärkt utbildningsinnehåll tillgängligt online, eftersom de är på engelska,” förklarar han.

”I ett land som Indien med 22 officiella språk kan vårt system i framtiden översätta TV-nyhetsinnehåll till olika lokala språk med exakt läppsynkronisering av nyhetsankarna. Listan med applikationer gäller alltså för alla slags prat ansikte videoinnehåll, som måste göras mer tillgängligt på olika språk. ”

Även om Prajwal och hans kollegor avser att deras genombrott ska användas på positiva sätt, beror förmågan att sätta utländska ord i en talares mun en framstående amerikansk cybersecurity-expert, som fruktar att förändrade videor blir allt svårare att upptäcka.

”Om du tittar på videon, kan du se om du tittar noga, munnen har fått lite suddighet”, säger Anne Toomey McKenna, en utmärkt forskare för cyberlaw och politik vid Penn State Universitys Dickinson Law, och en professor vid universitetets institut för beräknings- och datavetenskap, i en e-intervju. ”Det kommer att fortsätta att minimeras när algoritmerna fortsätter att förbättras. Det kommer att bli mindre och mindre urskiljbart för det mänskliga ögat.”

McKenna föreställer sig till exempel hur en förändrad video av MSNBC-kommentatorn Rachel Maddow kan användas för att påverka val i andra länder genom att ”vidarebefordra information som är felaktig och motsatsen till vad hon sa.”

Prajwal är också orolig för eventuellt missbruk av förändrade videoklipp men anser att man kan utveckla försiktighetsåtgärder för att skydda mot sådana scenarier och att den positiva potentialen för ökad internationell förståelse uppväger riskerna för automatisk ansikte-till-ansikte-översättning. (På den gynnsamma sidan tänker detta blogginlägg översätta Greta Thunbergs tal vid U.N.s klimatmöte i september 2019 till en mängd olika språk som används i Indien.)

”Varje kraftfull teknik kan användas för en enorm mängd goda och har också dåliga effekter”, konstaterar Prajwal. ”Vårt arbete är i själva verket ett översättningssystem som kan hantera videoinnehåll. Innehåll översatt av en algoritm är definitivt” inte riktigt ”, men det här översatta innehållet är viktigt för människor som inte förstår ett visst språk. Vidare, för närvarande scenen är sådant automatiskt översatt innehåll lätt att känna igen av algoritmer och tittare. Samtidigt bedrivs aktiv forskning för att känna igen sådant förändrat innehåll. Vi tror att den kollektiva ansträngningen för ansvarsfull användning, strikta regler och forskningsframsteg för att upptäcka missbruk kan säkerställa en positiv framtiden för denna teknik. ”