Novi AI alat daje fotografijama moć da govore i pevaju: Mona Liza repuje (VIDEO)

Tehnologije
Autor: Glas javnosti 25.04.2024 10:45:52 h

foto: printscreen/youtube

Microsoft je ove nedelje objavio istraživački rad u kojem prikazuje novi model veštačke inteligencije pod nazivom VASA-1 koji može da transformiše jednu sliku i audio-snimak osobe u realističan video na kom se sinhronizuju usne sa izrazima lica, pokretima glave i svim ostalim.

Model veštačke inteligencije je obučen pomoću AI-generisanih slika koje su stvorili generatori poput DALL·E-3. Njih su istraživači potom kombinovali sa audio-zapisima. Rezultat su video-zapisi u kojima se slike pretvaraju u govor.

Istraživači su se oslanjali na tehnologiju konkurenata kao što su Runway i Nvidia, ali u radu navode da je njihov metod rada kvalitetniji, realističniji i da ,,značajno nadmašuje“ postojeće metode.

Istraživači su rekli da model može da snima zvuk bilo koje dužine i da stvori lice koje govori u skladu sa snimkom, piše Entrepreneur.

Jedina slika koja nije generisana veštačkom inteligencijom sa kojom su istraživači eksperimentisali bila je Mona Liza. Napravili su zanimljivu sliku Mona Lize koja otvara usta u skladu sa rečima pesme ,,Paparazzi“ En Hatavej, koja se čuje ,,Yo I’m a paparazzi, I don’t play no yahtzee“.

Mona Liza je bio jedan primer fotografije koju model veštačke inteligencije nije bio obučen da obradi, ali je ipak mogao da manipuliše njome. Model je takođe mogao da transformiše umetničke fotografije, obrađuje pevanje u audio formatu, kao i govor na jezicima koji nisu engleski.

Napredni AI kao rizik

Istraživači su naglasili da model može da radi u realnom vremenu sa demo snimkom koji je pokazao da model trenutno animira slike pokretima glave i izrazima lica.

Digitalno izmenjene ličnosti mogu da šire dezinformacije ili uzimaju nečiju ličnost bez dozvole. Zato napredna veštačka inteligencija, koja može da generiše digitalne medije sa relativno malo referentnih tačaka, predstavlja rizik.

Microsoft se uopšteno bavio tom zabrinutošću u radu, pri čemu su istraživači izjavili: „Protivimo se bilo kakvom ponašanju u cilju stvaranja obmanjujućih ili štetnih sadržaja o stvarnim osobama, i zainteresovani smo za primenu naše tehnike za unapređenje otkrivanja falsifikata.“

Istraživači su izjavili da njihova tehnika takođe ima potencijalno pozitivne primene, kao što je poboljšanje pristupačnosti i unapređenje obrazovnih napora.

Google je prošlog meseca demonstrirao sličan istraživački projekat, pokazujući veštačku inteligenciju koja je sposobna da snimi fotografiju i napravi video od nje koju korisnik može da kontroliše svojim glasom. AI je mogao da doda pokrete glave, treptaje i pokrete rukama.

Glas javnosti /B10S