R. K. | 18. 4. 2024, 12:53

Tehnološko podjetje, ki ga je ustvaril Bill Gates, predstavlja neverjetno orodje za ustvarjanje zelo realističnih lažnih posnetkov

www.microsoft.com

Napredek novih tehnologij, ki predstavljajo tudi resna varnostna tveganja, je skrb vzbujajoč.

Neverjetne zmožnosti orodij, ki delujejo s pomočjo umetne inteligence, se povečujejo iz dneva v dan. Pri podjetju Microsoft so tako pred kratkim razvili orodje, ki uporabnikom omogoča, da samo na podlagi zvočnega posnetka in fotografije ustvarijo zelo realističen videoposnetek govorečega obraza. Novico je na Facebooku delil tudi znani promotor komuniciranja znanosti Sašo Dolenc.

Izjemne vizualne čustvene sposobnosti

"Model VASA-1 omogoča natančno sinhronizacijo ustnic in zvoka, z realističnim obnašanjem obraza in naturalističnimi gibi glave. Vse to ustvarja v realnem času," je zapisal Dolenc. 

Več podrobnosti so razkrili pri Microsoftu: "Predstavljamo VASA, okvir za ustvarjanje realističnih govorečih obrazov virtualnih likov s privlačnimi vizualnimi čustvenimi sposobnostmi, če sta na voljo ena sama statična slika in zvočni posnetek govora," so zapisali pri tehnološkem velikanu in dodali, da je VAS kratica za "visual affective skills" oziroma slovensko "vizualne čustvene sposobnosti".

"Naš premierni model VASA-1 je sposoben ustvariti gibe ustnic, ki so odlično sinhronizirani z zvokom, hkrati pa zajema tudi širok spekter obraznih odtenkov in naravnih gibov glave, ki prispevajo k vtisu pristnosti in živosti," so pojasnili pri Microsoftu.

Interakcija v realnem času in z realističnimi avatarji

Dodali so, da njihove najpomembnejše inovacije vključujejo celostni model za ustvarjanje obrazne dinamike in gibanja glave, ki deluje v latentnem območju obraza. "Vključujejo tudi razvoj takšnega izraznega in razčlenjenega latentnega prostora obraza z uporabo videoposnetkov," so zapisali.

Pri podjetju so po lastnih besedah z obsežnimi poskusi, ki so vključevali tudi vrednotenje na podlagi niza novih metrik, pokazali, da njihova metoda znatno presega prejšnje metode in deluje celovito po različnih dimenzijah.

"Naša metoda ne zagotavlja le visoke kakovosti videa z realistično dinamiko obraza in glave, temveč podpira tudi spletno generiranje videoposnetkov 512 x 512 s hitrostjo do 40 FPS z zanemarljivo začetno zakasnitvijo," so pojasnili pri Microsoftu. Zaključili so, da to "omogoča interakcijo v realnem času z realističnimi avatarji, ki posnemajo človeško pogovorno vedenje."

Resna varnostna tveganja

Pri tehnološkem podjetju so ob tem opozorili, da imajo s svojimi raziskavami pozitivne namene, in poudarili številne potencialne koristi. Poudarili so, da namen njihovega najnovejšega orodja ni ustvarjanje vsebine, ki bi jo lahko zlorabili za zavajanje oziroma preslepitev. Kljub temu pa bi lahko nepridipravi to orodje uporabili tudi za ustvarjanje vtisa, da gre za resnične oziroma konkretne posameznike.

Zavajajoče ali škodljive vsebine, ki bi bile ustvarjene z njihovim orodjem, je po določenih napakah sicer še vedno mogoče prepoznati, na vrzel, ki zeva med umetno ustvarjenimi in resničnimi posnetki, pa še vedno kaže tudi numerična analiza, so pojasnili.

Predvsem to pa je razlog, da orodja ali podrobnosti o njem še ne bodo objavili. "Dokler ne bomo prepričani, da se bo tehnologija uporabljala odgovorno in v skladu z ustreznimi predpisi, ne nameravamo objaviti spletne predstavitve, vmesnika API, izdelka, dodatnih podrobnosti o izvajanju storitve ali kakršnih koli z njo povezanih ponudb," so zaključili.

Novo na Metroplay: "Naš največji uspeh je bil tudi strel v koleno" | Ivo Boscarol