N. Vo. | 5. 8. 2024, 10:01

Kako daleč gre lahko AI kloniranje glasov: zakaj je Microsoft ustavil izdajo svojega najnovejšega orodja?

Profimedia

Meja med koristno uporabo umetne inteligence in njenim potencialom za zlorabo je izjemno krhka.

V zadnjem letu, še posebej od uvedbe orodja ChatGPT, je umetna inteligenca postala nepogrešljiv del našega vsakdana. Z napredkom tehnologije so se pojavili številni zanimivi načini uporabe, kot so ustvarjanje slik, generiranje besedil in tudi glasovno kloniranje. Čeprav so uporabniki navdušeni nad zmogljivostmi teh orodij, se hkrati začenjajo zavedati potencialnih nevarnosti, ki jih prinaša zloraba umetne inteligence. Glasovno kloniranje, ki omogoča natančno imitacijo človekovega glasu, ima lahko resne posledice, če se uporablja za neetične namene, kot so izsiljevanje ali ustvarjanje prepričljivih lažnih zvočnih posnetkov.

Profimedia

Kljub velikim tveganjem, povezanim z uporabo z orodji za glasovno kloniranje AI, strokovnjaki verjamejo, da bo lahko nova tehnologija prinesla tudi veliko dobrega. Eno od podjetij, ki si prizadeva pokazati pozitivno stran uporabe umetne inteligence z ustvarjanjem kvalitetnih vsebin, je PodCastle, poroča The Sun.

Varnostni ukrepi, ki delujejo

Kakšne varnostne ukrepe uvajajo, da bi preprečili zlorabe, je za The U.S. Sun povedal izvršni direktor in ustanovitelj podjetja Artavazd Yeritsyan: "Spreminjamo način ustvarjanja zvočnih in video vsebin, saj ga močno poenostavljamo za ustvarjalce in ekipe z integracijo AI tehnologij." 

PodCastle omogoča uporabnikom enostavno snemanje zvočnih in video vsebin ter njihovo urejanje s pomočjo umetne inteligence. S tem lahko uporabniki odstranijo premore, izrežejo neželene besede ali izboljšajo kakovost posnetkov – vse to zahvaljujoč interni AI tehnologiji, ki jo podjetje nenehno razvija in nadgrajuje. Poleg tega lahko uporabniki s funkcijo kloniranja glasov ustvarijo posnetke brez potrebe po dejanskem snemanju, saj jim AI omogoča pretvorbo besedila v govor.

Profimedia

Kljub impresivnim zmogljivostim pa umetna inteligenca ostaja tema vročih razprav. Ker so modeli trenirani na ogromnih količinah podatkov, se kritiki sprašujejo, od kod prihajajo te informacije. Pomisleki so se dodatno okrepili, ko so tehnološki velikani, kot je Meta, priznali, da za treniranje AI uporabljajo podatke iz javnih profilov na družbenih omrežjih.

To odkritje je vzbudilo zaskrbljenost med strokovnjaki za varstvo zasebnosti in sprožilo preiskavo, ki jo vodi Urad informacijskega pooblaščenca v Združenem kraljestvu. Prav tako se zavedajo realne nevarnosti, da AI orodja ne bodo uporabljena v predvidene namene, saj ima glasovna tehnologija kloniranja velik potencial za zlorabe.

Strah pred zlorabo

Ravno zaradi tega tveganja je Microsoft zavrnil izdajo svojega najnovejšega generatorja govora iz besedila, VALL-E 2, zaradi strahu pred njegovo zlorabo. To orodje lahko replicira glasove že po nekaj sekundah zvočnega posnetka in preprečuje ponavljanje zvokov ali fraz med dekodiranjem, kar zagotavlja naravnejši zvok. 

Naraščajoči strah med razvijalci dodatno podžiga vzpon tako imenovanih "vishing" napadov, pri katerih se prevaranti s pomočjo glasovnega kloniranja predstavljajo kot prijatelji ali sorodniki žrtev. Ti napadi so tako prepričljivi, da žrtve pogosto prostovoljno predajo občutljive informacije, kot so številke kreditnih kartic ali podatki o bančnih računih.

Varnostni mehanizmi proti lažnim zvočnim posnetkom

PodCastle se tega problema zaveda in je zato uvedel varnostne mehanizme za preprečevanje ustvarjanja deepfakeov, oziroma sintetičnih zvočnih posnetkov, ki osebo prikazujejo, kot da govori nekaj, kar v resnici ni izrekla. "Ko smo začeli razvijati to tehnologijo, smo si postavili cilj, da postanemo najbolj etična in varna platforma za kloniranje glasov," je pojasnil Yeritsyan.

Profimedia

Da bi preprečili zlorabo, je PodCastle uvedel določene "ovire" v procesu ustvarjanja vsebin. "Za kloniranje svojega glasu morate dejansko posneti stavke, ki vam jih posredujemo," je razložil Yeritsyan. "Na podlagi načina, kako izgovarjate te stavke in kako jih ustvarite, prepoznamo, da ste to res vi, in le vi lahko uporabite ta glas."

Vsebina, ki jo uporabniki ustvarijo, je nato šifrirana, kar pomeni, da je nepooblaščeni osebi ni mogoče prebrati ali zlorabiti. "Zato na naši platformi doslej nismo zabeležili nobenega primera deepfakea," je zaključil Yeritsyan. Širjenje tehnologije za glasovno klonirane napoveduje predvsem na področju dostopnosti in prevajalskih funkcij: "Ljudje z omejitvami, ki ne morejo govoriti, bodo lahko s pomočjo pretvorbe besedila v govor enostavno širili svoje vsebine," je dodal izvršni direktor.

Poleg tega Yeritsyan podpira izobraževanje o umetni inteligenci, da bi spodbudil odgovorno uporabo te tehnologije. PodCastle ponuja popust študentom, saj verjame, da bodo kmalu po vstopu na trg dela primorani uporabljati podobna orodja.

Novo na Metroplay: Jan Plestenjak iskreno o enem najbolj čustvenih trenutkov njegove glasbene kariere