Oszuści wykorzystują generującą głos SI do wyłudzania pieniędzy

W ciągu ostatnich kilku miesięcy generatywna Sztuczna Inteligencja poczyniła ogromne postępy i – co nie jest zaskakujące – jest używana przez przestępców, którzy dzięki SI mogą podrobić głos, aby przekonać rodzinę właściciela, że dana osoba potrzebuje pomocy finansowej. Washington Post informuje, że pewna kanadyjska para otrzymała niedawno telefon od czegoś, co brzmiało jak ich wnuk, twierdzącego, że jest w więzieniu i potrzebuje pieniędzy na kaucję. Wypłacili z jednego banku maksymalnie 3000 dolarów kanadyjskich i już mieli podjąć taką samą kwotę z drugiego, kiedy kierownik powiedział im, że są oszukiwani. Okazało się, że inny klient banku również otrzymał podobny telefon i potem dowiedział się, że został oszukany. Inna para, która nie miała tyle szczęścia, to rodzice Benjamina Perkina. Otrzymali telefon od prawnika z informacją, że ich syn zabił amerykańskiego dyplomatę w wypadku samochodowym i jest w więzieniu i potrzebuje pieniędzy na pomoc prawną. Prawnik dał do telefonu Benjamina, który powiedział, że ich kocha i docenia pomoc finansową. Głos brzmiał „na tyle podobnie, że moi rodzice uwierzyli, że rzeczywiście ze mną rozmawiali” – powiedział Benjamin. Jego rodzice wysłali 15449 dolarów do oszusta za pośrednictwem terminalu bitcoin i nie byli w stanie ich już odzyskać. Oszustwa głosowe nie są niczym nowym. Dane amerykańskiej Federalnej Komisji Handlu ujawniają, że z 36000 zgłoszeń z ubiegłego roku, w których ludzie zostali oszukani przez przestępców podających się za przyjaciół lub rodzinę, ponad 5100 z tych incydentów miało miejsce przez telefon. Podszywanie się pod głos danej osoby było niegdyś skomplikowaną i długotrwałą procedurą, wymagającą odkrycia i zebrania wielu godzin nagrań audio, a efekt końcowy nie zawsze był bardzo przekonujący. Obecnie jednak narzędzia sztucznej inteligencji uczyniły ten proces tak łatwym, że oszuści potrzebują jedynie niewielkiego klipu z wypowiedzią danej osoby, najczęściej opublikowanego w mediach społecznościowych, aby dokładnie odtworzyć jej głos. Przykładem tej technologii jest narzędzie Vall-E firmy Microsoft, które firma ogłosiła w styczniu. Opierając się na technologii o nazwie EnCodec, którą Meta ogłosiła w październiku 2022 roku, działa ona poprzez analizę głosu danej osoby, rozkładanie informacji na składniki i wykorzystywanie wytrenowanego algorytmu do syntezy tego, jak głos brzmiałby, gdyby wypowiadał różne frazy. Nawet po wysłuchaniu zaledwie trzysekundowej próbki, Vall-E potrafi odtworzyć tembr głosu i nastawienie emocjonalne mówcy. Na tej stronie GitHuba można samemu sprawdzić, jak bardzo jest to przekonujące. https://twitter.com/elevenlabsio/status/1620443168851525634 Założony przez Piotra Dąbrowskiego i Matiego Stanisławskiego amerykański startup Eleven Labs, który oferuje generatywne narzędzie do tworzenia głosu Prime Voice AI, niedawno zatweetował, że widzi „rosnącą liczbę przypadków nadużycia klonowania głosu”. Doprowadziło to do usunięcia możliwości klonowania głosu z darmowej bety oprogramowania.