Jakby mało było nam wysypu graficznych AI oraz piszących AI… Sztuczna inteligencja wydaje się postępować w coraz szybszym tempie, potencjalnie zagrażając większej liczbie miejsc pracy. Zespół badaczy Microsoftu zaprezentował nową sztuczną inteligencję, która może dokładnie naśladować ludzki głos po analizie zaledwie trójsekundowej próbki dźwięku. Zupełnie jak podczas pamiętnej rozmowy telefonicznej pomiędzy T-1000 a T-800 w Terminator 2: Dzień sądu!
Narzędzie Microsoft Voice AI, nazwane Vall-E, jest szkolone na „dyskretnych kodach pochodzących z niedostępnego na rynku neuronowego modelu kodeka audio”, jak również na 60 000 godzin wypowiedzi – 100 razy więcej niż istniejące systemy – pochodzących od ponad 7000 mówców, z których większość pochodzi z audiobooków LibriVox z domeny publicznej.
Ars Technica donosi, że Vall-E opiera się na technologii o nazwie EnCodec, którą Meta zapowiedziała w październiku 2022 roku. Działa ona poprzez analizę głosu danej osoby, rozbicie informacji na składniki i wykorzystanie szkolenia do syntezy tego, jak głos brzmiałby, gdyby wypowiadał różne frazy. Nawet po usłyszeniu zaledwie trzysekundowej próbki, Vall-E potrafi odtworzyć tembr głosu i ton emocjonalny mówcy.
„Wyniki eksperymentu pokazują, że Vall-E znacząco przewyższa najlepsze systemy zero-shot TTS [AI, która odtwarza głosy w trybie tekst-na-mowę, których nigdy nie słyszała] pod względem naturalności mowy i podobieństwa” – można przeczytać w pracy badawczej dostępnej na Cornell University. „Ponadto stwierdzamy, że Vall-E w tworzonej syntezie może zachować emocje mówcy i środowisko akustyczne pochodzące z podpowiedzi akustycznej”.
Przekładając to na bardziej zrozumiały język – jeżeli w czasie próbki jesteśmy zdenerwowani i rozmawiamy przez głośnomówiący w aucie, to podobnie będzie brzmiał głos wygenerowany przez AI, włącznie z odgłosami tła.
https://twitter.com/TheCartelDel/status/1611814447919792128
Przykładów odtwarzania głosów przez Vall-E można posłuchać na GitHubie. Wiele z nich jest autentycznie niesamowitych, brzmiących niemal identycznie jak oryginał, pomimo oparcia na tak krótkiej próbce audio. Jest kilka, które są nieco bardziej robotyczne i brzmią nieco bliżej tradycyjnego oprogramowania tekst-na-mowę, ale wciąż jest to imponujące i możemy oczekiwać, że AI będzie się z czasem doskonalić.
Naukowcy Microsoftu uważają, że Vall-E może znaleźć zastosowanie jako narzędzie do zamiany tekstu na głos, sposób na edycję mowy oraz system tworzenia dźwięku poprzez połączenie go z innymi generatywnymi SI, jak GPT-3.
Jak w przypadku wszystkich SI, istnieją obawy o potencjalne niewłaściwe wykorzystanie Vall-E. Przykładem może być podszywanie się pod osoby publiczne, takie jak politycy, zwłaszcza gdy używa się go razem z deepfake’ami. Może też oszukiwać ludzi, że rozmawiają z rodziną, przyjaciółmi lub urzędnikami i przekazują im poufne dane. Niektóre systemy bezpieczeństwa wykorzystują identyfikację głosu. Jeśli chodzi o wpływ na miejsca pracy, Vall-E byłoby prawdopodobnie tańszą alternatywą od zatrudniania aktorów głosowych czy tworzenia audiobooków.
Odnosząc się do ryzyka niewłaściwego wykorzystania Vall-E, badacze powiedzieli, że można je złagodzić. „Możliwe jest zbudowanie modelu wykrywania, aby odróżnić, czy klip audio został zsyntetyzowany przez Vall-E. Będziemy również w praktyce stosować zasady Microsoft AI Principles podczas dalszego rozwoju modeli”.