Sztuczna inteligencja Nvidii zwiększy emocjonalność syntezowanej mowy

Syntezatory mowy przeszły długą drogę od topornej Ivony do tego, co prezentuje dziś Aleksa, Asystent Google czy Siri. Inteligentni asystenci są w stanie formułować złożone zdania i przyzwoicie imitować ludzką mowę. Nie są jednak doskonali, przez co często niebezpiecznie wkraczają na teren głosowej doliny niesamowitości, brzmiąc ludzko i nieludzko jednocześnie. Nowe oprogramowanie od Nvidii może to zmienić. Inżynierowie Nvidii opracowali zestaw narzędzi RAD-TTS, który pozwoli zrekonstruować naturalną ludzką mowę i przejąć pełną kontrolę nad syntezatorami. Po wyszkoleniu systemu przy pomocy naszego głosu algorytm będzie w stanie zrekonstruować tempo, tembr czy natężenie mowy konkretnego użytkownika. A co za tym idzie, stworzyć jego wiarygodnie brzmiącą, cyfrową reprodukcję. Na tym nie kończą się możliwości tego oprogramowania, RAD-TTS umożliwi także przetworzenie wypowiedzi źródłowej w taki sposób, aby wybrzmiała słowami innej osoby. Zaprezentowane tu rozwiązanie nie jest oczywiście doskonałe. W syntezowanych wypowiedziach nadal można wychwycić elementy, które świadczą o ich komputerowym pochodzeniu. Korporacja zrobiła jednak spory krok na drodze do udoskonalenia współczesnych systemów generowania mowy. Dzięki postępom poczynionym przez zespół RAD-TTS w niedalekiej przyszłości nasi asystenci będą mogli brzmieć jeszcze lepiej. Z kolei twórcy z branży gier za pośrednictwem tego narzędzia będą w stanie precyzyjnie modelować sposób wypowiedzi wirtualnych bohaterów już po nagraniu ścieżki dialogowej przez aktora głosowego. RAD-TTS pozwoli m.in. regulować tempo, tembr czy wskazywać słowa do zaakcentowania.