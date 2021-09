Źródło: NVIDIA

Syntezatory mowy przeszły długą drogę od topornej Ivony do tego, co prezentuje dziś Aleksa, Asystent Google czy Siri. Inteligentni asystenci są w stanie formułować złożone zdania i przyzwoicie imitować ludzką mowę. Nie są jednak doskonali, przez co często niebezpiecznie wkraczają na teren głosowej doliny niesamowitości, brzmiąc ludzko i nieludzko jednocześnie. Nowe oprogramowanie od Nvidii może to zmienić.

Inżynierowie Nvidii opracowali zestaw narzędzi RAD-TTS, który pozwoli zrekonstruować naturalną ludzką mowę i przejąć pełną kontrolę nad syntezatorami. Po wyszkoleniu systemu przy pomocy naszego głosu algorytm będzie w stanie zrekonstruować tempo, tembr czy natężenie mowy konkretnego użytkownika. A co za tym idzie, stworzyć jego wiarygodnie brzmiącą, cyfrową reprodukcję. Na tym nie kończą się możliwości tego oprogramowania, RAD-TTS umożliwi także przetworzenie wypowiedzi źródłowej w taki sposób, aby wybrzmiała słowami innej osoby.

Zaprezentowane tu rozwiązanie nie jest oczywiście doskonałe. W syntezowanych wypowiedziach nadal można wychwycić elementy, które świadczą o ich komputerowym pochodzeniu. Korporacja zrobiła jednak spory krok na drodze do udoskonalenia współczesnych systemów generowania mowy.

Dzięki postępom poczynionym przez zespół RAD-TTS w niedalekiej przyszłości nasi asystenci będą mogli brzmieć jeszcze lepiej. Z kolei twórcy z branży gier za pośrednictwem tego narzędzia będą w stanie precyzyjnie modelować sposób wypowiedzi wirtualnych bohaterów już po nagraniu ścieżki dialogowej przez aktora głosowego. RAD-TTS pozwoli m.in. regulować tempo, tembr czy wskazywać słowa do zaakcentowania.