Już wkrótce asystenci głosowi mogą przemówić do nas bardziej ludzkim głosem, a bohaterowie z gier - nabrać wiarygodności. Wszystko za sprawą sztucznej inteligencji od NVIDII, która poprawi emocjonalność syntezowanej mowy.
Syntezatory mowy przeszły długą drogę od topornej Ivony do tego, co prezentuje dziś Aleksa, Asystent Google czy Siri. Inteligentni asystenci są w stanie formułować złożone zdania i przyzwoicie imitować ludzką mowę. Nie są jednak doskonali, przez co często niebezpiecznie wkraczają na teren głosowej doliny niesamowitości, brzmiąc ludzko i nieludzko jednocześnie. Nowe oprogramowanie od Nvidii może to zmienić.
Inżynierowie Nvidii opracowali zestaw narzędzi RAD-TTS, który pozwoli zrekonstruować naturalną ludzką mowę i przejąć pełną kontrolę nad syntezatorami. Po wyszkoleniu systemu przy pomocy naszego głosu algorytm będzie w stanie zrekonstruować tempo, tembr czy natężenie mowy konkretnego użytkownika. A co za tym idzie, stworzyć jego wiarygodnie brzmiącą, cyfrową reprodukcję. Na tym nie kończą się możliwości tego oprogramowania, RAD-TTS umożliwi także przetworzenie wypowiedzi źródłowej w taki sposób, aby wybrzmiała słowami innej osoby.
Zaprezentowane tu rozwiązanie nie jest oczywiście doskonałe. W syntezowanych wypowiedziach nadal można wychwycić elementy, które świadczą o ich komputerowym pochodzeniu. Korporacja zrobiła jednak spory krok na drodze do udoskonalenia współczesnych systemów generowania mowy.
Dzięki postępom poczynionym przez zespół RAD-TTS w niedalekiej przyszłości nasi asystenci będą mogli brzmieć jeszcze lepiej. Z kolei twórcy z branży gier za pośrednictwem tego narzędzia będą w stanie precyzyjnie modelować sposób wypowiedzi wirtualnych bohaterów już po nagraniu ścieżki dialogowej przez aktora głosowego. RAD-TTS pozwoli m.in. regulować tempo, tembr czy wskazywać słowa do zaakcentowania.
To jest uproszczona wersja artykułu. KLIKNIJ aby zobaczyć pełną wersję (np. z galeriami zdjęć)
⇓
⇓
Spodobał Ci się ten news? Zobacz nasze największe HITY ostatnich 24h