Gott navždy. Hlas legendárního zpěváka znovu zazní díky Českému rozhlasu a umělé inteligenci

Z dvou set hodin nahrávek Karla Gotta bylo použitelných pouze dvacet. Jak se zrodil hlas Zlatého slavíka vytvořený umělou inteligencí?

Už dnes večer mohou posluchači Českého rozhlasu slyšet hlas Karla Gotta vytvořený umělou inteligencí. Projekt „Gott navždy“ představí četbu na pokračování zpěvákovy autobiografie a to hlasem, který je díky moderním technologiím nerozeznatelný od hlasu Karla Gotta. Na projektu pracovali přední experti na hlasovou syntézu ze Západočeské univerzity v Plzni a ze společnosti SpeechTech. V dnešním seriálu prozradí, jakým výzvám museli při tvorbě hlasu čelit.

Aleš Pražák z plzeňské společnosti SpeechTech je odborníkem na automatický přepis řeči do textu. Ve své pracovně u počítače ukazuje, jak byl při vzniku hlasu Karla Gotta prvním článkem v celé výrobě:

„Posloucháme znělku, která trvá asi 25 sekund, a potom už pokračuje Karel Gott: ,Hezký a ničím nerušený pořad Zpátky si dám tenhle film přeje ze studia Dvojky Českého rozhlasu Karel Gott‘.

Podobné záznamy byly tím jediným, z čeho mohli tvůrci vycházet.

Čtěte také

„Dostal jsem zhruba 200 hodin nahrávek a mým úkolem bylo automaticky zpracovat tyto záznamy tak, abychom mohli určit, kde se mluví, kde je hudba,“ doplňuje Pražák.

Desetina dat

Jenže zmíněných dvě stě hodin bylo jen počátečním číslem. Tvůrci museli dát pryč nejen celé písně z pořadu, ale i další výrazy. Automatický přepis nemá ve slovníku anglická slova, takže se mnohdy dopustil chyby a místo anglického názvu psal různé zkomoleniny.

„Přepis ztěžovalo i to, když na začátku hrála hudba. Taková nahrávka byla k vyřazení,“ vysvětluje podmínky náročného síta Daniel Tihelka z výzkumného centra NTIS Západočeské univerzity v Plzni. Sečteno podtrženo, nakonec zbylo 20 hodin záznamu hlasových nahrávek Karla Gotta, ze kterých mohla umělá inteligence vycházet. Tedy desetina původních dat.

„Když se ta nabídka objevila, byla  pro nás strašně zajímavá. Já se počítačovou syntézou řečí zabývám 25 let, od svých doktorských studií. A moc rád vidím, jak se tahle technologie zlepšuje a zdokonaluje,“ říká Jindřich Matoušek, který tady na Katedře kybernetiky Západočeské univerzity v Plzni šéfuje týmu hlasové syntézy.

Hluboké neuronové sítě

Zjednodušeně řečeno je to počítačem generovaná řeč na základě textu. Znát ji můžeme třeba z různých infolinek nebo předčítání textů na webech. Nejmodernější technologie ji vytváří díky hlubokým neuronovým sítím.

„Síť má na základě toho fonetického přepisu odhadnout, jak vytvořit akustický signál. A aby tohle mohla udělat, potřebuje hodně příkladů, jak to v reálném světě je, jak Karel Gott vyslovil určitý text. Když tyhle nahrávky opakovaně předkládáme tomu modelu, on se takzvaně učí…“ doplňuje Matoušek.

Čtěte také

Hlasová syntéza je pak lepší a lepší. V ideálním případě si vývojáři z plzeňské univerzity i společnosti SpeechTech pozvou profesionálního mluvčího, kterého můžou ve studiu úkolovat tak, aby měly neuronové sítě co nejlepší výchozí data. U Karla Gotta tohle udělat nemohli…

„Z nahrávek jsme se snažili vybrat takové části, o kterých si myslíme, že je současné technologie zvládnou. A to pro nás byla výzva, protože ta data jsme neměli pod kontrolou, dostali jsme je už hotová. A pokud tohle pomůže k tomu, že bude hlas Karla Gotta přístupný pro nové technologie, přijde mi to i jako zajímavá aplikace toho, co tady děláme.“

V projektu Gott navždy tak díky umělé inteligenci uslyšíme namluvené pasáže z autobiografie Karla Gotta. První části už dnes večer. Víc podrobností najdete na webu gott.rozhlas.cz.

GOTT NAVŽDY
autoři: Ondřej Vaňura , mga
Spustit audio