LSTM-based Speech Segmentation for TTS Synthesis

Hanzlíček, Zdeněk; Vít, Jakub; Tihelka, Daniel

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.author	Hanzlíček, Zdeněk
dc.contributor.author	Vít, Jakub
dc.contributor.author	Tihelka, Daniel
dc.date.accessioned	2020-03-09T11:00:21Z	-
dc.date.available	2020-03-09T11:00:21Z	-
dc.date.issued	2019
dc.identifier.citation	HANZLÍČEK, Z.., VÍT, J.., TIHELKA, D.. LSTM-based Speech Segmentation for TTS Synthesis. In: Text, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedings. Cham: Springer, 2019. s. 361-372. ISBN 978-3-030-27946-2 , ISSN 0302-9743.	en
dc.identifier.isbn	978-3-030-27946-2
dc.identifier.issn	0302-9743
dc.identifier.uri	2-s2.0-85072850106
dc.identifier.uri	http://hdl.handle.net/11025/36611
dc.description.abstract	Tento článek popisuje experimenty se segmentací řeči pro účely TTS syntézy . Použili jsme obousměrnou LSTM neuronovou síť pro klasifikaci telefonů v rámečku a další obousměrnou LSTM síť pro predikci délky jednotlivých telefonů. Navrhovaná procedura segmentace kombinuje oba výstupy a najde optimální zarovnání řeč-foném pomocí dynamického programovacího přístupu. Zavedli jsme dvě modifikace pro zvýšení robustnosti klasifikace fonémů. Experimenty byly provedeny na 2 profesionálních a 2 amatérských hlasy. Bylo provedeno srovnání s referenční segmentací založenou na HMM s dalšími manuálními korekcemi. Preferenční poslechové testy ukázaly, že referenční a experimentální segmentace jsou rovnocenné, pokud jsou použity v systému TTS pro výběr jednotek.	cs
dc.format	12 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	en	en
dc.publisher	Springer	en
dc.relation.ispartofseries	Text, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedings	en
dc.rights	Plný text není přístupný.	cs
dc.rights	© Springer	en
dc.subject	Segmentace řeči, syntéza řeči, LSTM neuronové sítě	cs
dc.title	LSTM-based Speech Segmentation for TTS Synthesis	en
dc.title.alternative	Segmentace řeči založená na LSTM pro TTS syntézu	cs
dc.type	konferenční příspěvek	cs
dc.type	conferenceObject	en
dc.rights.access	closedAccess	en
dc.type.version	publishedVersion	en
dc.description.abstract-translated	This paper describes experiments on speech segmentation for the purposes of text-to-speech synthesis. We used a bidirectional LSTM neural network for framewise phone classification and another bidirectional LSTM network for predicting the duration of particular phones. The proposed segmentation procedure combines both outputs and finds the optimal speech-phoneme alignment by using the dynamic programming approach. We introduced two modifications to increase the robustness of phoneme classification. Experiments were performed on 2 professional voices and 2 amateur voices. A comparison with a reference HMM-based segmentation with additional manual corrections was performed. Preference listening tests showed that the reference and experimental segmentation are equivalent when used in a unit selection TTS system.	en
dc.subject.translated	Speech segmentation, Speech synthesis, LSTM neural networks	en
dc.identifier.doi	10.1007/978-3-030-27947-9_31
dc.type.status	Peer-reviewed	en
dc.identifier.obd	43926906
dc.project.ID	TH02010307/Automatická konzervace a rekonstrukce hlasu se zaměřením na pacienty po totální laryngektomii	cs
dc.project.ID	LO1506/PUNTIS - Podpora udržitelnosti centra NTIS - Nové technologie pro informační společnost	cs
Vyskytuje se v kolekcích:	Konferenční příspěvky / Conference Papers (KKY) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
Hanzlicek2019_Chapter_LSTM-BasedSpeechSegmentationFo.pdf	422,4 kB	Adobe PDF	Zobrazit/otevřít Vyžádat kopii

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/36611

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace