Název: | LSTM-based Speech Segmentation for TTS Synthesis |
Další názvy: | Segmentace řeči založená na LSTM pro TTS syntézu |
Autoři: | Hanzlíček, Zdeněk Vít, Jakub Tihelka, Daniel |
Citace zdrojového dokumentu: | HANZLÍČEK, Z.., VÍT, J.., TIHELKA, D.. LSTM-based Speech Segmentation for TTS Synthesis. In: Text, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedings. Cham: Springer, 2019. s. 361-372. ISBN 978-3-030-27946-2 , ISSN 0302-9743. |
Datum vydání: | 2019 |
Nakladatel: | Springer |
Typ dokumentu: | konferenční příspěvek conferenceObject |
URI: | 2-s2.0-85072850106 http://hdl.handle.net/11025/36611 |
ISBN: | 978-3-030-27946-2 |
ISSN: | 0302-9743 |
Klíčová slova: | Segmentace řeči, syntéza řeči, LSTM neuronové sítě |
Klíčová slova v dalším jazyce: | Speech segmentation, Speech synthesis, LSTM neural networks |
Abstrakt: | Tento článek popisuje experimenty se segmentací řeči pro účely TTS syntézy . Použili jsme obousměrnou LSTM neuronovou síť pro klasifikaci telefonů v rámečku a další obousměrnou LSTM síť pro predikci délky jednotlivých telefonů. Navrhovaná procedura segmentace kombinuje oba výstupy a najde optimální zarovnání řeč-foném pomocí dynamického programovacího přístupu. Zavedli jsme dvě modifikace pro zvýšení robustnosti klasifikace fonémů. Experimenty byly provedeny na 2 profesionálních a 2 amatérských hlasy. Bylo provedeno srovnání s referenční segmentací založenou na HMM s dalšími manuálními korekcemi. Preferenční poslechové testy ukázaly, že referenční a experimentální segmentace jsou rovnocenné, pokud jsou použity v systému TTS pro výběr jednotek. |
Abstrakt v dalším jazyce: | This paper describes experiments on speech segmentation for the purposes of text-to-speech synthesis. We used a bidirectional LSTM neural network for framewise phone classification and another bidirectional LSTM network for predicting the duration of particular phones. The proposed segmentation procedure combines both outputs and finds the optimal speech-phoneme alignment by using the dynamic programming approach. We introduced two modifications to increase the robustness of phoneme classification. Experiments were performed on 2 professional voices and 2 amateur voices. A comparison with a reference HMM-based segmentation with additional manual corrections was performed. Preference listening tests showed that the reference and experimental segmentation are equivalent when used in a unit selection TTS system. |
Práva: | Plný text není přístupný. © Springer |
Vyskytuje se v kolekcích: | Konferenční příspěvky / Conference Papers (KKY) OBD |
Soubory připojené k záznamu:
Soubor | Velikost | Formát | |
---|---|---|---|
Hanzlicek2019_Chapter_LSTM-BasedSpeechSegmentationFo.pdf | 422,4 kB | Adobe PDF | Zobrazit/otevřít Vyžádat kopii |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/36611
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.