Full metadata record
DC poleHodnotaJazyk
dc.contributor.authorHanzlíček, Zdeněk
dc.contributor.authorVít, Jakub
dc.contributor.authorTihelka, Daniel
dc.date.accessioned2020-03-09T11:00:21Z-
dc.date.available2020-03-09T11:00:21Z-
dc.date.issued2019
dc.identifier.citationHANZLÍČEK, Z.., VÍT, J.., TIHELKA, D.. LSTM-based Speech Segmentation for TTS Synthesis. In: Text, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedings. Cham: Springer, 2019. s. 361-372. ISBN 978-3-030-27946-2 , ISSN 0302-9743.en
dc.identifier.isbn978-3-030-27946-2
dc.identifier.issn0302-9743
dc.identifier.uri2-s2.0-85072850106
dc.identifier.urihttp://hdl.handle.net/11025/36611
dc.description.abstractTento článek popisuje experimenty se segmentací řeči pro účely TTS syntézy . Použili jsme obousměrnou LSTM neuronovou síť pro klasifikaci telefonů v rámečku a další obousměrnou LSTM síť pro predikci délky jednotlivých telefonů. Navrhovaná procedura segmentace kombinuje oba výstupy a najde optimální zarovnání řeč-foném pomocí dynamického programovacího přístupu. Zavedli jsme dvě modifikace pro zvýšení robustnosti klasifikace fonémů. Experimenty byly provedeny na 2 profesionálních a 2 amatérských hlasy. Bylo provedeno srovnání s referenční segmentací založenou na HMM s dalšími manuálními korekcemi. Preferenční poslechové testy ukázaly, že referenční a experimentální segmentace jsou rovnocenné, pokud jsou použity v systému TTS pro výběr jednotek.cs
dc.format12 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isoenen
dc.publisherSpringeren
dc.relation.ispartofseriesText, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedingsen
dc.rightsPlný text není přístupný.cs
dc.rights© Springeren
dc.subjectSegmentace řeči, syntéza řeči, LSTM neuronové sítěcs
dc.titleLSTM-based Speech Segmentation for TTS Synthesisen
dc.title.alternativeSegmentace řeči založená na LSTM pro TTS syntézucs
dc.typekonferenční příspěvekcs
dc.typeconferenceObjecten
dc.rights.accessclosedAccessen
dc.type.versionpublishedVersionen
dc.description.abstract-translatedThis paper describes experiments on speech segmentation for the purposes of text-to-speech synthesis. We used a bidirectional LSTM neural network for framewise phone classification and another bidirectional LSTM network for predicting the duration of particular phones. The proposed segmentation procedure combines both outputs and finds the optimal speech-phoneme alignment by using the dynamic programming approach. We introduced two modifications to increase the robustness of phoneme classification. Experiments were performed on 2 professional voices and 2 amateur voices. A comparison with a reference HMM-based segmentation with additional manual corrections was performed. Preference listening tests showed that the reference and experimental segmentation are equivalent when used in a unit selection TTS system.en
dc.subject.translatedSpeech segmentation, Speech synthesis, LSTM neural networksen
dc.identifier.doi10.1007/978-3-030-27947-9_31
dc.type.statusPeer-revieweden
dc.identifier.obd43926906
dc.project.IDTH02010307/Automatická konzervace a rekonstrukce hlasu se zaměřením na pacienty po totální laryngektomiics
dc.project.IDLO1506/PUNTIS - Podpora udržitelnosti centra NTIS - Nové technologie pro informační společnostcs
Vyskytuje se v kolekcích:Konferenční příspěvky / Conference Papers (KKY)
OBD

Soubory připojené k záznamu:
Soubor VelikostFormát 
Hanzlicek2019_Chapter_LSTM-BasedSpeechSegmentationFo.pdf422,4 kBAdobe PDFZobrazit/otevřít  Vyžádat kopii


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/36611

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání
navigace
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD