Title: | Neural Sign Language Synthesis: Words Are Our Glosses |
Other Titles: | Syntéza znakového jazyka pomocí neuronových sítí: Slova jsou naše glosy |
Authors: | Zelinka, Jan Kanis, Jakub |
Citation: | ZELINKA, J., KANIS, J. Neural Sign Language Synthesis: Words Are Our Glosses. In: 2020 IEEE Winter Conference on Applications of Computer Vision (WACV). USA: IEEE, 2020. s. 3384-3392. ISBN 978-1-72816-553-0, ISSN 2472-6737. |
Issue Date: | 2020 |
Publisher: | IEEE |
Document type: | konferenční příspěvek conferenceObject |
URI: | 2-s2.0-85085480480 http://hdl.handle.net/11025/42772 |
ISBN: | 978-1-72816-553-0 |
ISSN: | 2472-6737 |
Keywords: | Znakový jazyk;syntéza;neuronové sítě |
Keywords in different language: | Sign Language;Synthesis;Neural Networks |
Abstract: | Tento článek se zabývá syntézou znakového jazyka typu text-video. Místo přímé produkce videa jsme se zaměřili na výrobu skeletových modelů. Naším hlavním cílem v tomto příspěvku bylo navrhnout plně end-to-end systém automatické syntézy znakového jazyka vyškolený pouze na dostupných volných datech (denní televizní vysílání). Proto jsme vyloučili jakoukoli manuální anotaci videa. Náš navržený přístup se navíc nespoléhá na žádnou segmentaci videa. Byl zkoumán navrhovaný dopředný transformátor a rekurentní transformátor. Abychom zlepšili výkon našeho transformátoru sekvence na sekvenci, byla v našem tréninkovém procesu použita měkká nemonotónní pozornost. Výhoda funkcí na úrovni znaků byla porovnána s funkcemi na úrovni slov. Naše experimenty jsme zaměřili na soubor dat o předpovědi počasí v českém znakovém jazyce. |
Abstract in different language: | This paper deals with a text-to-video sign language synthesis. Instead of direct video production, we focused on skeletal models production. Our main goal in this paper was to design a fully end-to-end automatic sign language synthesis system trained only on available free data (daily TV broadcasting). Thus, we excluded any manual video annotation. Furthermore, our designed approach even do not rely on any video segmentation. A proposed feed-forward transformer and recurrent transformer were investigated. To improve the performance of our sequence-to-sequence transformer, soft non-monotonic attention was employed in our training process. A benefit of character-level features was compared with word-level features. We focused our experiments on a weather forecasting dataset in the Czech Sign Language. |
Rights: | Plný text není přístupný. © IEEE |
Appears in Collections: | Konferenční příspěvky / Conference papers (NTIS) Konferenční příspěvky / Conference Papers (KKY) OBD |
Files in This Item:
File | Size | Format | |
---|---|---|---|
WACV2020_Zelinka_NErural_sign_Language.pdf | 502,21 kB | Adobe PDF | View/Open Request a copy |
Please use this identifier to cite or link to this item:
http://hdl.handle.net/11025/42772
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.