Automatic statistical evaluation of quality of unit selection speech synthesis with different prosody manipulations

Přibil, Jiří; Přibilová, Anna; Matoušek, Jindřich

Název:	Automatic statistical evaluation of quality of unit selection speech synthesis with different prosody manipulations
Další názvy:	Automatická statistická evaluace kvality syntézy řeči výběrem jednotek s různými prozodickými manipulacemi
Autoři:	Přibil, Jiří Přibilová, Anna Matoušek, Jindřich
Citace zdrojového dokumentu:	PŘIBIL, J., PŘIBILOVÁ, A., MATOUŠEK, J. Automatic statistical evaluation of quality of unit selection speech synthesis with different prosody manipulations. Journal of Electrical engineering, 2020, roč. 71, č. 2, s. 78-86. ISSN 1335-3632.
Datum vydání:	2020
Nakladatel:	De Gruyter
Typ dokumentu:	článek article
URI:	2-s2.0-85085749611 http://hdl.handle.net/11025/42609
ISSN:	1335-3632
Klíčová slova:	poslechový test;objektivní a subjektivní hodnocení;kvalita syntetické řeči;statistická analýza
Klíčová slova v dalším jazyce:	listening test;objective and subjective evaluation;quality of synthetic speech;statistical analysis
Abstrakt:	Kvalita syntézy řeči je zásadním problémem při porovnávání různých systémů převodu textu na řeč (TTS). Navrhli jsme systém pro automatické hodnocení kvality řeči pomocí statistické analýzy časových příznaků (doba trvání, frázování a časové členění analyzované věty) spolu se standardními spektrálními a prozodickými příznaky. Tento systém byl úspěšně testován na větách produkovaných syntetizátorem řeči založeném na principu výběru jednotek s mužským i ženským hlasem s využitím dvou různých přístupy k manipulaci prozodie. Experimenty ukázaly, že pro správné a stabilní výsledky jsou všechny tři typy řečových příznaků (spektrální, prozodické a časové) nezbytné. Počet použitých statistických parametrů má navíc významný dopad na správnost a přesnost hodnocených výsledků. Bylo také prokázáno, že stabilitu celého procesu hodnocení lze vylepšit rozšířením použitého řečového materiálu. Funkčnost navrhovaného systému byla nakonec ověřena porovnáním s výsledky standardního poslechového testu.
Abstrakt v dalším jazyce:	Quality of speech synthesis is a crucial issue in comparison of various text-to-speech (TTS) systems. We proposed a system for automatic evaluation of speech quality by statistical analysis of temporal features (time duration, phrasing, and time structuring of an analysed sentence) together with standard spectral and prosodic features. This system was successfully tested on sentences produced by a unit selection speech synthesizer with a male as well as a female voice using two different approaches to prosody manipulation. Experiments have shown that for correct, sharp, and stable results all three types of speech features (spectral, prosodic, and temporal) are necessary. Furthermore, the number of used statistical parameters has a significant impact on the correctness and precision of the evaluated results. It was also demonstrated that the stability of the whole evaluation process is improved by enlarging the used speech material. Finally, the functionality of the proposed system was verified by comparison of the results with those of the standard listening test.
Práva:	© De Gruyter
Vyskytuje se v kolekcích:	Články / Articles (KKY) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
[1339309X - Journal of Electrical Engineering] Automatic statistical evaluation of quality of unit selection speech synthesis with different prosody manipulations.pdf	296,26 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/42609

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace