Název: Automatic topic identification for large scale language modeling data filtering
Další názvy: Automatická identifikace tématu pro filtraci velkého množství dat pro jazykové modelování
Autoři: Skorkovská, Lucie
Ircing, Pavel
Pražák, Aleš
Lehečka, Jan
Citace zdrojového dokumentu: SKORKOVSKÁ, Lucie; IRCING, Pavel; PRAŽÁK, Aleš; LEHEČKA, Jan. Automatic topic identification for large scale language modeling data filtering. In:Text, speech and dialogue. Berlin: Springer, 2011, p. 64-71. (Lecture notes in computer science; 6836). ISBN 978-3-642-23537-5.
Datum vydání: 2011
Nakladatel: Springer
Typ dokumentu: článek
article
URI: http://www.kky.zcu.cz/cs/publications/SkorkovskaL_2011_AutomaticTopic
http://hdl.handle.net/11025/16984
ISBN: 978-3-642-23537-5
Klíčová slova: identifikace tématu;jazykové modelování;automatické rozpoznávání řeči
Klíčová slova v dalším jazyce: topic identification;language modelling;automatic speech recognition
Abstrakt: Tento článek představuje modul pro identifikaci tématu, který je součástí komplexního systému pro získávání, zpracování a ukládání velkého množství textových dat z webových stránek. Modul zpracovává získaná data a přiřazuje jim klíčová slova z hierarchie témat, která byla vytvořena pro tyto účely. Kvalita identifikace tématu je vyhodnocena dvěma způsoby - za použití klasických měr přesnosti a úplnosti, ale také nepřímo, měřením úspěšnosti ASR systému s použitím tématicky orientovaných jazykových modelů vytvořených z takto automaticky filtrovaných dat.
Abstrakt v dalším jazyce: The paper presents a module for topic identification that is embedded into a complex system for acquisition and storing large volumes of text data from the Web. The module processes each of the acquired data items and assigns keywords to them from a defined topic hierarchy that was developed for this purposes and is also described in the paper. The quality of the topic identification is evaluated in two ways - using classic precision-recall measures and also indirectly, by measuring the ASR performance of the topic-specific language models that are built using the automatically filtered data.
Práva: © Lucie Skorkovská - Pavel Ircing - Aleš Pražák - Jan Lehečka
Vyskytuje se v kolekcích:Články / Articles (KKY)
Články / Articles (NTIS)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
SkorkovskaL_2011_AutomaticTopic.pdfPlný text172,9 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/16984

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.