Cross-lingual word analogies using linear transformations between semantic spaces

Brychcín, Tomáš; Taylor, Stephen; Svoboda, Lukáš

Název:	Cross-lingual word analogies using linear transformations between semantic spaces
Další názvy:	Kroslinguální slovní analogie pomocí lineárních transformací sémantických prostorů
Autoři:	Brychcín, Tomáš Taylor, Stephen Svoboda, Lukáš
Citace zdrojového dokumentu:	HEIGL, M., DÖRR, L., TIEFNIG, N., FIALA, D., SCHRAMM, M. A resource-preserving self-regulating Uncoupled MAC algorithm to be applied in incident detection. Computers & Security, 2019, roč. 85, č. AUG 2019, s. 270-287. ISSN 0167-4048.
Datum vydání:	2019
Nakladatel:	Elsevier
Typ dokumentu:	článek article
URI:	2-s2.0-85066237307 http://hdl.handle.net/11025/35855
ISSN:	0957-4174
Klíčová slova:	Slovní analogie;Sémantické prostory;Lineární transformace;Slovní reprezentace;Kroslinguální sémantické prostory
Klíčová slova v dalším jazyce:	Word analogies;Semantic spaces;Linear transformation;Word embeddings;Cross-lingual semantic spaces
Abstrakt:	Schopnost reprezentovat význam slov je jedna ze základních úloh porozumění přirozenému jazyku (NLU) s aplikacemi do strojového překladu, sumarizace, odpovídání na otázky, vyhledávání informací atd. Poptávka po schopnosti zpracovávat multilinguální kontexty a přenášet znalosti mezi jazyky ovlivnila výzkum v oblasti kroslinguálních sémantických prostorů, které reprezentují význam slov napříč různými jazyky. S rostoucím zájmem o kroslinguální reprezentace je čím dál tím více důležité zkoumat vhodné způsoby evaluace. Evaluace založená na slovních analogiích je jedna z nejčastějších nástrojů pro evaluaci lingvistických vztahů (např. vztah muž vs. žena nebo vztahy mezi slovesnými časy) zakódovaných v monolinguálních reprezentacích významu. V tomto článku jdeme dál a zobecňujeme evaluaci slovních analogií na více jazyků. Přinášíme tak nový evaluační nástroj pro kroslinguální sémantické prostory. Náš přístup umožňuje zkoumání kroslinguálních projekcí a jejich vlivu na různé aspekty významu. Pomáháme tak odhalit slabiny nebo silné stránky kroslinguálních metod, a to dříve, než jsou použity ve finálních inteligentních systémech. Experimentujeme se šesti jazyky z různých rodin včetně angličtiny, němčiny, španělštiny, italštiny, češtiny a chorvatštiny. Nejnovější monolinguální sémantické prostory jsou transformovány do sdíleného prostoru pomocí slovníku překladů. Porovnáváme několik lineárních transformací a experimentujeme s monolinguálními (bez transformace), bilinguálními (jeden sémantický prostor je transformován do druhého) a multilinguálními (všechny sémantické prostory jsou transformovány do angličtiny) verzemi sémantických prostorů. Ukazujeme, že testované lineární transformace ponechávají vztahy mezi slovy (slovní analogie) a vedou k velmi zajímavým výsledkům. Dosahujeme průměrných přesností 51,1 % pro monolinguální, 43,1 % pro bilinguální a 38,2 % pro multilinguální sémantické prostory.
Abstrakt v dalším jazyce:	The connectivity of embedded systems is increasing accompanied with thriving technology such as Internet of Things/Everything (IoT/E), Connected Cars, Smart Cities, Industry 4.0, 5G or Software-Defined Everything. Apart from the benefits of these trends, the continuous networking offers hackers a broad spectrum of attack vectors. The identification of attacks or unknown behavior through Intrusion Detection Systems (IDS) has established itself as a conducive and mandatory mechanism apart from the protection by cryptographic schemes in a holistic security eco-system. In systems where resources are valuable goods and stand in contrast to the ever increasing amount of network traffic, sampling has become a useful utility in order to detect malicious activities on a manageable amount of data. In this work an algorithm – Uncoupled MAC – is presented which secures network communication through a cryptographic scheme by uncoupled Message Authentication Codes (MAC) but as a side effect also provides IDS functionality producing alarms based on the violation of Uncoupled MAC values. Through a novel self-regulation extension, the algorithm adapts its sampling parameters based on the detection of malicious actions. The evaluation in a virtualized environment clearly shows that the detection rate increases over runtime for different attack scenarios. Those even cover scenarios in which intelligent attackers try to exploit the downsides of sampling.
Práva:	© Elsevier
Vyskytuje se v kolekcích:	Články / Articles (KIV) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
ESWA Brychcín.pdf	741,6 kB	Adobe PDF	Zobrazit/otevřít Vyžádat kopii

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/35855

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace