Název: | Počítačové vidění s hlasovou interakcí na Raspberry Pi |
Další názvy: | Voice-interactive computer vision on Raspberry Pi |
Autoři: | Adamec, Martin |
Vedoucí práce/školitel: | Bulín Martin, Ing. M.Sc. |
Oponent: | Neduchal Petr, Ing. Ph.D. |
Datum vydání: | 2023 |
Nakladatel: | Západočeská univerzita v Plzni |
Typ dokumentu: | bakalářská práce |
URI: | http://hdl.handle.net/11025/55042 |
Klíčová slova: | počítačové vidění;hlasová interakce;rapsberry pi;human-in-the-loop dialog |
Klíčová slova v dalším jazyce: | computer vision;voice interaction;rapsberry pi;human-in-the-loop dialog |
Abstrakt: | Umělé neuronové sítě dnes v oblasti počítačového vidění výrazně překonávají "klasické" přístupy, ale mají své vlastní problémy. Trénování umělé neuronové sítě je úkol značně náročný na zdroje (jak z hlediska potřebného hardwaru a výpočetního času, tak i z hlediska potřebných trénovacích dat), po kterém je síť schopna na základě trénovacích dat rozpoznat pouze omezený počet tříd. Vznikne-li požadavek na začlenění nové třídy do rozpoznávacích schopností neuronové sítě, je nutné síť přetrénovat, a to buď od začátku, čímž se dříve vypočtené váhy a prahy stanou irelevantními, nebo pomocí takzvaného "transfer learningu", což je přístup založený na využití vah a prahů získaných z nějakého předchozího trénování sítě, čímž se výrazně zredukuje čas a zdroje potřebné k dosažení požadované přesnosti modelu. V této bakalářské práci je takový koncept využit při implementaci hlasového dialogového systému pro přetrénovávání modelů počítačového vidění, který umožňuje uživateli interaktivně učit systém rozpoznávat nové tváře a objekty. Přesnost hlasového dialogového systému je vyhodnocena prostřednictvím několika experimentů, které prokazují jeho potenciál pro zlepšení přesnosti a adaptability modelů počítačového vidění. |
Abstrakt v dalším jazyce: | Artificial neural networks nowadays outperform the "classical" approaches in the area of computer vision by a significant margin, but they come with their own set of problems. Training an artificial neural network is an extremely time-consuming and resource-intensive task (both in terms of necessary hardware and training data), after which the network is able to recognize only a limited collection of classes based on the training data. If a requirement to incorporate a new class into a neural network's recognition capabilities arises, it is necessary to retrain the network, either from scratch, rendering the previously computed weights and biases obsolete, or by using the so-called "transfer learning", an approach based on utilizing the weights and biases obtained from some previous training process, significantly reducing the time and resources needed to achieve the required accuracy of the model. In this bachelor thesis, such concept is utilized in an implementation of a voice dialog system for retraining computer vision models, allowing the user to interactively teach the system to recognize new faces and objects. The effectiveness of the voice dialog system is evaluated through multiple experiments, demonstrating its potential to improve the accuracy and adaptability of computer vision models. |
Práva: | Plný text práce je přístupný bez omezení |
Vyskytuje se v kolekcích: | Bakalářské práce / Bachelor´s works (KKY) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
adamecm_one_of_the_bachelor_theses_ever_made.pdf | Plný text práce | 6,69 MB | Adobe PDF | Zobrazit/otevřít |
PosudekVedoucihoSTAG.pdf | Posudek vedoucího práce | 60,82 kB | Adobe PDF | Zobrazit/otevřít |
PosudekOponentaSTAG.pdf | Posudek oponenta práce | 61,22 kB | Adobe PDF | Zobrazit/otevřít |
Prubeh obhajoby Adamec.pdf | Průběh obhajoby práce | 52,11 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/55042
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.