Systém na automatické rozpoznávanie a prepis mítingových audiozáznamov

Pracovisko: Katedra elektroniky a multimediálnych telekomunikácií, FEI TUKE 

Identifikácia  pilotného projektu Systém na automatické rozpoznávanie a prepis mítingových audiozáznamov

Kontakt: prof. Ing. Jozef JUHÁR, CSc., jozef.juhar@tuke.sk

Pozadie: Pilotný projekt bol realizovaný Laboratóriom rečových technológií KEMT FEI TU v Košiciach, ktorého vedecko-výskumná činnosť je zamerané na teoretické a aplikačné aspekty rečových technológií pre slovenčinu. Mnohoročné skúsenosti a ako aj  materiálne a personálne predpoklady sú základom pre vývoj aplikácií pre praktické použitie.
Poslanie PP: Ciele pilotného projektu: Výskum a vývoj systému, ktorý realizuje záznam hovoreného slova na mítingu, dokáže prepísať hovorenú reč do textovej formy, zrealizuje automatickú indexáciu a synchronizáciu audiozáznamov a textových prepisov a umožní ich prípadnú archiváciu a neskoršie prehľadávanie.
Technické (prístrojové) vybavenie: Existujúce (pôvodné) prístrojové vybavenie: Štvorica výkonných výpočtových serverov 2x IBM x3650 M2, 1x HP ProLiant DL380 G7 a 1x IBM x3850 X5 v zostave s diskovým poľom, dvojica výpočtových serverov Intel Core i7 a Intel Xeon, šestica výkonných pracovných staníc HP ZBook, príručné zariadenie na meranie hladiny zvuku a vibrácií Bruel & Kjaer Analyzer Type 2270-S, elektroakustický merací systém Audiomatica Clio, mikrofónne pole Dev-Audio Microcone, a i.

Prístrojové vybavenie získané z projektu UVP TECHNICOM: Výkonný multiprocesorový výpočtový server IBM x3650 M4 s GPGPU kartou Tesla K40 v zostave s diskovým poľom, dvojica výkonných výpočtových serverov IBM x3630 M4, sústava špeciálnych mikrofónnych snímačov, digitálne zvukové záznamové pracovisko, mobilný robotický systém s humanoidným robotom NAO firmy Aldebaran, multimodálne komunikačné a prezentačné pracovisko na báze Microsoft Xbox One a akusticko-lingvistický korpus.

Dosiahnuté výsledky riešenia: Bol vyvinutý funkčný vzor systému na automatické rozpoznávanie a prepis audio-záznamov z pracovných stretnutí, rokovaní zastupiteľských orgánov a komisií realizovaných v malých konferenčných miestnostiach. Vstupná časť systému (front-end) pracuje v dvoch nezávislých režimoch. Online režim vykonáva viackanálový záznam reči zo sférického mikrofónneho poľa s podporou automatickej lokalizácie polohy a sledovania hovoriacich na základe testu dominancie priamej cesty a metódy priestorovej filtrácie (beamforming). Offline režim vykonáva pokročilé spracovanie viackanálového záznamu, založené na automatickej segmentácie reči, detekcie rečovej aktivity a automatickej diarizácie hovoriacich prítomných v audiozázname. Back-end časť systému podporuje viacprechodové paralelné rozpoznávanie reči so spájaním hypotéz a adaptáciou modelov reči a jazyka na hlasové charakteristiky hovoriaceho a štýl jeho prejavu. Systém dokáže synchronizovať audiozáznam s jeho textovým prepisom s možnosťou jeho archivácie, neskoršieho prehľadávania a manažmentu.
Spôsob transferu výstupov riešenia do praxe: Výsledok projektu môže byť základom pre vznik spoločného výskumného pracoviska s privátnym sektorom, resp. “start-up” podnikateľského subjektu.