Multimedijų paieška

Multimedijų paieška - tai tikriausiai vienas iš efektyviausių kalbos atpažinimo įrankių. Teksto informacija galima gauti automatinio atpažinimo dėka be įrašų klausymo. Toks įrankis labai naudingas ypač dabar, kai reikia dirbti su daug tekstų bei įrašų. 

Kalbotyros dalis

Šis įrankis kombinuoja kalbos atpažimą su kitais mūsų kalbos technologijomis, pvz., tekstine paieškatezauru ir net su daugiakalbe paieška. Naudoti galima taip pat balso paieška.

Techninė dalis

Kalbos atpažinimo įrankis - svarbiausia šios technologijos dalis. Visi tekstai turėtų būti paruošti lemuokliu (tai reiškia pateikti žodžio pagrindinę formą). Tai labai svarbi dalis - perteikti įrašą į parašytą tekstą (svarbu pasirūpinti daugreikšmiais žodžiais bei frazėmis). Prieš indeksavimo visi tekstai turi būti "prieš-apdoroti" lemuokliu (tai reiškia surasti žodžio lema) morfologiniai paieškai arba vertimui į indeksavimo kalbą. Duomenys saugomos indekso forma bei apdoroti paieškos sistema. Rezultatai apdoroti, pvz., lemazavimu formų lematizavimu (tai reiškia įvairios kintančio žodžio formos sugrupuotos, kad gali būti analizuotos kartu), synonymų įrankiu arba vertimu į indeksavimo kalbą.

Atpažinimo įrankiams reikia gana daug skaičiavimo įrenginio atžvilgiu bei jų skaičiavimo galai turi būti pritaikyta tam, kad sugebėtų konvertuti indeksuotus įrašus į tekstus per mažą  laiką.

Viskam reikia gana mažai laiko, nes taip pat veikia gana daug procesų tuo pačiu metu. Todėl atpažinimo įrankio indeksavimas greitesnis. Procesui gali padėti taip pat greiti SSD diskai, arba jų atspindys kitose diskose, arba kiti paiškos serveriai.