Tekstinė paieška

Tekstinės paieškos programinei įranga padeda ieškoti žodį bet kokia forma. Pavyzdžiui, kai ieškojama frazę kurzy akcií (akcijų kursai), būtų gerai, jei programa surastų taip pat straipsnį vývoj kurzu akcií (akcijų kursų pokyčiai) arba tiesiog akcie (akcijos). Šiam tikslui tinka mūsų įrankis, kuris siūlo:

  • pagrindinę žodžio formą
  • visas ieškojamo žodžio formas

Pagrindinė žodžio forma (lema) - pvz. daiktavardžio vienaskaitos vardininkas, veiksmažodžio bendratis ir pan. Bet įvairiose kalbos galima atsirasti ir gana daug išimčių, pvz., bulgarų kalboje nėra bendraties, kaip pagrindinė forma naudojama veiksmažodžio vienaskaito pirmas asmuo, vengrų kalba naudoja bendratį, bet kaip lemą naudojama vienaskaito trečias asmuo.

Kalbotyros technologija

Panašiai kaip rašybos tikrintuvai, šis įrankio pagrindas - kalbos morfologija su pridedama informacija. Dažniausia apimtos šios kategorijos:

  • daiktavardžio ir būdvardžio linksnis, skaičius bei giminė
  • veiksmažodžio asmuo, skaičius, nuosaka, laikas bei veikslas
  • įvardžio, skaitavardžio, prieveiksmo bei jungtuko kategorijos

Surasti žodžio pagrindinę formą dažnai nelengva. Yra daug netaisyklingų žodžių formų, verta paminėti pvz. kamieno kaita čekų kalboje  (mráz-mrazustůl-stoluBůh-Bohubrontosaurus-brontosauřipelyněk-pelyňkupéct-pečestonat-stůně, arba net hnát-ženuZeus-Diačest-cti  ir t. t. Tiesiog yra ir tokių vieno žodžio formų, kurie net visai skiriasi. Panašų žodžių - beveik visose kalbose. Pvz., anglu kalbos tokio tipo tipiškos poros - come-camebreak-broken arba go-went.

Dar kita kliūtis - homonimija. Daug žodžių neturi aiškų kamienų, pvz., čekų kalbos žodis ženu - daiktavardžio žena (moteris) vienaskaitos galininkas arba veiksmažodžio hnát (varyti) vienaskaitos pirmas asmuo. Žodis hnát taip pat gali reiškia galūnė (ranka arba koja). Yra daug tokių pavyzdžių, todėl ir paieškos rezultatų tiesiog gali būti daugiau, bet kas svarbu - kad visi teisingi.

Programinė įranga

Mūsų programinė įranga - labai ekonomiška. Ar žinote, kad, pvz., čekų kalboje daugiau negu 6 700 000 žodžių formų? Nors formų tiek daug, mūsų paieškai ir su visa morfologine informacije užtenka 1MB.

Funkcijos

  • surasta pagrindinė žodžio forma
  • surastos visos ieškojamo žodžio formos
  • daiktavardžio ir būdvardžio junginių linksniavimas, pvz. akciová společnostakciové společnosti, ..., akciovou společnostíakciové společnosti ir t.t.

Siūlome daug kalbų tekstinę paiešką (prašom pasižiūrėti), kuri veikia ir daug platormų (čia). Kad įrankis būtų dar vartotui draugiškesnis, siūlome naudoti taip pat mūsų tezaurą, sininimų žodyną. Tektsinę paiešką galima kombinuoti ir su kitomis mūsų vertimo technologijomis.

Referencijos

Mūsų tekstinė paieška naudojama įvairiose paieškos sistemose.