Gramatiskā tagošana

Pēdējais mainījis Administrator 2011-06-06 17:14

Gramatiskā tagošana

Valodas daļu tagošana (part-of-speach tagging) (43) jeb gramatiskā tagošana ir svarīga runas valodas un rakstu valodas apstrādašanā. Tai ir nozīmīga loma valodas daļu tagošanā morfoloģiski sarežģītām valodām, tādām kā, latviešu un latgaliešu valodas. Tā ir svarīga lielu vārdnīcu radīšanai, kas ir nepieciešamas robustai pareizrakstības pārbaudei.

Gramatiskā tagošana ir process, kura laikā tiek atzīmēti vārdi tekstā, kas atbilst kādai noteiktai valodas daļai jeb leksikas kategorijai. Tas tiek veikts gan balstoties uz leksikas kategorijas definīciju, gan uz kontekstu, tas ir, uz tās attiecībām ar citiem vārdiem frāzē, teikumā vai rindkopā. Vienkāršs gramatiskās tagošnas piemērs ir vārdu identificēšana kā lietvārdus, darbības vārdus, īpašības vārdus un tamlīdzīgi. Kādreiz šis uzdevums tika veikts „ar rokām”, bet mūsdienās gramatiskā tagošana tiek veikta lingvistiskās skaitļošanas (computational linguistics) (44) kontekstā izmantojot algoritmus, kas asociē diskrētos terminus, kā arī, apslēptās valodas daļas saskaņā ar aprakstošajiem tagiem.

Gramatiskās tagošanas uzdevumi ir atrisināmi ar universālu apmācības algoritmu palīdzību. Algoritms saņem nezināmā valodā notagotu tekstu korpusu (vajadzīgi vairāki simti tūkstošu izanalizētu vārdu formu vai pat vairāk (45)). Analizators saglabā visu informāciju, ko var iegūt no padotajiem tekstiem un pēc tam patstāvīgi spēj analizēt jaunus vārdus, pamanot vārdu darināšanas un galotņu veidošanas sakarības.

Izmantojot zināšanu bāzi, kas iegūta izmantojot morfoloģisko tagošanu var veikt tā saucamo tagošanu ar visu iespējamo variantu pārlasi, balstoties uz morfoloģiskajiem datiem. Tiek padota vārda forma un algoritms atgriež visas formāli iespējamās vārda izskaņas (-a, -ys, ...), visus iespējamos priedēkļus (ap-, pī-, ...), un tamlīdzīgi. Atdala tos, mēģina atrast pamatformu dotajā vārdnīcā, ja atrod, tad atrod atbilstošo gramatisko formu vai formas un tās izvada, piemēram:

"aizraksteja" -> 
"aiz-" + "-raksteja" -> 
"aiz-" + "rakst" + "-eja" -> 
"aiz-" + "raksteit" (pagātnes celms) + "-eja" ->
"aiz-" + "raksteit" (nākotnes celms) + "-eis"

Tādā veidā iegūst darāmās kārtas īstenības izteiksmes vienkāršās pagātnes 3.personas gan vienskaitļa, gan daudzskaitļa vārdu.

Pastāv daudz uzdevumu, kuros nav nepieciešams parsēt vārdus, bet nepieciešams savā starpā sasaistīt vārdu ar tā sakni vai arī jānorāda dzimte, skaitlis un citi parametri. Vienkāršu vārdu galotņu „nogriešanu” sauc par stumbrošanu (stemming) (68). Citu runas un rakstu valodas apstrādāšanas uzdevumu risināšanai ir nepieciešams zināt to vai vārdiem ir kopīga sakne, neskatoties uz parejām atšķirībām, piemēram, vārdiem „dzied”, „dziedās” un „dziedāja” ir viena un tā pati sakne.

Morfoloģiskā parsēšana ir saistīta ar sadalīšanu gabalos (tokenization) (69), tas ir ar vārdu izdalīšanu no teksta. Lai atvieglotu uzdevumu var izmantot atstarpes simbolu, bet dažos gadījumos, tas sarežģī uzdevumu, piemēram, būs problēmas ar nosakuma „Lielais Liepukalns” atpazīšanu. Nosaukums sastāv no diviem atsevišķirem vārdiem, kaut gan, katram vārdam atsevišķi ir sava nozīme.

Morfoloģiskās parsēšanas problēmu nevar atrisināt ar visu vārdu visu iespējamo morfoloģisko formu saraksta izveidošano morfoloģiski sarežģītam valodām. Kā piemēru varētu minēt turku valodu:

uygarlaştıramadıklarımızdanmışsınızcasına uygar +laş +tır +ama +dık +lar +ımız +dan +mış +sınız +casına „(behaving) as if you are among those whom we could not civilize”
„(uzvedoties) tā it kā tu būtu starp tiem, kurus mēs nevarējām civilizēt”

Šī pieeja nav piemērota arī mazām valodām, tas ir, tādām valodām, kurām ir maz tekstu vienā pieraksta formā. Kā piemēru varētu minēt latgaliešu valodu, jo tai ir nepietiekams elektronisku tekstu korpuss, kas viss būtu konsistentā ortogrāfijā turklāt būtu izanalizēts.

Atpakaļ uz saturu

Tagi:
Izveidojis Maris Steinbergs 2008-11-08 16:46
    
This wiki is licensed under a Creative Commons 2.0 license
XWiki Enterprise 6.4 - Documentation