Pareizrakstības kļūdu atrašana un labošana

Pēdējais mainījis Administrator 2011-06-06 17:14

Pareizrakstības kļūdu atrašana un labošana

Pareizrakstības kļūdu atklāšana un labošana ir neatņemama mūsdienu teksta redaktoru un meklēšanas rīku sastāvdaļa. Tā ir arī svarīga simbolu optiskajai atpazīšanai (77), tas ir, automātiskai mašīnraksta vai rokraksta atpazīšanā un rokraksta atpazīšanai tiešsaistē, tas ir, cilvēka rakstīta teksta atpazīšana rakstīšanas laikā.

Ir iespējams izšķirt trīs plašākas problēmas (77):

  1. nevārdu kļudu atrašana – pareizrakstības kļūdu atrašana, kas vārdu pārvērš par nevārdiem, piemēram, noskaidrot, ka „skdra” jābūt „skudra”,
  2. izolēto vārdu kļūdu labošana – pareizrakstības kļūdu labošana, kas ir pārvērtušas vārdus par nevārdiem, piemēram, „skdra” izlabot par „skudra”,
  3. no konteksta atkarīgo kļūdu atrašana un labošana – izmantot kontekstu, lai noskaidrotu pareizrakstības kļūdas (reālo vārdu kļūdas) pat, ja tās ir eksistējošs vārds dotajā valodā. Tas var notikt drukas kļūdas rezultātā (ievietojot, dzēšot, pārvietojot) vai arī rakstītāja kļūdas dēļ (piemēram, „tur” vietā uzrakstīt „tu”).

Nevārdu kļūdu atrašana parasti tiek veikta atzīmējot katru vārdu, kas netika atrasts vārdnīcā, piemēram, ja vārds „skdra” būtu vārdnīcā, tad kļūda netiktu atrasta. Dažos agrīnajos pētījumos (78) tiek ieteikts šādas vārdnīcas veidot nelielas, jo lielās vārdnīcas satur daudz retu vārdu, kas atgādina citu vārdu kļūdainās formas. Vēlākie pētījumi (79) gan pierādīja, ka lielās vārdnīcas praksē ir daudz noderīgākas par mazajām vārdnīcām, jo ir iespējams izvairīties no kļūdām retos vārdos. Tas ir spēkā it īpaši, ja tiek lietoti varbūtīgās (probabilistic) pareizrakstības labošanas algoritmi. Tātad modernās pareizrakstības pārbaudes sistēmas visdrīzāk tiek balstītas uz lielām vārdnīcām.

Lielas vārdnīcas var realizēt izmantojot galīga stāvokļa parsētājus. Galīga stāvokļa parsētājs pats par sevi ir vārdu atpazinējs. Galīga stāvokļa pārveidotāju, tas ir, morfoloģijas parsētāju, var pārveidot par ļoti efektīvu galīga stāvokļa automātu, tas ir, vārdu atpazinēju, izmantojot projekcijas operāciju, lai iegūtu zema līmeņa valodas grafu. Galīga stāvokļa pārveidotāju vārdnīcām ir priekšrocības produktīvu morfoloģiju (80) attēlošanā. Tas ir svarīgi, ja ir jādarbojas ar jaunām vārdu sakņu un vārdu piedēkļu kombinācijām. Piemēram, jauna sakne var tikt pievienota vārdnīcai un visas jaunā vārda formas tiks viegli atpazītas. Šī īpašība padara galīga stāvokļa pārveidotājus par ļoti noderīgu rīku pareizrakstības pārbaudei morfoloģiski bagātās valodās, kurās vienai vārda saknei var būt desmiti vai simti iespējamo formu.

Galīga stāvokļa vārdnīcas ir noderīgs rīks nevārdu kļūdu atrašanā. Kļūdu labošanas mehānismu varētu izveidot no algoritma, kas meklētu vārdnīcā iespējami tuvāko vārdu kļūdainajam, un no vārdnīcas. Lai izvēlētos tuvāko no iespējami pareizajiem vārdiem ir nepieciešams ieviest distances metriku (distance metric) (81) starp vārdnīcā atrastajiem vārdiem un kļūdaino vārdu. Sākotnēji šķiet, ka veids kā to paveikt ir likt lietā varbūtības teoriju, kaut gan, algoritms, kas to veiksmīgi dara ir ne-varbūtības minimālās rediģēšanas distances (82) algoritms.

Atpakaļ uz saturu

Tagi:
Izveidojis MarisSteinbergs 2007-12-30 19:37
    
This wiki is licensed under a Creative Commons 2.0 license
XWiki Enterprise 6.4 - Documentation