Vārdu un teikumu atdalīšana

Pēdējais mainījis Administrator 2011-06-06 17:14

Vārdu atdalīšana var šķist ļoti vienkāršs uzdevums tādās valodās kā angļu un latviešu, kurās vārdi tiek atdalīti ar specialu atstarpes simbolu. Ne katrā valodā tas tiek darīts, piemēram, ķīniešu, japāņu un taizemiešu valodās tas netiek darīts.

Ja tuvāk aplūko latviešu valodu, tad ātri vien kļūst skaidrs, ka ar vienkāršu atdalīšanu, vadoties pēc atstarpes simbola, nepietiek. Kā piemēru var apskatīt sekojošu tekstu no laikraksta Diena (ceturtdiena, 27. decembris, 2007), skatīt 1. tekstu:

Tomēr „es neplānoju iesaistīties politikā, pirms jutīšos droši, un arī tad vispirms būs jānovērtē
kopējā situācija”, viņš apgalvoja AP žurnālistam Honkongā sarīkotā preses konferencē. Kā galveno 
atgriešanās iemeslu T.Šinavatra minēja vēlmi stāties tiesas priekšā par viņam izvirzītajiem 
apvainojumiem korupcijā.
1. teksts

Atdalot vārdus vadoties tikai pēc atstarpes simbola tiks iegūti sekojoši vārdi:

Situācija”,	droši,		T.Šinavatra	konferencē

Šīs kļūdas varētu risināt ņemot vērā punktuācijas simbolus kopā ar atstarpes simbolu, kā vārdu atdalītājus. Šeit nākas saskarties ar nākošo problēmu – punktuācija pastāv arī starp vārdiem, piemēram, „t.i.”, „01/02/06” un „google.com”. Līdzīgi, ja pieņem, ka „62.5” ir viens vārds, tad ir jāizvairās no segmentācijas ap punkta simbolu, tā kā, pretējā gadījumā „62.5” tiks sadalīts par „62” un „5”. Dažādām valodām punktuācija skaitļos ir dažāda, piemēram, angļu valodā komats tiek izmantots, lai atdalītu katrus trīs ciparus (555,500.50), bet vācu valodā komats tiek izmantots, lai atdalītu decimāldaļu, kā arī tiek izmantotas arī atstarpes ciparu atdalīšanai (555 500,50).

Teikumu segmentācija ir pirmais solis teksta apstrādē. Parasti teksta sadale teikumos tiek balstīta uz punktuācijas simboliem, jo noteikti simboli (jautājuma zīmes, izsaukuma zīmes un punkti) iezīmē teikumu sākumu un beigas. Punkta simbols nav viennozīmīgi interpretējams, jo tas tiek lietots arī abreviatūrās un citur. Kā piemēru varētu minēt „T.Šinavatra” no 1. teksta. Šī iemesla dēļ vārdu un teikumu segmentācijas problēmas tiek risinātas saistīti.

Parasti teikumu atdalīšanas metodes darbojas ar binārā klasifikatora palīdzību, kas balstīts uz virkni noteikumu vai arī uz automatizētās mācīšanās algoritmiem. Binārais klasifikators nosaka vai punktuācijas simbols ir daļa no vārda vai arī tas ir teikuma robežas apzīmējums. Bieži vien tiek biežāk izmantoto abreviatūru vārdnīca, lai samazinātu kļūdīšanās iespēju.

Atdalītājus var samērā vienkārši konstruēt izmantojot galīga stāvokļa pārveidotājus. Šādu atdalītāju piemēri tiek aprakstīti Beesley and Karttunen darbā par galīga stāvokļa morfoloģijām (75).

Atpakaļ uz saturu

Tagi:
Izveidojis MarisSteinbergs 2007-12-30 19:05
    
This wiki is licensed under a Creative Commons 2.0 license
XWiki Enterprise 6.4 - Documentation