Toggle navigation
Go
Latviešu
Log-in
Home
Go to Wiki
Wiki Index
Document Index
User Index
Datorlingvistika
Go to Space
Document Index
VarduTeikumuAtdalisana
Ante.lv
Datorlingvistika
Vārdu un teikumu atdalīšana
Wiki source code of
Vārdu un teikumu atdalīšana
More actions
Content
Comments
Attachments
History
Information
Hide line numbers
1: == Vārdu un teikumu atdalīšana == 2: 3: Vārdu atdalīšana var šķist ļoti vienkāršs uzdevums tādās valodās kā angļu un latviešu, kurās vārdi tiek atdalīti ar specialu atstarpes simbolu. Ne katrā valodā tas tiek darīts, piemēram, ķīniešu, japāņu un taizemiešu valodās tas netiek darīts. 4: 5: Ja tuvāk aplūko latviešu valodu, tad ātri vien kļūst skaidrs, ka ar vienkāršu atdalīšanu, vadoties pēc atstarpes simbola, nepietiek. Kā piemēru var apskatīt sekojošu tekstu no laikraksta Diena (ceturtdiena, 27. decembris, 2007), skatīt 1. tekstu: 6: 7: {{code language="none"}} 8: Tomēr „es neplānoju iesaistīties politikā, pirms jutīšos droši, un arī tad vispirms būs jānovērtē 9: kopējā situācija”, viņš apgalvoja AP žurnālistam Honkongā sarīkotā preses konferencē. Kā galveno 10: atgriešanās iemeslu T.Šinavatra minēja vēlmi stāties tiesas priekšā par viņam izvirzītajiem 11: apvainojumiem korupcijā. 12: {{/code}} 13: 14: {{html clean="false" wiki="true"}} 15: <center>1. teksts</center> 16: {{/html}} 17: 18: Atdalot vārdus vadoties tikai pēc atstarpes simbola tiks iegūti sekojoši vārdi: 19: 20: {{code language="none"}} 21: Situācija”, droši, T.Šinavatra konferencē 22: {{/code}} 23: 24: Šīs kļūdas varētu risināt ņemot vērā punktuācijas simbolus kopā ar atstarpes simbolu, kā vārdu atdalītājus. Šeit nākas saskarties ar nākošo problēmu – punktuācija pastāv arī starp vārdiem, piemēram, „t.i.”, „01/02/06” un „google.com”. Līdzīgi, ja pieņem, ka „62.5” ir viens vārds, tad ir jāizvairās no segmentācijas ap punkta simbolu, tā kā, pretējā gadījumā „62.5” tiks sadalīts par „62” un „5”. Dažādām valodām punktuācija skaitļos ir dažāda, piemēram, angļu valodā komats tiek izmantots, lai atdalītu katrus trīs ciparus (555,500.50), bet vācu valodā komats tiek izmantots, lai atdalītu decimāldaļu, kā arī tiek izmantotas arī atstarpes ciparu atdalīšanai (555 500,50). 25: 26: Teikumu segmentācija ir pirmais solis teksta apstrādē. Parasti teksta sadale teikumos tiek balstīta uz punktuācijas simboliem, jo noteikti simboli (jautājuma zīmes, izsaukuma zīmes un punkti) iezīmē teikumu sākumu un beigas. Punkta simbols nav viennozīmīgi interpretējams, jo tas tiek lietots arī abreviatūrās un citur. Kā piemēru varētu minēt „T.Šinavatra” no 1. teksta. Šī iemesla dēļ vārdu un teikumu segmentācijas problēmas tiek risinātas saistīti. 27: 28: Parasti teikumu atdalīšanas metodes darbojas ar binārā klasifikatora palīdzību, kas balstīts uz virkni noteikumu vai arī uz automatizētās mācīšanās algoritmiem. Binārais klasifikators nosaka vai punktuācijas simbols ir daļa no vārda vai arī tas ir teikuma robežas apzīmējums. Bieži vien tiek biežāk izmantoto abreviatūru vārdnīca, lai samazinātu kļūdīšanās iespēju. 29: 30: Atdalītājus var samērā vienkārši konstruēt izmantojot galīga stāvokļa pārveidotājus. Šādu atdalītāju piemēri tiek aprakstīti Beesley and Karttunen darbā par galīga stāvokļa morfoloģijām (75). 31: 32: [[Atpakaļ uz saturu>>Datorlingvistika.WebHome]]
Applications
Blog
Dashboard
Scheduler
User Index
More applications
Create your own!
Quick Links
Blog