Comments on HW02

  • girts
    girts, 2007-10-22 20:51

    Nesapratu, ko nozīmē PlainTextFilter. Vai šim konkordances veidotājam ieejā tiek baroti xhtml teksti vai vienkārši plaintext vārdi? Web-lapā tiks rādīts html, tad sastapes pozīcija ir jārēķina xhtml dokumentā?

  • girts
    girts, 2007-10-22 22:35

    Un ko darīt ar angļu valodas saīsinājumiem? piemēram, "I've", "don't". tas nav ne gluži viens vārds, ne arī katra atsevišķā daļa ir vārds (dažos gadījumos pirmā daļa ir). manā skatījumā ir alternatīvas - var vārdus, kuros ietilpst apostrofs, izmest no teksta. var arī to uzskatīt par normālu vārdu. tikai tad, droši vien, vārds nevar sākties ar apostrofu.

    kam vispār ir jābut konfigurējam? es pagaidām iedomājos šādas lietas konfigurējamas: 1) vai atstāt tekstā apostrofus - boolean lauks; 2) vai izmest vienburtīgos vārdus; 3) vai izmest angļu valodas artikulus - a, an un the.

  • girts
    girts, 2007-10-22 22:37

    jā, un kādas valodas ir jāsuportē? kodējums, domājams, utf-8? tad kādi simboli vispār ir jāieskaita vārdos? es vispirms visu failu pārveidoju par vienkāršu vārdu virkni, manā gadījumā jautājums ir - kādus simbolus tekstā var atstāt?

  • Kalvis Apsītis
    Kalvis Apsītis, 2007-10-23 11:08

    //*Ģirts:* Nesapratu, ko nozīmē PlainTextFilter. Vai šim konkordances veidotājam ieejā tiek baroti xhtml teksti vai vienkārši plaintext vārdi?//

    "PlainTextFilter" vēl nav riktīgi dokumentēts - ideja bija to aprakstīt HW01 (t.i. tur var robotam konfigurēt dažādus filtrus, kas no savāktā grāmatzīmju satura novāc navigācijas joslas, iztīra lieko marķējumu, utml.). PlainTextFilter nozīmē tādu filtru, kurš izvāc pilnīgi visu HTML marķējumu (t.i. visas lapaas saturam pielieto metodi content.replaceAll("<^<+>",""). 

    //*Ģirts:* 1) vai atstāt tekstā apostrofus - boolean lauks; 2) vai izmest vienburtīgos vārdus; 3) vai izmest angļu valodas artikulus - a, an un the.//

    Starp tekstu konkordances konfigurācijas parametriem varētu minēt visus "delimiters" (sk. Javas klasi StringTokenizer). Var arī uzskatīt visus ne-burtus par šādiem atdalītājiem. 

    Par apostrofiem jautājums ir ķēpīgs - latviešu tekstos apostrofs ir atdalītājsimbols, ko lieto tekstu 'izcelšanai', bet angliski tas varētu būt vārda sastāvdaļa (starp citu līdzīgi ir arī ar "hyphen" jeb mīnuszīmi, jo angļu vārdnīcās mēdz būt tādi vārdi kā "self-confidence" utml.). Varbūt var pret apostrofiem un defisēm attiekties sekojoši - ja tam abās pusēs ir burti, tad tas pieder vārdam, bet, ja kaut viens simbols kaimiņos ir neburts, tad arī apostrofu uzskata par neburtu un novāc.

    //*Ģirts:* jā, un kādas valodas ir jāsuportē? kodējums, domājams, utf-8?//

    Jā, var pieņemt, ka viss ir UTF-8 (vismaz pēc izfiltrēšanas ar PlainTextFilter - ja vajag, varu šādu klasi pievienot 1.m.d. aprakstam). Ko uzskatīt par vārdos ietilpstošiem burtiem, to var mēģināt atrast java.lang.Character.UnicodeBlock vai java.util.regex.Pattern. Var kaut vai vienkārši uzskaitīt Pattern klasei unikoda intervālus (teiksim, visus lielos/mazos latīņu burtus: a-z, A-Z, visus Latin-1 burtus - u00CO-u01FF, visu kirilicu, utml.

This wiki is licensed under a Creative Commons 2.0 license
XWiki Enterprise 6.4 - Documentation