2. Intro al XML

Funció del llenguatge XML a Pedrolo Digital

El llenguatge XML (de l’anglès EXtensible Markup Language) és un metallenguatge d’etiquetatge que s’utilitza cada cop amb més freqüència a projectes dins la disciplina de les Humanitats Digitals. Com el seu nom indica, aquesta disciplina s’encarrega d’explorar noves formes d’estudiar el món de les Humanitats (Literatura, Filosofia, Lingüística, Art, Música etc.) fent servir eines digitals.

Com utilitzarem el llenguatge XML per analitzar l’obra Pedroliana?

La característica del llenguatge XML que ens resultarà més interessant per al nostre projecte és la possibilitat d’aquest llenguatge d’afegir significat als textos a través d’etiquetes. Aquestes etiquetes prepararan el text perquè pugui ser interpretat per programes d’ordinador.

Els humans hem après a distingir els diferents elements que trobem als textos escrits. Reconeixement automàticament el títol d’un capítol, per exemple, perquè el trobem al principi de la pàgina, amb una font en negreta i d’una mida més gran que la resta. També sabem que tenim diferents paràgrafs al text per que trobem punts i a part, línies i espais.

Però un ordinador no té aquesta capacitat de reconèixer totes aquestes característiques que nosaltres trobem tan fàcilment al text. És aquí on el llenguatge XML ens pot donar un cop de mà.

Normes bàsiques del llenguatge XML

Les etiquetes o elements

Reconeixereu una etiqueta o element per aquests símbols “<>” “</>” que . L’etiqueta <lloc> serà l’etiqueta principal de la nostra tasca, i la utilitzarem precisament per designar paraules que es refereixin a llocs.

Una norma molt important al llenguatge XML és la necessitat de obrir i tancar les etiquetes. En aquest cas, utilitzarem <lloc> abans de la paraula, i </lloc> després d’aquesta. En cap cas deixarem una etiqueta oberta, ja que això trencaria la gramàtica del document XML.

Un altre detall important és que dins dels símbols <> d’una etiqueta, mai hi trobarem accents o caràcters especials. També s’ha d’anar molt amb compte amb les majúscules, ja que tots els elements o etiquetes del projecte Pedrolo Digital s’escriuen amb minúscules.

Jerarquia entre etiquetes

Com veureu als diagrames que expliquen els diferents elements, trobem etiquetes organitzades segons una jerarquia establerta especialment per aquest projecte.

Per exemple, una primera distinció la trobarem entre paraules que designen llocs que són topònims <toponim> o llocs que no ho són <notoponim>. També trobarem l’etiqueta <nom> per indicar la paraula que hem trobat al text.

Fixeu-vos en aquests dos exemples per veure la jerarquia entre diferents etiquetes i observar alhora la diferència entre un lloc representat per un topònim i un altre lloc designat per una frase que no és un topònim:

toponimvsnotoponim

Aquesta és l’estructura mínima de l’etiquetatge de paraules referides a llocs. Els tres elements que hi trobeu són obligatoris. L’element <lloc> sempre obrirà i tancarà l’etiquetatge, i l’element <nom> serà l’últim nivell d’etiquetatge mínim. En mig d’aquests dos extrems, haurem d’escollir entre els elements <toponim> o <notoponim>, inferiors en nivell a <lloc> però d’un nivell superior a <nom>.

A la fase 4 veureu que tant l’element <toponim> com <notoponim> poden ramificar-se en nivells inferiors, per tal de donar més informació sobre els mots que trobeu.

De moment però, ja esteu preparats per passar a la fase 3, correcció i etiquetatge bàsic.

Leave a Reply