Què són les metadades i per a què serveixen

Riley, Jenn. Understanding metadata [en línia]: what is metadata, and what is it for? Baltimore: National Information Standards Organization, 2017. III, 45 p. (NISO primer). [Consulta: 30 juny 2017]. ISBN 978-1-937522-72-8.

Hi ha un concepte en el camp de la Informació i la Documentació, el de metadada, que, tot i la seva aparença tècnica, ens és molt més proper del que ens pensem. En el nostre dia a dia estem envoltats de metadades! Les etiquetes dels productes que comprem a les botigues, la cartellera de cinema que consultem en el diari, les dades de contacte de les persones a les que truquem amb el mòbil, el contingut de les portades dels llibres... Tot això, i molt més, són metadades! Les metadades són a tot arreu!

En sentit etimològic, metadada vol dir «dades sobre dades», si bé també es poden definir com la informació amb què es descriuen les coses (productes, pel·lícules, persones, llibres, etc.) per assolir un objectiu determinat (vendre, informar, trucar per telèfon, identificar, etc.).

Veient doncs la importància de les metadades i la seva omnipresència en les nostres vides, no és estrany que un organisme com la National Information Standards Organization (NISO) es decidís a publicar una obra de divulgació adreçada a unes de les institucions que fan un ús més intensiu de les metadades: les biblioteques, els arxius i els museus.

Així doncs, NISO va encarregar aquest projecte a Jenn Riley, prestigiosa bibliotecària digital de la McGill University Library de Mont-real, Quebec, amb una dilatada experiència professional i acadèmica en aquesta disciplina. El resultat de la seva feina ha estat la publicació Understanding metadata: what is metadata, and what is it for?

Es tracta d’una obra breu (45 pàgines), de fàcil lectura, que si bé en alguns apartats aprofundeix en qüestions tècniques (XML, RDF...), en general té una clara vocació divulgativa i, per tant, és una lectura introductòria molt recomanable per a bibliotecaris, arxivers i museòlegs, i en general per a qualsevol persona relacionada amb el patrimoni cultural.

El document s’estructura seguint un discurs que va d’allò més general a allò més específic, començant per una exposició generalista del que són les metadades per endinsar-se a poc a poc en aspectes cada cop més específics de les metadades aplicades al context del patrimoni cultural.

Riley ens fa veure que les metadades són a tot arreu, farcint el seu discurs amb exemples molt propers per al lector. Spotify, YouTube, Google, Amazon, Wikipedia, Facebook, Pinterest, Twitter, etc. són serveis que, en bona part, funcionen gràcies a les metadades, i que serveixen a l’autor per destacar una característica comuna a tota aquesta informació i que és de gran importància per entendre la resta del document: la naturalesa estructurada, en major o menor grau, de les metadades, fet que es concreta en la representació de les coses mitjançant propietats o elements. Per exemple, les cançons a Spotify són descrites amb les propietats títol, autor, àlbum, data, etc.; els vídeos de Youtube amb les propietats títol, autor, nombre de visualitzacions, etc.; els resultats de Google, amb les propietats títol, adreça URL, resum, etc.; els llibres a Amazon per les propietats títol, autor, editorial, any de publicació, preu, etc. Sense aquesta estructura de les metadades els serveis (patrimonials o no) no podrien assolir els objectius que es plantegen, i la cerca, recuperació, identificació, venda... de les coses esdevindria un caos ingovernable.

Un cop demostrada la importància de les metadades, Riley les categoritza segons la informació que contenen i l’objectiu per al qual han estat creades. L’autora il·lustra aquest apartat amb dues taules molt aclaridores on per a cada tipus de metadades (descriptives, administratives, estructurals i de marcatge) s’indiquen els objectius de creació, es donen algunes propietats habituals, així com els usos més freqüents. Per exemple, de les metadades descriptives (les més nombroses en el camp del patrimoni cultural) s’indica que tenen com a principal objectiu la cerca i identificació dels recursos, es donen com a propietats habituals el títol, l’autor, la matèria, el gènere i la data de publicació, i com a usos més freqüents el descobriment, la visualització i l’intercanvi de dades (interoperabilitat).

A continuació es troben dos capítols d’una certa complexitat tècnica, per a la comprensió dels quals potser sí que cal disposar d’alguns coneixement previs, encara que no molt avançats, en tecnologies com HTML i XML, i en fonaments d’organització d’informació (vocabularis controlats, esquemes de contingut i de sintaxi, etc.).

En el primer d’aquests dos capítols («How is metadata stored and shared?»), l’autora fa un repàs dels mètodes més habituals avui en dia per emmagatzemar les metadades, des de les clàssiques bases de dades relacionals fins a sistemes més avançats com són les dades enllaçades (linked data). Una part important d’aquest capítol està dedicat a la tecnologia XML, el llenguatge de marques promogut pel World Wide Web Consortium (W3C) que està esdevenint un estàndard de facto per a l’intercanvi de dades i fins i tot d’emmagatzematge de metadades (bases de dades XML natives).

Al següent apartat («Standardizing metadata»), Riley aprofundeix en el caràcter estructural de les metadades tot exposant tres aspectes d’aquesta necessària normalització: els esquemes de metadades, els vocabularis controlats i els estàndards de contingut. Els esquemes de metadades defineixen les propietats (també conegudes com a elements) que són vàlides per descriure les coses (per exemple, les propietats «títol», «autor», «editorial» i «any de publicació» per descriure llibres). Els vocabularis controlats defineixen els valors que es poden donar en aquestes propietats (per exemple, per a la propietat «editorial» els valors «Accent Editorial», «Barcanova», «Calima», etc.). Per últim, els estàndards de contingut estableixen aspectes com les parts del recurs d’on s’ha d’obtenir la informació (per exemple, la portada d’un llibre), l’ordre de presentació de les propietats (primer l’autor i després el títol), l’ús de les majúscules, les abreviatures, etc.

Ara bé, tota aquesta normalització només és útil si és comprensible per les aplicacions i les persones que consulten i fan servir les metadades. I és precisament per aquest motiu que les organitzacions que les desenvolupen acostumen a publicar-les i difondre-les de manera oberta a la xarxa. D’esquemes de metadades, vocabularis controlats i estàndards de contingut publicats n’hi ha centenars, alguns d’ús genèric i d’altres pertanyents a comunitats concretes (per fer-vos una idea gràfica podeu consultar Seeing standards: a visualization of the metadata universe, de la mateixa Jenn Riley). Davant la impossibilitat de conèixer-les totes, l’autor fa una tria d’aquelles normes que considera més destacades.

De les normes d’ús comú, Riley en destaca Schema.org, Web Ontology Language (OWL), Simple Knowledge Organization System (SKOS), Dublin Core (DC), Friend of a Friend (FOAF), ONline Information eXchange (ONIX) i EXchangeable Image File Format (Exif).

De les normes especialitzades, l’autor se centra en aquelles més emprades per la comunitat de patrimoni cultural. En el camp de les biblioteques, MAchine Readable Cataloging (MARC), Bibliographic Framework Initiative (BIBFRAME) i Metadata Object Description Schema (MODS); en el camp dels museus, CIDOC Conceptual Reference Model (CIDOC CRM), Categories for the Description of Works of Art (CDWA) i Visual Resources Association Core (VRA Core); en el camp dels arxius, Encoded Archival Description (EAD). Per últim, en forma de miscel·lània, destaca algunes experiències de camps molt concrets: a les Ciències Socials, Data Documentation Initiative (DDI); en l’àmbit de la preservació, PREservation Metadata: Implementation Strategies (PREMIS); en la codificació de textos, Text Encoding Initiative (TEI), i de música: Music Encoding Initiative (MEI). Les explicacions de cada una d’aquestes normes les fa Riley d’una manera superficial, sense entrar en grans tecnicismes, per tal que sigui el lector qui decideixi en quines d’elles vol aprofundir el seu coneixement.

El penúltim capítol («How is metadata generated?») és força interessant perquè ens endinsa en l’apassionant camp de la generació automàtica de les metadades. Tal com assenyala Riley, històricament les descripcions de les coses ha estat producte d’una labor humana. Per exemple, en el camp de les biblioteques, els arxius i els museus han estat experts catalogadors els que s’han encarregat de descriure manualment els recursos bibliogràfics, arxivístics i d’art de les seves col·leccions i fons, aplicant les normes de metadades pròpies del moment, i donant lloc als actuals catàlegs de biblioteques i museus, i les eines de cerca dels arxius.

Ara bé, amb l’aparició dels recursos digitals s’ha obert la possibilitat que aquestes metadades es generin automàticament. Pensem, per exemple, en una fotografia presa amb una càmera digital. Quan la fem, la mateixa càmera insereix una sèrie de metadades en la fotografia: la data en què s’ha pres, la marca i el model de la càmera, la resolució i, fins i tot en alguns casos, les coordenades geogràfiques del lloc des d’on s’ha pres la fotografia. Però és que les possibilitats en el món digital van més enllà d’aquesta creació de metadades pel propi dispositiu que ha creat el fitxer. Avui en dia ja hi ha experiències consolidades de generació automàtica de metadades a posteriori de la creació del fitxer digital, és a dir, basades en l’anàlisi del seu contingut. En són exemples la transcripció automàtica del text d’àudios i de vídeos (subtítols), el reconeixement facial en vídeos (en aeroports) i imatges, la indexació automàtica de textos, la identificació d’objectes en imatges i vídeos (Instagram), etc. I encara més! L’aparició i consolidació del Web com a entorn de comunicació ha facilitat i desenvolupat enormement l’intercanvi de metadades entre organitzacions, de tal manera que el cost de creació de les descripcions es redueix. L’exemple paradigmàtic, i que també utilitza Riley, és el d’Amazon que bona part de les metadades dels llibres que mostra en el seu catàleg no les crea l’organització sinó que les obté (captura) de les descripcions que fan les editorials d’aquests llibres amb l’estàndard de metadades ONIX.

Per finalitzar, Riley sintetitza en tres idees les que, des del seu punt de vista, són les tendències de futur en el camp de les metadades. En primer lloc, la connectivitat de les dades. Per a l’autora, les facilitats de comunicació i d’intercanvi de dades consolidaran i potenciaran les actuals experiències (la majoria d’elles encara en fase acadèmica) de connectar dades (linked data), independentment d’on es trobin. Per exemple, si el catàleg de la Biblioteca de Catalunya conté metadades descriptives de l’obra de Josep Pla El quadern gris, per què no connectar-les amb les metadades de la Viquipèdia sobre la mateixa obra? D’aquesta manera, si un usuari busqués informació sobre El quadern gris de Josep Pla, un sistema podria fàcilment informar-lo de l’existència de totes dues fonts perquè les seves metadades estarien connectades. La segona tendència destacada per Riley fa referència a la creació automàtica de metadades. Per a l’autora, aquesta és (i serà) l’única manera d’afrontar la descripció d’uns recursos que any darrere any creixen exponencialment. Per últim, Riley creu que la creació de les metadades es socialitzarà, en el sentit que ja no serà una tasca exclusiva d’experts catalogadors, sinó que cada cop més hi participaran individus i comunitats (especialitzats o no) a través d’eines col·laboratives, com per exemple LibraryThing.

La publicació finalitza amb un apèndix que conté enllaços a esquemes de metadades, vocabularis controlats, llenguatges de marques, etc., i a una sèrie de projectes, breument descrits, d’interès per al lector que vulgui aprofundir en aquest apassionant món que són les metadades.

Andreu Sulé   
Departament de Biblioteconomia, Documentació i Comunicació Audiovisual
Universitat de Barcelona

tipus document

Afegeix un nou comentari

Filtered HTML

  • Les adreces web i de correu electrònic es transformen en enllaços automàticament.
  • Etiquetes HTML permeses: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd>
  • Les línies i paràgrafs es trenquen automàticament.