Que sont les métadonnées ?
La documentation sur la question foisonne sur le web et l’article dans Wikipédia est très complet, je vous y renvoie volontiers. La définition communément admise fait d’une métadonnée, tout simplement, « une donnée sur une autre donnée » et quelque soit le type de support d’information. Même si le terme est apparu dans le cadre de la description de ressources sur Internet dans les années 1990, la définition suggère que les catalogueurs, par exemple, ont toujours créé des métadonnées comme Callimaque de Cyrène (bibliothécaire d’Alexandrie) qui rédigea le premier catalogue raisonné de la littérature grecque les Pinakes au IIIe siècle avant Jésus-Christ. Elles sont organisées et/ou présentées sous forme de schémas publiés par des organismes de standardisation avec des comités de gestion chargés de leur maintenance. On en distingue généralement trois types : les métadonnées de description, conçues en vue de la recherche, du repérage et de l’identification des ressources (titre, auteur, résumé, mots clefs, date de parution…) ; les métadonnées de structure, qui facilitent la navigation et la présentation des ressources électroniques, elles fournissent des informations sur la structure interne des ressources (table des matières, index, chapitre, section, page) ; les métadonnées d’administration qui facilitent la gestion, la validation, l’archivage des ressources, elles incluent des données techniques notamment, la gestion des droits, le contrôle d’accès et les conditions d’utilisation. Ces trois types sont complémentaires et souvent les frontières entre elles ne sont pas visibles dans la pratique. En d’autres termes pour ceux qui se posent la question sur leur utilité, elles permettent de localiser et d’accéder à un document surtout en ligne (les documents imprimés l’étant par le biais des données catalographiques informatisées ou non). En effet les documents en ligne ont été caractérisés, à leur apparition, par une difficulté d’accès à leur contenu par le biais des formats de description classiques (ISBD par exemple), il a fallu attendre l’avènement du Marc et de sa zone 856 pour y accéder via la saisie de l’URL. Face à l’explosion de ces ressources en ligne et l’apparition des moteurs de recherche et autres outils (moissonneurs d’entrepôts d’archives ouvertes, exemple : OAIHarvester2), il fallait structurer ces éléments de description et de localisation pour rendre ces moteurs de recherche (certains, pas tous) plus performants dans la recherche et la récupération desdites ressources. Le souci était aussi de permettre l’interopérabilité c’est-à-dire la capacité d’échanger des données entre systèmes multiples disposant de différentes caractéristiques en terme de matériels, logiciels, structures de données et interfaces, et avec le minimum de perte d’information et fonctionnalités. Les métadonnées participent ainsi à cela en complémentarité avec d’autres processus. Au niveau technique cette interopérabilité se réalise à trois niveaux complémentaires : une description des ressources avec des sémantiques communes issues de différents jeux de métadonnées standardisés (Dublin Core, Marc-XML, BiblioML, EAD pour les archives,…), un cadre d’implémentation de ces descriptions dans des langages structurés standardisés, interprétables par les machines (HTML, XHTML, XML, RDF…) et des protocoles informatiques d’échange de ces données normalisées (HTTP, OAI-PMH, SRU/SRW,…).Dans l’univers des métadonnées descriptives, le jeu de métadonnées plus populaire est sans nul doute le Dublin core passé de standard à norme ISO avec un statut officiel au sein du W3C (Consortium du World Wide Web, instance internationale permanente chargée de l’avenir du Web). Je vous invite à consulter en ligne sur Slideshare, la présentation que j’avais faite sur la question lors d’un atelier du COBESS (vous pouvez récupérer le fichier .ppt).
A huitaine !