N° 10 – XML et bibliothèques 1

A l’occasion des dix ans d’XML (10 février 2008), je profite de l’événement pour ancrer ma yole au port de cette syntaxe de balisage créée a l’initiative du consortium du Web  qu’est le W3C. Je ne m’appesentirai pas outre mesure sur l’historique de sa création, tant l’information sur la question est abondamment disponible sur l’incontournable Web. Soucions-nous plutôt de son utilisation et de son importance surtout dans l’environnement bibliothéconomique.

XML (Extensible markup language) est un langage de balisage générique dont le but est de permettre la fonctionnalité et l’interopérabilité du Web en permettant a plusieurs systèmes dinformation hétérogènes de communiquer et d’échanger. Autrement dit il repose sur des principes : c’est un langage de balisage extensible ; sa maintenance est assurée par le W3C ; les balises ne sont pas prédéfinies mais libres et précisent le sens ou la structure et non pas la présentation graphique (comme le fait HTML) ; le contenu, la structure et la présentation sont nettement dissociés ; la structure des informations est arborescente. 

Les raisons qui rendent intéressantes son utilisation sont que : c’est un format libre et ouvert ; il est indépendant de toute plateforme informatique ; il est promis à une certaine pérennité (il est répandu dans plusieurs domaines et bénéficie d’une solide structure de maintenance) ; il facilite l’interopérabilité. Pour de plus amples informations voir le dossier que j’avais indiqué sur un billet précédent. 

En bibliothèque son utilisation permet : d’afficher des notices bibliographiques sur le Web (MarcXML, MODS, BiblioML…) ; d’y échanger ces notices (OAI, Dublin Core…) ; d’y éditer des ressources (TEI, EAD…) ; d’y diffuser de l’information (RDF, RSS, Atom…). Pour mieux cerner les possibilités permises par XML, faisons une petite comparaison avec le format Marc que nous connaissons tous. Marc se matérialise sous la forme d’un format de saisie constitué de zones prédifinies et immuables, certaines de ces zones permettent de communiquer avec d’autres systèmes utilisant le même format ce qui permet à plusieurs bibliothèques d’échanger des notices bibliographiques par l’import ou l’export de celles-ci. Mais ces échanges ne concernent pas les usagers de nos bibliothèques qui sont dans l’impossibilité d’accéder aux notices via le Web (pour cela ils doivent préalablement passer par le site de la Bibliothèque pour accéder à son OPAC). Alors qu’avec XML, ces notices bibliographiques deviennent visibles à partir du Web parce qu’étant repérables par les différents outils de recherche qui le sillonnent. En d’autres termes nos OPAC sont mis en surface et accessibles, en principe, à tout internaute. Un autre avantage parmi d’autres est, par exemple, le changement de formats de notices de Marc à XML qui se fait sans perte de données, permettant ainsi une retroconversion « fidèle » de ces dernières… Ce souci de pallier l’incapacité du Marc à permettre les échanges sur le WEB,  sera à l’origine de la création du MarcXML par la Bibliothèque du Congrès en juin 2002. Je vous renvoie au billet N° 06 de ce blog où j’expose, dans la présentation en bas de page, les différentes insuffisances du format Marc face au Web et l’alternative offerte par les formats de métadonnées qui supportent, entre autres, un balisage en XML.

Cette visibilité de nos notices se manifeste aussi par l’utilisation des flux RSS, qui permettent de diffuser de l’information sous forme d’alerte. Un exemple tout simple est de créer un flux RSS de nouvelles acquisitions qui permet à tout utlisateur inscrit à ce flux d’être averti dès qu’il y a de nouvelles notices dans l’OPAC. Nous sommes là en présence d’un vraie application « bibliothèque 2.0 », ce qui montre qu’XML mérite toute notre attention et qu’il serait judicieux de l’intégrer dans nos pratiques présentes et futures.

Prochainement, XML : initiation à la pratique

N° 06 – Métadonnées (1) Réponse

Que sont les métadonnées ?

La documentation sur la question foisonne sur le web et l’article dans Wikipédia est très complet, je vous y renvoie volontiers. La définition communément admise fait d’une métadonnée, tout simplement, « une donnée sur une autre donnée » et quelque soit le type de support d’information. Même si le terme est apparu dans le cadre de la description de ressources sur Internet dans les années 1990, la définition suggère que les catalogueurs, par exemple, ont toujours créé des métadonnées comme Callimaque de Cyrène (bibliothécaire d’Alexandrie) qui rédigea le premier catalogue raisonné de la littérature grecque les Pinakes au IIIe siècle avant Jésus-Christ. Elles sont organisées et/ou présentées sous forme de schémas publiés par des organismes de standardisation avec des comités de gestion chargés de leur maintenance. On en distingue généralement trois types : les métadonnées de description, conçues en vue de la recherche, du repérage et de l’identification des ressources (titre, auteur, résumé, mots clefs, date de parution…) ; les métadonnées de structure, qui facilitent la navigation et la présentation des ressources électroniques, elles fournissent des informations sur la structure interne des ressources (table des matières, index, chapitre, section, page) ; les métadonnées d’administration qui facilitent la gestion, la validation, l’archivage des ressources, elles incluent des données techniques notamment, la gestion des droits, le contrôle d’accès et les conditions d’utilisation. Ces trois types sont complémentaires et souvent les frontières entre elles ne sont pas visibles dans la pratique. En d’autres termes pour ceux qui se posent la question sur leur utilité, elles permettent de localiser et d’accéder à un document surtout en ligne (les documents imprimés l’étant par le biais des données catalographiques informatisées ou non). En effet les documents en ligne ont été caractérisés, à leur apparition, par une difficulté d’accès à leur contenu par le biais des formats de description classiques (ISBD par exemple), il a fallu attendre l’avènement du Marc et de sa zone 856 pour y accéder via la saisie de l’URL. Face à l’explosion de ces ressources en ligne et l’apparition des moteurs de recherche et autres outils (moissonneurs d’entrepôts d’archives ouvertes, exemple : OAIHarvester2), il fallait structurer ces éléments de description et de localisation pour rendre ces moteurs de recherche (certains, pas tous) plus performants dans la recherche et la récupération desdites ressources. Le souci était aussi de permettre l’interopérabilité c’est-à-dire la capacité d’échanger des données entre systèmes multiples disposant de différentes caractéristiques en terme de matériels, logiciels, structures de données et interfaces, et avec le minimum de perte d’information et fonctionnalités. Les métadonnées participent ainsi à cela en complémentarité avec d’autres processus. Au niveau technique cette interopérabilité se réalise à trois niveaux complémentaires : une description des ressources avec des sémantiques communes issues de différents jeux de métadonnées standardisés (Dublin Core, Marc-XML, BiblioML, EAD pour les archives,…), un cadre d’implémentation de ces descriptions dans des langages structurés standardisés, interprétables par les machines (HTML, XHTML, XML, RDF…) et des protocoles informatiques d’échange de ces données normalisées (HTTP, OAI-PMH, SRU/SRW,…).Dans l’univers des métadonnées descriptives, le jeu de métadonnées plus populaire est sans nul doute le Dublin core passé de standard à norme ISO avec un statut officiel au sein du W3C (Consortium du World Wide Web, instance internationale permanente chargée de l’avenir du Web). Je vous invite à consulter en ligne sur Slideshare, la présentation que j’avais faite sur la question lors d’un atelier du COBESS (vous pouvez récupérer le fichier .ppt).

A huitaine !