N° 11 – XML : initiation pratique 1

Suite de mon introduction à XML.

Après avoir exposé les usages du langage dans la sphère bibliothéconomique, je vais dans ce billet faire une présentation pratique de ce qu’est XML. Le moyen que j’ai choisi est un slideshow, qui je l’espère permettra de mieux appréhender le sujet. Le but n’étant pas, bien entendu, de former des experts en la matière, je me suis limité à une présentation en surface.

Pour ceux qui sont intéressés par une découverte plus profonde, je vous propose la version intégrale de la présentation.

Dans le même souci de faciliter la compréhension je vous propose ci-dessous le film sur le web 2.0, réalisé par Michael Wesch anthropologue à Kansas State University, où sont exposées les possibilités offertes par XML. Le même film a été suggéré dans un commentaire à la suite de mon billet n° 04.

et ci-après, Web 2.0 traduction, envoyé par Thomas-Berthelon, une tentative de traduction sous-titrée en français pour ceux dont la langue anglaise n’est pas la tasse de thé préférée.

A bientôt pour une autre escale avec une v(t)oile cousue de fil RSS.

Creative Commons License
Cet article est mis en ligne sous un contrat Creative Commons.
Publicités

N° 10 – XML et bibliothèques 1

A l’occasion des dix ans d’XML (10 février 2008), je profite de l’événement pour ancrer ma yole au port de cette syntaxe de balisage créée a l’initiative du consortium du Web  qu’est le W3C. Je ne m’appesentirai pas outre mesure sur l’historique de sa création, tant l’information sur la question est abondamment disponible sur l’incontournable Web. Soucions-nous plutôt de son utilisation et de son importance surtout dans l’environnement bibliothéconomique.

XML (Extensible markup language) est un langage de balisage générique dont le but est de permettre la fonctionnalité et l’interopérabilité du Web en permettant a plusieurs systèmes dinformation hétérogènes de communiquer et d’échanger. Autrement dit il repose sur des principes : c’est un langage de balisage extensible ; sa maintenance est assurée par le W3C ; les balises ne sont pas prédéfinies mais libres et précisent le sens ou la structure et non pas la présentation graphique (comme le fait HTML) ; le contenu, la structure et la présentation sont nettement dissociés ; la structure des informations est arborescente. 

Les raisons qui rendent intéressantes son utilisation sont que : c’est un format libre et ouvert ; il est indépendant de toute plateforme informatique ; il est promis à une certaine pérennité (il est répandu dans plusieurs domaines et bénéficie d’une solide structure de maintenance) ; il facilite l’interopérabilité. Pour de plus amples informations voir le dossier que j’avais indiqué sur un billet précédent. 

En bibliothèque son utilisation permet : d’afficher des notices bibliographiques sur le Web (MarcXML, MODS, BiblioML…) ; d’y échanger ces notices (OAI, Dublin Core…) ; d’y éditer des ressources (TEI, EAD…) ; d’y diffuser de l’information (RDF, RSS, Atom…). Pour mieux cerner les possibilités permises par XML, faisons une petite comparaison avec le format Marc que nous connaissons tous. Marc se matérialise sous la forme d’un format de saisie constitué de zones prédifinies et immuables, certaines de ces zones permettent de communiquer avec d’autres systèmes utilisant le même format ce qui permet à plusieurs bibliothèques d’échanger des notices bibliographiques par l’import ou l’export de celles-ci. Mais ces échanges ne concernent pas les usagers de nos bibliothèques qui sont dans l’impossibilité d’accéder aux notices via le Web (pour cela ils doivent préalablement passer par le site de la Bibliothèque pour accéder à son OPAC). Alors qu’avec XML, ces notices bibliographiques deviennent visibles à partir du Web parce qu’étant repérables par les différents outils de recherche qui le sillonnent. En d’autres termes nos OPAC sont mis en surface et accessibles, en principe, à tout internaute. Un autre avantage parmi d’autres est, par exemple, le changement de formats de notices de Marc à XML qui se fait sans perte de données, permettant ainsi une retroconversion « fidèle » de ces dernières… Ce souci de pallier l’incapacité du Marc à permettre les échanges sur le WEB,  sera à l’origine de la création du MarcXML par la Bibliothèque du Congrès en juin 2002. Je vous renvoie au billet N° 06 de ce blog où j’expose, dans la présentation en bas de page, les différentes insuffisances du format Marc face au Web et l’alternative offerte par les formats de métadonnées qui supportent, entre autres, un balisage en XML.

Cette visibilité de nos notices se manifeste aussi par l’utilisation des flux RSS, qui permettent de diffuser de l’information sous forme d’alerte. Un exemple tout simple est de créer un flux RSS de nouvelles acquisitions qui permet à tout utlisateur inscrit à ce flux d’être averti dès qu’il y a de nouvelles notices dans l’OPAC. Nous sommes là en présence d’un vraie application « bibliothèque 2.0 », ce qui montre qu’XML mérite toute notre attention et qu’il serait judicieux de l’intégrer dans nos pratiques présentes et futures.

Prochainement, XML : initiation à la pratique

N° 09 – Modèle OAIS (archivage numérique) Réponse

Notre deuxième cargaison, au port des modèles conceptuels, concerne l’archivage des documents numériques, avec une vue d’ensemble (résumée) du modèle OAIS.  Pour mieux appréhender l’environnement qui entoure ce modèle, il me paraît judicieux de faire un bref rappel des enjeux liés à la préservation des objets numériques.

Nous sommes en présence d’une production exponentielle de documents numériques et cela n’est pas près de s’arrêter bien au contraire. Cette donnée implique un questionnement sur le devenir de toute cette masse documentaire produite, accessible et consultable par le seul biais de la technologie qui est elle-même évolutive. Donc tous les supports, les outils, les protocoles sont susceptibles « d’évoluer », voire de disparaître entraînant de facto, une possible inexploitabilité de tout ce qui a été produit (ou est produit maintenant). Il va sans dire que pareil scenario est inacceptable, voire inimaginable et  des outils ont été pensés et élaborés pour éviter un tel « cataclysme ».

Dans l’espace dédié à la préservation des documents numériques, l’OAIS a été élaboré comme modèle de référence pour un triple but : conserver le document numérique, le rendre accessible à une communauté d’utilisateurs ciblés et surtout en préserver l’intelligibilité (c’est-à-dire le rendre exploitable avec des outils »ouverts » et/ou documentés et non avec des outils propriétaires). Il est devenu Norme ISO 14721 et un résumé est disponible ici.

Concrètement l’OAIS n’est pas recueils de spécifications techniques destinées à être directement implementées, mais un modèle abstrait qui : définit des concepts et une terminologie, décrit les parties prenantes de l’organisation d’un tel système (acteurs, fonctions) et surtout indique un canevas par lequel on peut se poser toutes les questions pertinentes pour mettre en place un système d’archivage électronique. Je passerai sur les détails qui caractérisent le modèle et vous renvoie aux divers liens de ce billet (vive l’hypertexte). Je vais seulement exposer quelques fondamentaux.

  • Dans l’OAIS l’information se présente sous forme de paquets, qui ont des spécificités propres. On en dénombre trois types qui sont liées respectivement, à l’activité menée par les différents acteurs du modèle (production, management, utilisation).
  • L’OAIS définit ausi une organisation fonctionnelle du système d’archivage selon 6 entités qui s’articulent entre-elles. Chacun de ces domaines fonctionnels (Entités) détient des rôles qu’il remplit en communiquant et interagissant avec les autres domaines sous forme de flux de données. 
  • Enfin le modèle ne serait pas complet s’il n’indiquait pas des méthodes pouvant être mises en oeuvre pour garantir la pérennisation de l’information. Il en propose une qui est la Migration (en informatique le terme désigne, le passage d’un état existant d’un système d’information ou d’une application vers une cible définie dans un projet ou un programme, source Wikipedia) et en distingue 4 types : le rafraîchissement, la duplication, le ré-empaquetage et la transformation. Pour plus de détails  sur ces trois points, voir ce lien.

Ce modèle de référence s’est imposé au niveau international et son utilisation au niveau de nos structures documentaires ou sur des projets nationaux envisagés, peut-être le gage de réussite de tout projet d’archivage électronique. Cela nous permettra de « prévenir » et non pas essayer de « guérir » quand il sera peut-être trop tard. (Je ne peux m’empêcher de vous indiquer ce lien, qui montre l’urgence de définir des environnements normatifs de travail afin que chacun sache quelles sont ses prérogatives, ses limites d’action et de compétences. Je n’ai rien contre les gens qui gèrent ce projet, mais je crois qu’il y a des gens plus indiqués pour y intervenir et le prendre en charge, d’autant plus qu’il concerne une Université soucieuse de préserver sa renommée et donc devant être attentive à la professionnalisation des activités qui y ont cours.) 

Avec ce modèle apparaît aussi, et toujours, cette évidence tantôt évoquée dans un de mes billets précédents et qui est la nécessaire intégration des métiers de l’information documentaire et l’informatique. Car dans le cas de figure qu’est l’OAIS, bibliothécaires, archivistes et informaticiens sont embarqués dans le même bateau. L’archivage numérique est aujourd’hui, un carrefour (parmi d’autres) où nos routes se croisent naturellement, nos spécificités s’obligeant à une « fusion » inéluctable. Les bibliothèques numériques ne constituent-elles pas en même temps des dépôts de fichiers informatiques (donc des archives électroniques) ? Si oui, alors ces fonds électroniques peuvent être traitées en utilisant un même modèle (OAIS) dès lors qu’on décide mettre en place un système de préservation pérenne et quelque soit le type d’institution concernée (Bibliothèques ou Centre d’archives).

Pour rappel, le modèle OAIS est le résultat d’un travail du CCSDS (Consultative Committe for Space Data Systems – Organisme international de normalisation des agences spatiales) auquel ont été associés des représentants de bibliothèques et d’archives institutionnelles. Tout un symbole !

Prochaine escale dans l’univers XML

N° 08 – Modèles conceptuels : FRBR Réponse

Aujourd’hui nous accostons au quai des modèles conceptuels créés pour la gestion de l’information. Brièvement présentés les modèles conceptuels sont : des outils de dialogue et d’intercompréhension entre des personnes d’horizons différents (par exemple : spécialistes d’un domaine et informaticiens) ; des outils de dialogue entre réservoirs de données hétérogènes ; des outils d’aide à la conception des systèmes ; des outils de comparaison, d’échange et de stockage de données ; des outils d’intégration au Web sémantique. Ils se situent au-dessus des schémas de métadonnées (voir posts précédents), donnant une vue d’ensemble abstraite de l’information fournie et fixent un idéal à atteindre quant à la gestion de cette information.

Mon propos, pour ce post, consiste en une introduction sur le modèle FRBR (Fundamental Requirements for Bibliographic Records ou en français, spécifications fonctionnelles des notices bibliographiques). C’est un modèle conceptuel développé par l’IFLA entre 1992 et 1998, sur la base de 9 résolutions adoptées en 1990 suite au séminaire de Stockholm sur les notices bibliographiques. Ce cadre conceptuel a pour but d’atteindre une compréhension commune et partagée des finalités des notices bibliographiques. Plus précisément il s’agit, de définir un niveau de catalogage minimal mais efficace pour les agences bibliographiques nationales et de mettre en adéquation les données bibliographiques avec les besoins des utilisateurs.

Ainsi les champs de l’étude sont : 1) les données (ensemble des données constutitives des notices bibliographiques, c’est-à-dire les données associées aux différents champs décrits dans les catalogues de bibliothèque et les bibliographies nationales); 2) les utilisateurs (tous les utilisateurs potentiels des notices : usagers des bibliothèques, personnels des bibliothèques, éditeurs, distributeurs, gestionnaires de droits d’auteur, etc.) ; 3) les besoins de ces utilisateurs (besoins relatifs aux buts recherchés dans le processus de consultation des catalogues : trouver des références en fonction de critères de recherche, identifier une ressource, la sélectionner en fonction de ses modalités d’utilisation et enfin y accéder).

La méthode repose sur une analyse des données bibliographiques selon le modèle Entité-Relation qui définit : un regroupement d’éléments de données en « entités » qui sont organisés en 3 groupes dans le FRBR, une identification des « relations » existant entres ces différentes entités et une identification d' »attributs » susceptibles de les affecter. Pour le détail concernant les entités je vous renvoie à cet article.

Les avantages pour les bibliothécaires se résument à : un catalogage facilité, une oeuvre est cataloguée une fois pour toutes pour toutes ses formes d’expression (traductions notamment), ces expressions elles-mêmes cataloguées une seule fois pour toutes les manifestations liées (éditeur, lieu d’édition, date, etc.), d’où enfin une organisation logique du catalogue. Pour l’utilisateur, la recherche est facilitée, car une seule recherche permet de trouver tous les types de matériel d’une oeuvre sans doublons, toutes les expressions sont affichées en une seule opération et sa navigation dans le catalogue est plus naturelle.

Pour l’intégration du modèle dans sa bibliothèque, il faut choisir un fournisseur de logiciel intégrant le modèle (voir VTLS inc). Désolé je n’ai pas trouvé de SIGB libre intégrant cet outil, néanmoins une consultation du lien précédent vous permettra d’en savoir plus sur le mécanisme de fonctionnement du modèle avec le tutoriel en ligne qui y est proposé.

Les FRBR restent cependant un modèle théorique dont l’application n’est pas aisée. La masse des données structurées en ISBD ou MARC est énorme et l’élaboration de programmes de conversion vers le FRBR est problématique (notamment du fait aussi de la « babelisation » du MARC). Aussi comment ne pas prendre en compte l’ingérence du Web 2.0 dans l’espace bibliothéconomique qui propose toute une nouvelle démarche qui va plus loin dans la prise en compte des besoins des utilisateurs (Opac social, folksonomie, métamoteur à affichage cartographique comme Kartoo …). Toutes ces remarques (parmi tant d’autres) ne constituent-ils pas des facteurs de blocage qui font que le modèle soit toujours confiné à des projets limités aujourd’hui ? 

Pour de plus amples informations sur le sujet voir les liens ci-après, la brochure de Barabara Tillett, le rapport final du groupe de travail de l’IFLA.

Prochaine cargaison : Modèle OAIS