N° 84 – Les catalogues de données 1

Je poursuis mon parcours dans l’univers des données après le billet précédent portant sur une revue listée et catégorisée des sources de données disponibles sur le Web. Parmi celle-ci, il était fait état de sources à caractère national, donc de données produites au niveau des pays, notamment africains. Une investigation accrue dans ce sens, doublée d’un désir de satisfaire une curiosité professionnelle, m’a amené à m’intéresser à la manière dont les données «africaines» pouvaient être décrites et accessibles, selon un procédé identique  à celui des documents présents dans les catalogues classiques des bibliothèques. J’ai ainsi pu dénicher quelques très belles perles, dont le catalogue des données de l’ANSD (Agence Nationale de la Statistique et de la Démographie) du Sénégal. Il est produit dans le cadre du programme d’archivage national des données du Sénégal (ANADS) géré par l’ANSD elle-même.
L’archivage des données, arrimé à Internet, fait surtout référence au concept de microdonnée. Ces microdonnées, qui sont des ressources importantes pour les gouvernements, les institutions nationales et les chercheurs du monde académique, surtout ceux en sciences sociales, sont le plus souvent issues d’enquêtes et de recensements. Elles représentent des ressources indispensables et doivent être gérées de façon à encourager leur utilisation et réutilisation. La politique nationale d’archivage des données se décline généralement en 06 activités qui vont de l’acquisition des données à leur dissémination en passant par la conservation, la documentation, le catalogage et l’anonymisation. Parmi celles-ci se trouve une activité essentielle qui est celle de la documentation, qui permet la réexploitation des données d’enquête et donc de nouveaux traitements statistiques. En effet ceux-ci ne sont possibles que si les producteurs d’enquêtes fournissent tous les documents qu’ils ont élaborés durant leur activité de collecte de données (conception d’échantillon, méthodologies, questionnaires, dictionnaires de variables, nomenclatures, etc.). Les Archives de données ont donc élaboré des techniques adaptées pour donner accès à l’information sur les données disponibles, afin de faciliter l’accès aux données elles-mêmes, respectant ainsi les spécifications définies par l’Initiative de Documentation des Données (DDI en anglais) et même celles des métadonnées du Dublin Core.
DDI est un standard technique de documentation basé sur le format XML qui permet de décrire des enquêtes et sondages en sciences humaines et sociales allant de la description du projet à la description détaillée de chaque variable. Pour ce faire, il a été élaboré un dictionnaire de balises de la norme DDI en anglais, traduit également en français.

L’activité de catalogage des données proprement dite, suit des procédures établies pour que les utilisateurs puissent identifier et accéder facilement aux informations recherchées. Ces informations mises à jour continuellement sont relatives au titre, au contenu, au contexte géographique, à l’opportunité, à la disponibilité et l’accessibilité de chaque ressource. Cet accès s’appuie sur un travail d’indexation et la mise à disposition d’un moteur de recherche interne.

De prime abord, tout cela peut paraître confus et peut susciter certaines interrogations légitimes, comme, par exemple, la manière de mise en œuvre pratique. Cependant, en découvrant le catalogue de l’ANSD du Sénégal, j’ai pu vérifier la faisabilité de tout cela en parcourant différentes notices figurant dans ledit catalogue. En poussant mes investigations j’ai pu découvrir que les activités de documentation, de catalogage, de dissémination, entre autres, sont effectivement possibles en grâce à un logiciel Libre dénommé NADA.
NADA qui en est à sa version 4.2, requérant au minimum une version PHP 5.3 ou supérieure et MySQL 5.3 ou supérieure pour une installation sans couacs, est une application Web de catalogage de microdonnées servant de portail aux chercheurs pour parcourir, rechercher, comparer et télécharger des données de recensement pertinents ou des résultats d’enquête. Il a été développé à l’origine pour soutenir la création d’Archives nationales de données d’enquête. L’application est utilisée par un nombre varié et croissant d’organisations nationales, régionales et internationales. D’ailleurs à part le Sénégal d’autres pays africains comme l’Ethiopie et l’Ouganda, par le biais de leur bureau statistique national, ont élaboré des catalogues utilisant ce logiciel. Pour en savoir plus sur son fonctionnement, ses composantes techniques, son téléchargement mais aussi découvrir d’autres outils comme l’éditeur de métadonnées en DDI, vous pouvez toujours visiter le site dédié à NADA.

Avec ce modeste exposé j’espère que vous en savez un peu plus sur ce que pourrait être un DATA LIBRARIAN.

Publicités

N° 24 – Un peu de Web sémantique Réponse

Que de chemin parcouru depuis que Tim Berners-Lee créa le Web en 1991. Année qui a aussi vu l’apparition de la première génération des outils dédiés à la recherche de sites Web. Ces sites ont connu une évolution quantitative exponentielle entraînant de fait, une surproduction d’information (infobésité), ce qui implique aujourd’hui, la nécessité d’avoir des mécanismes et outils de recherche qui permettent une recherche efficace (rapidité et pertinence) de l’information ainsi publiée. Cette nécessité a été levier de l’évolution technologique des moteurs de recherche, mais aussi de l’apparition du « nouveau » concept qu’est le Web sémantique, dont je me propose de faire l’exposé dans ce billet.

Qu’en est-il ?

Brièvement expliqué, ce concept a pour objet de faciliter l’accès aux informations disponibles sur le Web. La vision de Tim Berners-Lee est de rendre la sémantique des ressources du Web explicite, de manière que les programmes puissent l’exploiter comme nous autres humains. Cela grâce à l’interopérabilité des métadonnées qui va permettre aux moteurs de trouver et de mettre en relation des données jusqu’alors confinées dans leurs sites (ou leurs bases de données, une grande partie du Web invisible est confinée dans des bases de données). Le but est de permettre aux robots (fureteurs du Web) de « comprendre » le contenu des sites, grâce à l’emploi de langages adéquats (le RDF ou Resource Description Framework pour les métadonnées ; le OWL : Web Ontology Language pour les ontologies).

Pour  illustrer ce qu’est le Web sémantique, prenons un exemple tout simple : on choisit de faire une recherche sur « Abdou Diouf ». Un moteur classique comme Google va afficher des milliers de pages où figure le nom Abdou Diouf, mais un moteur estampillé Web sémantique va orienter la recherche en proposant le nom « Abdou Diouf » selon des qualificatifs (fonction, profession,…plus précisément pour cet exemple : président du Sénégal, secrétaire général de la francophonie, etc.). Donc il faut arriver à ce que les moteurs de recherche puissent « saisir le sens » des ressources du Web qu’ils indexent (expression qui a une autre signification ici et qui est différente d’une quelconque compréhension du langage naturel par les machines). Ceci implique, dans l’ « idéologie » du Web sémantique de rendre cette information disponible à  ces programmes sous forme d’ontologies (voir ci-dessus). Le bénéfice principal que l’on obtient avec pareille chose, est l’abrègement considérable du temps de recherche et qui rime avec réduction importante du bruit (informations superflues non désirées).

La philosophie du Web sémantique est aussi d’exprimer les métadonnées dans un modèle entité-relation (voir les FRBR) et d’identifier toutes les entités à l’aide d’URI (Uniform Resource Identifier, « identifiant uniforme de ressource »). Pour nous bibliothécaires et assimilés, les enjeux que nous devons saisir concernent : l’exposition des données structurées dont nous disposons par l’émiettement de la connaissance en proposant une description bibliographique au niveau le plus élémentaire. Cet enrichissement des données nécessite la reconnaissance d’entités nommées (de façon à ce que les moteurs reconnaissent les noms de personne, les lieux, les manifestations., etc.), leur catégorisation et leur localisation géographique.

Dans le prochain billet je me propose d’approfondir l’argumentation ainsi introduite et qui vise à monter que les bibliothèques sont très bien placées pour réaliser ce travail et doivent être des acteurs sûrs et « incontournables » du Web des données (autre appellation du Web sémantique).

Pour ce qui est des outils, je vous propose trois moteurs estampillés Web sémantique :

  • Hakia : (2006) Le défi d’Hakia est de construire un moteur de recherche sémantique, c’est-à-dire, destiné à rendre les résultats des recherches basés plus particulièrement sur le sens des mots clés. Le principe étant de faire la relation entre les mots, à la manière du cerveau humain. C’est une nouveauté par rapport aux moteurs de recherche classiques qui utilisent la popularité et les occurrences par indexation conventionnelle. 
  • Spock : moteur pour recherche d’individus (fonctionnement depuis août 2007). La fonction de recherche y est accessible à tous les internautes, sans inscription préalable. Il suffit de renseigner le nom d’un individu et éventuellement d’affiner la requête avec son âge, son sexe et son origine géographique. Spock offre aussi la possibilité de rechercher des individus à partir de mots-clés comme «Senegalese musician», qui remonte alors une liste de musiciens sénégalais (je vous laisse deviner ceux qui sont les premiers cités ou bien faites l’expérience). Chaque profil apparaît sous forme de fiche renseignée d’une photo, de tags (mots-clés) censés décrire l’individu, et d’une liste de proches. Si l’accès à la recherche de base est accessible à tous, Spock invite les utilisateurs à s’inscrire afin de profiter de fonctions supplémentaires. Cela leur permet d’affiner leur propre profil mais aussi de participer à l’amélioration du service en ajoutant des tags aux individus pour mieux les qualifier (par exemple, journaliste, musicien…), l’objectif étant d’améliorer la pertinence du moteur.
  • Swoogle : (développé depuis 2004 par Ebiquity group à l’Université du Maryland) moteur de recherche sur les ontologies.

Ce Web sémantique, selon certains spécialistes, est la future évolution du Web (3.0 ?), raison de plus de demeurer éveillé et/ou veilleur pour ne pas rester en rade.

Merci à Pani Zuza Wiorogorska pour ta précieuse collaboration

Prochainement la suite au même port d’escale.

PS : pensée pieuse pour madame Rose Dieng (éteinte ce 30 juin 2008 à Nice), spécialiste d’Intelligence Artificielle à l’INRIA et travaillant ces dernières années sur la gestion des connaissances et le web sémantique. Cette compatriote s’était vue décerner par le Ministère de la Recherche (France) et le groupe EADS le prix Irène Joliot-Curie 2005 distinguant ainsi une femme qui s’est affirmée par son parcours et sa contribution à la science. Je vous propose une de ses interventions concernant le web du futur où elle parle entre autres du Web sémantique.


Creative Commons License

Ce document est mis en ligne sous Licence Creative Commons.

N° 14 – RSS : agrégateurs en ligne 1

Suite et fin de ce mini dossier sur RSS par une présentation d’autres outils permettant de d’utiliser cette technologie PUSH. Pourquoi le choix des agrégateurs en ligne, parce que tout simplement ils ne nécessitent pas de téléchargement pour être utilisés, ce qui permet à tout un chacun de retrouver ses informations depuis n’importe quel ordinateur connecté à Internet. Dans mon premier post concernant ce dossier (billet n° 12) j’avais indiqué quelques lecteurs RSS hors-ligne (RSSReader et FeedReader,) qu’il fallait télécharger pour pouvoir les utiliser.

Après avoir défini ce qu’est un agrégateur avec les avantages que l’on peut en tirer, je vous proposerai une liste de quelques outils de ce type étant entendu que, leur maîtrise passera nécessairement par une pratique assidue.

Avantages :

  • centralisation de flux RSS d’origines très diverses : donc réduction du temps de consultation
  • proposition de résumés des informations reçues : donc aperçu du contenu des nouveautés apparaissant sur le site et tri possible avant la consultation de ces informations
  • facilité et simplicité dans l’utilisation : le processus d’abonnement et de désabonnement à des flux se fait de manière très rapide sans aucune contrainte technique particulière
  • possibilité de sauvegarder ses abonnements grâce au format OPML : cette capacité a son importance car la principale fragilité d’un agrégateur en ligne, est qu’il dépend de la plateforme mère (qui le produit et l’administre). Si par malheur cette « maison-mère » n’est plus accessible par Internet on risque de perdre tous les fils auxquels on s’est abonné.

Modus operandi :

En général, tous les agrégateurs en ligne ont des modes d’emploi semblables, en voici quelques caractéristiques communes :

  • étape 1 : inscription en donnant des informations personnelles pour obtenir un Login et un mot de passe qui permettront d’accéder à sa page personnelle de n’importe quel point du globe (forêt équatoriale africaine comprise)
  • étape 2 : repérer un onglet, ou bouton, ou un lien… ayant comme intitulé : « ajouter du contenu » ou « ajouter un flux » ou encore pour les anglophones « add… », cliquer dessus pour intégrer dans l’agrégateur, les fils RSS préalablement identifiés et choisis
  • étape 3 : ce fil vient s’afficher dans la page personnelle qu’on est entrain de créer ou d’enrichir avec possibilité d’afficher ce flux partout où on veut sur la page
  • étape 4 : la page est fonctionnelle depuis que l’on a agrégé le premier fil et les nouvelles informations apparaissent dans cet espace au fil (pardon pour la répétition) des mises à jour du « site-mère ».
  • étape 5 : on peut aller en Tasmanie en toute quiétude sans s’encombrer d’un laptop, seulement se souvenir de l’agrégateur utilisé, de son login et de son mot de passe pour avoir accès aux sites qu’on choisi de (sur)veiller.

Pour pratiquer et profiter de cette formidable technologie gratuite (pour combien de temps encore ?) voici une liste jamais exhaustive de quelques « joyaux »

Les cinq premiers sites, en plus des fils RSS, proposent des widgets de bureau qui permettent d’avoir accès à des informations particulières (courrier électronique, actualités, météo,…). Cette possibilité d’agréger une multiplicité de sites Internet dans un espace est offerte par XML. Les flux sont reçus et affichés sans l’aspect graphique des sites dont ils sont issus et les temps de chargement s’en trouvent forcément réduits. Voir cet exemple pour une meilleure compréhension de cela.

Pour nous professionnels de l’information documentaire, l’usage des agrégateurs en ligne trouve sa pertinence dans la possibilité qu’il nous offre de faire une veille documentaire efficace sur différentes sources d’information et fournir une qualité de service appréciée pour nos usagers.

Prochain wharf de mouillage : retour dans les eaux de la description bibliographique avec l’ISBD consolidé


Creative Commons LicenseCe document est mis en ligne sous Licence Creative Commons.

N° 12 – RSS : une introduction Réponse

Parmi les possibilités offertes par XML, figure celle de pouvoir diffuser l’information par le biais des fils RSS. Pour une compréhension très simple, posons-nous des questions et essayons d’y répondre.

  • C’est quoi, un fil RSS ?

Combien de fois, chaque jour, ouvrez-vous par exemple Seneweb (pub gratuite) pour avoir des nouvelles et combien de temps perdez-vous en attendant le chargement de sa page d’accueil pleine d’images, surtout que la plupart de nos réseaux n’ont pas le label « à grande vitesse » ? Eh bien les flux RSS ont été inventés, entre autres, pour rendre l’accès aux sites Web plus simple et plus efficace et permettent aux internautes que nous sommes d’être au courant de toutes les « news » ou nouveautés d’un site. Les fils RSS (pour Really Simple Syndication ou RDF Site Summary) sont donc des flux répertoriant des contenus mis à disposition par des sites Internet. Ils peuvent contenir des titres d’articles, de dépêches,… et permettent d’un simple clic d’afficher le texte correspondant. Ils s’actualisent automatiquement sur l’écran de votre ordinateur sans que vous ayez besoin de vous connecter au site web d’origine.

  • A quoi ça sert ?

Dès qu’une nouvelle information est publiée, votre ordinateur vous l’annonce. Ainsi, plutôt que de devoir vous connecter régulièrement à votre site Internet de (p)référence, vous pouvez consulter à tout moment les derniers titres mis à jour. Dès qu’un titre vous intéresse, il vous suffit de cliquer sur celui-ci, pour accéder directement à l’article correspondant.

  • Comment ça fonctionne ?

Pour pouvoir lire des fils d’information au format RSS, vous avez quelques possibilités :

1 – Télécharger un « lecteur de flux RSS »
Vous devez d’abord télécharger un logiciel spécifique, un « lecteur d’informations » (news reader) qui vous permet ensuite de recevoir les titres issus des sites que vous aurez présélectionnés. Il existe un très grand nombre de ces logiciels, comme RSSReader ou FeedReader, pour PC (gratuits tous les deux), ou RSSOwl (gratuit), pour Mac.

Par exemple pour se tenir au courant des différentes mises à jour intervenant sur ce blog : une fois le programme installé sur votre ordinateur, revenez sur cette page, copiez le lien affiché ci-dessous et collez-le dans votre logiciel de lecture de fils RSS. https://louisar.wordpress.com/feed/

2 – Avec le navigateur Firefox
Téléchargez et installez le navigateur Internet Firefox (pour PC, Mac ou Linux).

Après avoir installé Firefox, affichez la page d’accueil de SENBIBDOC. Une icône orange apparaît en bas à droite de la fenêtre du navigateur ou à droite dans la barre d’adresse. Cliquez dessus. Les articles apparaîtront dorénavant automatiquement dans les Favoris ou la Barre de favoris du navigateur, sans que vous ayez à vous connecter au site.

Voir, pour des cas pratiques, ces pages démonstratives, incluant le navigateur Internet Explorer.

Bonne lecture jusqu’au prochain chargement : RSS, usages documentaires

 

 

 

 

 

Creative Commons License
Cet article est mis en ligne sous une licence Creative Commons.

N° 11 – XML : initiation pratique 1

Suite de mon introduction à XML.

Après avoir exposé les usages du langage dans la sphère bibliothéconomique, je vais dans ce billet faire une présentation pratique de ce qu’est XML. Le moyen que j’ai choisi est un slideshow, qui je l’espère permettra de mieux appréhender le sujet. Le but n’étant pas, bien entendu, de former des experts en la matière, je me suis limité à une présentation en surface.

Pour ceux qui sont intéressés par une découverte plus profonde, je vous propose la version intégrale de la présentation.

Dans le même souci de faciliter la compréhension je vous propose ci-dessous le film sur le web 2.0, réalisé par Michael Wesch anthropologue à Kansas State University, où sont exposées les possibilités offertes par XML. Le même film a été suggéré dans un commentaire à la suite de mon billet n° 04.

et ci-après, Web 2.0 traduction, envoyé par Thomas-Berthelon, une tentative de traduction sous-titrée en français pour ceux dont la langue anglaise n’est pas la tasse de thé préférée.

A bientôt pour une autre escale avec une v(t)oile cousue de fil RSS.

Creative Commons License
Cet article est mis en ligne sous un contrat Creative Commons.

N° 10 – XML et bibliothèques 1

A l’occasion des dix ans d’XML (10 février 2008), je profite de l’événement pour ancrer ma yole au port de cette syntaxe de balisage créée a l’initiative du consortium du Web  qu’est le W3C. Je ne m’appesentirai pas outre mesure sur l’historique de sa création, tant l’information sur la question est abondamment disponible sur l’incontournable Web. Soucions-nous plutôt de son utilisation et de son importance surtout dans l’environnement bibliothéconomique.

XML (Extensible markup language) est un langage de balisage générique dont le but est de permettre la fonctionnalité et l’interopérabilité du Web en permettant a plusieurs systèmes dinformation hétérogènes de communiquer et d’échanger. Autrement dit il repose sur des principes : c’est un langage de balisage extensible ; sa maintenance est assurée par le W3C ; les balises ne sont pas prédéfinies mais libres et précisent le sens ou la structure et non pas la présentation graphique (comme le fait HTML) ; le contenu, la structure et la présentation sont nettement dissociés ; la structure des informations est arborescente. 

Les raisons qui rendent intéressantes son utilisation sont que : c’est un format libre et ouvert ; il est indépendant de toute plateforme informatique ; il est promis à une certaine pérennité (il est répandu dans plusieurs domaines et bénéficie d’une solide structure de maintenance) ; il facilite l’interopérabilité. Pour de plus amples informations voir le dossier que j’avais indiqué sur un billet précédent. 

En bibliothèque son utilisation permet : d’afficher des notices bibliographiques sur le Web (MarcXML, MODS, BiblioML…) ; d’y échanger ces notices (OAI, Dublin Core…) ; d’y éditer des ressources (TEI, EAD…) ; d’y diffuser de l’information (RDF, RSS, Atom…). Pour mieux cerner les possibilités permises par XML, faisons une petite comparaison avec le format Marc que nous connaissons tous. Marc se matérialise sous la forme d’un format de saisie constitué de zones prédifinies et immuables, certaines de ces zones permettent de communiquer avec d’autres systèmes utilisant le même format ce qui permet à plusieurs bibliothèques d’échanger des notices bibliographiques par l’import ou l’export de celles-ci. Mais ces échanges ne concernent pas les usagers de nos bibliothèques qui sont dans l’impossibilité d’accéder aux notices via le Web (pour cela ils doivent préalablement passer par le site de la Bibliothèque pour accéder à son OPAC). Alors qu’avec XML, ces notices bibliographiques deviennent visibles à partir du Web parce qu’étant repérables par les différents outils de recherche qui le sillonnent. En d’autres termes nos OPAC sont mis en surface et accessibles, en principe, à tout internaute. Un autre avantage parmi d’autres est, par exemple, le changement de formats de notices de Marc à XML qui se fait sans perte de données, permettant ainsi une retroconversion « fidèle » de ces dernières… Ce souci de pallier l’incapacité du Marc à permettre les échanges sur le WEB,  sera à l’origine de la création du MarcXML par la Bibliothèque du Congrès en juin 2002. Je vous renvoie au billet N° 06 de ce blog où j’expose, dans la présentation en bas de page, les différentes insuffisances du format Marc face au Web et l’alternative offerte par les formats de métadonnées qui supportent, entre autres, un balisage en XML.

Cette visibilité de nos notices se manifeste aussi par l’utilisation des flux RSS, qui permettent de diffuser de l’information sous forme d’alerte. Un exemple tout simple est de créer un flux RSS de nouvelles acquisitions qui permet à tout utlisateur inscrit à ce flux d’être averti dès qu’il y a de nouvelles notices dans l’OPAC. Nous sommes là en présence d’un vraie application « bibliothèque 2.0 », ce qui montre qu’XML mérite toute notre attention et qu’il serait judicieux de l’intégrer dans nos pratiques présentes et futures.

Prochainement, XML : initiation à la pratique

N° 07 – Métadonnées (2) Réponse

Je vous propose pour ce post-ci un résumé sous forme de slides, de mes propos de l’article précédent. J’espère que cette forme de présentation permettra de mieux appréhender l’environnement complexe des métadonnées. Tour à tour j’y propose un compendium des trois types de métadonnées (description, structure et administration), précédé d’un essai de définition du document numérique et de ses formes de présentation. Ce slideshow s’inspire du cours « Métadonnées de préservation » dispensé par Mme Emmanuelle Bermès de la BNF et que j’ai suivi au cours du stage international «Ressources électroniques en bibliothèques» de 2006.

Voir ici

En conclusion, je voudrai rappeler ces quelques considérations concernant les métadonnées et leur gestion dans les structures documentaires. Ainsi elles (métadonnées) impliquent pour nous, acteurs de ces structures :

une évolution des besoins

plus seulement des métadonnées descriptives,

gestion de documents structurés ou à structurer (XML, une petite découverte de la syntaxe de ce langage de balisage me paraît utile, voir pour cela un dossier sur le web assez complet)

 

une évolution des compétences métier

augmentation des compétences techniques

gestion des compétences documentaires dans un environnement nouveau

 

un défi

continuer à remplir les missions de conservation et de communication dans un environnement nouveau

collaborer avec d’autres acteurs que les bibliothèques : Musées, Administration (pour ce dernier cas précis et pour montrer concrètement ce que nous pouvons apporter à la bonne gouvernance et à la modernisation de l’Etat, pensons à proposer l’utilisation des métadonnées pour décrire les ressources web du gouvernement du Sénégal. Une piste de réflexion de plus et à la fin une « utopie » réalisable, l’exemple du gouvernement du Canada le prouve, je vous propose ici les avantages et la pertinence identifiés quant à la mise en place d’une telle chose).

Semaine prochaine : Modèle FRBR : Functional Requirements for Bibliographic Records

N° 06 – Métadonnées (1) Réponse

Que sont les métadonnées ?

La documentation sur la question foisonne sur le web et l’article dans Wikipédia est très complet, je vous y renvoie volontiers. La définition communément admise fait d’une métadonnée, tout simplement, « une donnée sur une autre donnée » et quelque soit le type de support d’information. Même si le terme est apparu dans le cadre de la description de ressources sur Internet dans les années 1990, la définition suggère que les catalogueurs, par exemple, ont toujours créé des métadonnées comme Callimaque de Cyrène (bibliothécaire d’Alexandrie) qui rédigea le premier catalogue raisonné de la littérature grecque les Pinakes au IIIe siècle avant Jésus-Christ. Elles sont organisées et/ou présentées sous forme de schémas publiés par des organismes de standardisation avec des comités de gestion chargés de leur maintenance. On en distingue généralement trois types : les métadonnées de description, conçues en vue de la recherche, du repérage et de l’identification des ressources (titre, auteur, résumé, mots clefs, date de parution…) ; les métadonnées de structure, qui facilitent la navigation et la présentation des ressources électroniques, elles fournissent des informations sur la structure interne des ressources (table des matières, index, chapitre, section, page) ; les métadonnées d’administration qui facilitent la gestion, la validation, l’archivage des ressources, elles incluent des données techniques notamment, la gestion des droits, le contrôle d’accès et les conditions d’utilisation. Ces trois types sont complémentaires et souvent les frontières entre elles ne sont pas visibles dans la pratique. En d’autres termes pour ceux qui se posent la question sur leur utilité, elles permettent de localiser et d’accéder à un document surtout en ligne (les documents imprimés l’étant par le biais des données catalographiques informatisées ou non). En effet les documents en ligne ont été caractérisés, à leur apparition, par une difficulté d’accès à leur contenu par le biais des formats de description classiques (ISBD par exemple), il a fallu attendre l’avènement du Marc et de sa zone 856 pour y accéder via la saisie de l’URL. Face à l’explosion de ces ressources en ligne et l’apparition des moteurs de recherche et autres outils (moissonneurs d’entrepôts d’archives ouvertes, exemple : OAIHarvester2), il fallait structurer ces éléments de description et de localisation pour rendre ces moteurs de recherche (certains, pas tous) plus performants dans la recherche et la récupération desdites ressources. Le souci était aussi de permettre l’interopérabilité c’est-à-dire la capacité d’échanger des données entre systèmes multiples disposant de différentes caractéristiques en terme de matériels, logiciels, structures de données et interfaces, et avec le minimum de perte d’information et fonctionnalités. Les métadonnées participent ainsi à cela en complémentarité avec d’autres processus. Au niveau technique cette interopérabilité se réalise à trois niveaux complémentaires : une description des ressources avec des sémantiques communes issues de différents jeux de métadonnées standardisés (Dublin Core, Marc-XML, BiblioML, EAD pour les archives,…), un cadre d’implémentation de ces descriptions dans des langages structurés standardisés, interprétables par les machines (HTML, XHTML, XML, RDF…) et des protocoles informatiques d’échange de ces données normalisées (HTTP, OAI-PMH, SRU/SRW,…).Dans l’univers des métadonnées descriptives, le jeu de métadonnées plus populaire est sans nul doute le Dublin core passé de standard à norme ISO avec un statut officiel au sein du W3C (Consortium du World Wide Web, instance internationale permanente chargée de l’avenir du Web). Je vous invite à consulter en ligne sur Slideshare, la présentation que j’avais faite sur la question lors d’un atelier du COBESS (vous pouvez récupérer le fichier .ppt).

A huitaine !