N° 24 – Un peu de Web sémantique Réponse

Que de chemin parcouru depuis que Tim Berners-Lee créa le Web en 1991. Année qui a aussi vu l’apparition de la première génération des outils dédiés à la recherche de sites Web. Ces sites ont connu une évolution quantitative exponentielle entraînant de fait, une surproduction d’information (infobésité), ce qui implique aujourd’hui, la nécessité d’avoir des mécanismes et outils de recherche qui permettent une recherche efficace (rapidité et pertinence) de l’information ainsi publiée. Cette nécessité a été levier de l’évolution technologique des moteurs de recherche, mais aussi de l’apparition du « nouveau » concept qu’est le Web sémantique, dont je me propose de faire l’exposé dans ce billet.

Qu’en est-il ?

Brièvement expliqué, ce concept a pour objet de faciliter l’accès aux informations disponibles sur le Web. La vision de Tim Berners-Lee est de rendre la sémantique des ressources du Web explicite, de manière que les programmes puissent l’exploiter comme nous autres humains. Cela grâce à l’interopérabilité des métadonnées qui va permettre aux moteurs de trouver et de mettre en relation des données jusqu’alors confinées dans leurs sites (ou leurs bases de données, une grande partie du Web invisible est confinée dans des bases de données). Le but est de permettre aux robots (fureteurs du Web) de « comprendre » le contenu des sites, grâce à l’emploi de langages adéquats (le RDF ou Resource Description Framework pour les métadonnées ; le OWL : Web Ontology Language pour les ontologies).

Pour  illustrer ce qu’est le Web sémantique, prenons un exemple tout simple : on choisit de faire une recherche sur « Abdou Diouf ». Un moteur classique comme Google va afficher des milliers de pages où figure le nom Abdou Diouf, mais un moteur estampillé Web sémantique va orienter la recherche en proposant le nom « Abdou Diouf » selon des qualificatifs (fonction, profession,…plus précisément pour cet exemple : président du Sénégal, secrétaire général de la francophonie, etc.). Donc il faut arriver à ce que les moteurs de recherche puissent « saisir le sens » des ressources du Web qu’ils indexent (expression qui a une autre signification ici et qui est différente d’une quelconque compréhension du langage naturel par les machines). Ceci implique, dans l’ « idéologie » du Web sémantique de rendre cette information disponible à  ces programmes sous forme d’ontologies (voir ci-dessus). Le bénéfice principal que l’on obtient avec pareille chose, est l’abrègement considérable du temps de recherche et qui rime avec réduction importante du bruit (informations superflues non désirées).

La philosophie du Web sémantique est aussi d’exprimer les métadonnées dans un modèle entité-relation (voir les FRBR) et d’identifier toutes les entités à l’aide d’URI (Uniform Resource Identifier, « identifiant uniforme de ressource »). Pour nous bibliothécaires et assimilés, les enjeux que nous devons saisir concernent : l’exposition des données structurées dont nous disposons par l’émiettement de la connaissance en proposant une description bibliographique au niveau le plus élémentaire. Cet enrichissement des données nécessite la reconnaissance d’entités nommées (de façon à ce que les moteurs reconnaissent les noms de personne, les lieux, les manifestations., etc.), leur catégorisation et leur localisation géographique.

Dans le prochain billet je me propose d’approfondir l’argumentation ainsi introduite et qui vise à monter que les bibliothèques sont très bien placées pour réaliser ce travail et doivent être des acteurs sûrs et « incontournables » du Web des données (autre appellation du Web sémantique).

Pour ce qui est des outils, je vous propose trois moteurs estampillés Web sémantique :

  • Hakia : (2006) Le défi d’Hakia est de construire un moteur de recherche sémantique, c’est-à-dire, destiné à rendre les résultats des recherches basés plus particulièrement sur le sens des mots clés. Le principe étant de faire la relation entre les mots, à la manière du cerveau humain. C’est une nouveauté par rapport aux moteurs de recherche classiques qui utilisent la popularité et les occurrences par indexation conventionnelle. 
  • Spock : moteur pour recherche d’individus (fonctionnement depuis août 2007). La fonction de recherche y est accessible à tous les internautes, sans inscription préalable. Il suffit de renseigner le nom d’un individu et éventuellement d’affiner la requête avec son âge, son sexe et son origine géographique. Spock offre aussi la possibilité de rechercher des individus à partir de mots-clés comme «Senegalese musician», qui remonte alors une liste de musiciens sénégalais (je vous laisse deviner ceux qui sont les premiers cités ou bien faites l’expérience). Chaque profil apparaît sous forme de fiche renseignée d’une photo, de tags (mots-clés) censés décrire l’individu, et d’une liste de proches. Si l’accès à la recherche de base est accessible à tous, Spock invite les utilisateurs à s’inscrire afin de profiter de fonctions supplémentaires. Cela leur permet d’affiner leur propre profil mais aussi de participer à l’amélioration du service en ajoutant des tags aux individus pour mieux les qualifier (par exemple, journaliste, musicien…), l’objectif étant d’améliorer la pertinence du moteur.
  • Swoogle : (développé depuis 2004 par Ebiquity group à l’Université du Maryland) moteur de recherche sur les ontologies.

Ce Web sémantique, selon certains spécialistes, est la future évolution du Web (3.0 ?), raison de plus de demeurer éveillé et/ou veilleur pour ne pas rester en rade.

Merci à Pani Zuza Wiorogorska pour ta précieuse collaboration

Prochainement la suite au même port d’escale.

PS : pensée pieuse pour madame Rose Dieng (éteinte ce 30 juin 2008 à Nice), spécialiste d’Intelligence Artificielle à l’INRIA et travaillant ces dernières années sur la gestion des connaissances et le web sémantique. Cette compatriote s’était vue décerner par le Ministère de la Recherche (France) et le groupe EADS le prix Irène Joliot-Curie 2005 distinguant ainsi une femme qui s’est affirmée par son parcours et sa contribution à la science. Je vous propose une de ses interventions concernant le web du futur où elle parle entre autres du Web sémantique.


Creative Commons License

Ce document est mis en ligne sous Licence Creative Commons.

N° 16 – RDA : quelques considérations générales Réponse

Dans le billet de la semaine dernière, mon intérêt s’est porté sur l’ISBD consolidé publié en août 2007. Parallèlement un autre travail est entrain d’être accompli dans la sphère bibliothéconomique nord-américaine, toujours dans le sillage des nouvelles orientations imaginées pour faire évoluer le catalogage. En terme plus précis, il s’agit de la mise en place d’un nouveau code de catalogage dénommé RDA (Resource Description and Access).

Historique

En 2003, l’organisme de maintenance des AACR (Anglo-American Cataloguing Rules), en l’occurrence le Joint Steering Committee for revision of AACR (JSC) décida de réviser profondément ces règles. La dernière publication officielle (AACR2) est la seconde édition révisée en 2002 et mise à jour en 2003, 2004 et 2005. A sa suite, le draft de la première partie des AACR3 fut publié en décembre 2004. En 2005 le JSC décida de changer l’intitulé des AACR en adoptant celui de RDA, dont le premier draft sera publié en décembre 2005, suivi de la publication d’autres moutures concernant ses différents chapitres en 2006 et 2007. Pour une présentation plus complète (sur les RDA et l’organisation fonctionnelle du JSC) ce site peut vous aider à y voir plus clair. Les travaux sont en cours et la publication définitive est prévue en 2009.

Présentation et objectifs

  • code de catalogage adapté au nouveau contexte des catalogues : publication des règles sous forme électronique, pour décrire tous les types de ressources (électroniques et autres) dans des notices utilisables dans l’environnement numérique (Internet, OPAC web…)
  • approche centrée sur l’utilisateur et l’information dont il a besoin : la « norme » est conçue pour être facilement utilisable et produire des notices dont les données seront appropriées et pertinentes pour l’utilisateur
  • les directives sont basées sur des principes et non sur des règles contraignantes ou restrictives, le but étant de faciliter le processus de description des ressources selon un plan logique.
  • référence aux modèles d’information bibliographique (FRBR et FRAD, je me propose de faire prochainement, un billet sur ce dernier modèle qui concerne les données d’autorité). Ces derniers étant les bases de la construction des directives des RDA. Le prochain post portera sur l’articulation entre les RDA et les FRBR.
  • vocation internationale
  • possibilité d’un contrôle bibliographique plus efficace
  • compatibilité avec des normes de description semblables
  • utilisation préconisée au-delà de la communauté des bibliothèques : compatibilité avec les normes nord-américaines d’archives et de gestion des objets muséographiques

RDA et les métadonnées

RDA est conçu pour être utilisable avec des schémas d’encodage de métadonnées. Les notices bibliographiques créées sous RDA peuvent être stockées et transmises sous format MARC et des formats de métadonnées, tels que le Dublin Core (Dublin Core working group for RDA) ou MODS (slide sur MODS et RDA). Parallèlement un travail de développement d’un profil d’application pour RDA est entrain d’être mené, ainsi que celui d’un vocabulaire d’éléments.

Pour finir

Parler de RDA en l’état actuel (travaux d’élaboration en cours) est un exercice difficile tant le deadline quant à sa finalisation (2009) est encore long. Ce que j’ai voulu faire ressortir dans ce mini-dossier, à compléter lors du prochain post, c’est son importance ultérieure dans la construction du Web sémantique où, nous bibliothécaires et autres acteurs de l’information documentaire, devront avoir le « beau rôle », avec les informations contenues dans nos catalogues et répertoires accessibles sur le Web. Pour permettre aux moteurs de recherche d’accéder à ces données, il faut revoir et continuer à améliorer les formats et structures des catalogues, mais aussi les règles de catalogage, c’est le souci des concepteurs des RDA. Souhaitons qu’ils atteignent les buts escomptés et que les espoirs pour la profession (annonce de l’IFLA) ne soient pas déçus.

Prochainement RDA et modèle FRBR


Creative Commons License

Ce document est mis en ligne sous Licence Creative Commons.

N° 10 – XML et bibliothèques 1

A l’occasion des dix ans d’XML (10 février 2008), je profite de l’événement pour ancrer ma yole au port de cette syntaxe de balisage créée a l’initiative du consortium du Web  qu’est le W3C. Je ne m’appesentirai pas outre mesure sur l’historique de sa création, tant l’information sur la question est abondamment disponible sur l’incontournable Web. Soucions-nous plutôt de son utilisation et de son importance surtout dans l’environnement bibliothéconomique.

XML (Extensible markup language) est un langage de balisage générique dont le but est de permettre la fonctionnalité et l’interopérabilité du Web en permettant a plusieurs systèmes dinformation hétérogènes de communiquer et d’échanger. Autrement dit il repose sur des principes : c’est un langage de balisage extensible ; sa maintenance est assurée par le W3C ; les balises ne sont pas prédéfinies mais libres et précisent le sens ou la structure et non pas la présentation graphique (comme le fait HTML) ; le contenu, la structure et la présentation sont nettement dissociés ; la structure des informations est arborescente. 

Les raisons qui rendent intéressantes son utilisation sont que : c’est un format libre et ouvert ; il est indépendant de toute plateforme informatique ; il est promis à une certaine pérennité (il est répandu dans plusieurs domaines et bénéficie d’une solide structure de maintenance) ; il facilite l’interopérabilité. Pour de plus amples informations voir le dossier que j’avais indiqué sur un billet précédent. 

En bibliothèque son utilisation permet : d’afficher des notices bibliographiques sur le Web (MarcXML, MODS, BiblioML…) ; d’y échanger ces notices (OAI, Dublin Core…) ; d’y éditer des ressources (TEI, EAD…) ; d’y diffuser de l’information (RDF, RSS, Atom…). Pour mieux cerner les possibilités permises par XML, faisons une petite comparaison avec le format Marc que nous connaissons tous. Marc se matérialise sous la forme d’un format de saisie constitué de zones prédifinies et immuables, certaines de ces zones permettent de communiquer avec d’autres systèmes utilisant le même format ce qui permet à plusieurs bibliothèques d’échanger des notices bibliographiques par l’import ou l’export de celles-ci. Mais ces échanges ne concernent pas les usagers de nos bibliothèques qui sont dans l’impossibilité d’accéder aux notices via le Web (pour cela ils doivent préalablement passer par le site de la Bibliothèque pour accéder à son OPAC). Alors qu’avec XML, ces notices bibliographiques deviennent visibles à partir du Web parce qu’étant repérables par les différents outils de recherche qui le sillonnent. En d’autres termes nos OPAC sont mis en surface et accessibles, en principe, à tout internaute. Un autre avantage parmi d’autres est, par exemple, le changement de formats de notices de Marc à XML qui se fait sans perte de données, permettant ainsi une retroconversion « fidèle » de ces dernières… Ce souci de pallier l’incapacité du Marc à permettre les échanges sur le WEB,  sera à l’origine de la création du MarcXML par la Bibliothèque du Congrès en juin 2002. Je vous renvoie au billet N° 06 de ce blog où j’expose, dans la présentation en bas de page, les différentes insuffisances du format Marc face au Web et l’alternative offerte par les formats de métadonnées qui supportent, entre autres, un balisage en XML.

Cette visibilité de nos notices se manifeste aussi par l’utilisation des flux RSS, qui permettent de diffuser de l’information sous forme d’alerte. Un exemple tout simple est de créer un flux RSS de nouvelles acquisitions qui permet à tout utlisateur inscrit à ce flux d’être averti dès qu’il y a de nouvelles notices dans l’OPAC. Nous sommes là en présence d’un vraie application « bibliothèque 2.0 », ce qui montre qu’XML mérite toute notre attention et qu’il serait judicieux de l’intégrer dans nos pratiques présentes et futures.

Prochainement, XML : initiation à la pratique

N° 07 – Métadonnées (2) Réponse

Je vous propose pour ce post-ci un résumé sous forme de slides, de mes propos de l’article précédent. J’espère que cette forme de présentation permettra de mieux appréhender l’environnement complexe des métadonnées. Tour à tour j’y propose un compendium des trois types de métadonnées (description, structure et administration), précédé d’un essai de définition du document numérique et de ses formes de présentation. Ce slideshow s’inspire du cours « Métadonnées de préservation » dispensé par Mme Emmanuelle Bermès de la BNF et que j’ai suivi au cours du stage international «Ressources électroniques en bibliothèques» de 2006.

Voir ici

En conclusion, je voudrai rappeler ces quelques considérations concernant les métadonnées et leur gestion dans les structures documentaires. Ainsi elles (métadonnées) impliquent pour nous, acteurs de ces structures :

une évolution des besoins

plus seulement des métadonnées descriptives,

gestion de documents structurés ou à structurer (XML, une petite découverte de la syntaxe de ce langage de balisage me paraît utile, voir pour cela un dossier sur le web assez complet)

 

une évolution des compétences métier

augmentation des compétences techniques

gestion des compétences documentaires dans un environnement nouveau

 

un défi

continuer à remplir les missions de conservation et de communication dans un environnement nouveau

collaborer avec d’autres acteurs que les bibliothèques : Musées, Administration (pour ce dernier cas précis et pour montrer concrètement ce que nous pouvons apporter à la bonne gouvernance et à la modernisation de l’Etat, pensons à proposer l’utilisation des métadonnées pour décrire les ressources web du gouvernement du Sénégal. Une piste de réflexion de plus et à la fin une « utopie » réalisable, l’exemple du gouvernement du Canada le prouve, je vous propose ici les avantages et la pertinence identifiés quant à la mise en place d’une telle chose).

Semaine prochaine : Modèle FRBR : Functional Requirements for Bibliographic Records

N° 06 – Métadonnées (1) Réponse

Que sont les métadonnées ?

La documentation sur la question foisonne sur le web et l’article dans Wikipédia est très complet, je vous y renvoie volontiers. La définition communément admise fait d’une métadonnée, tout simplement, « une donnée sur une autre donnée » et quelque soit le type de support d’information. Même si le terme est apparu dans le cadre de la description de ressources sur Internet dans les années 1990, la définition suggère que les catalogueurs, par exemple, ont toujours créé des métadonnées comme Callimaque de Cyrène (bibliothécaire d’Alexandrie) qui rédigea le premier catalogue raisonné de la littérature grecque les Pinakes au IIIe siècle avant Jésus-Christ. Elles sont organisées et/ou présentées sous forme de schémas publiés par des organismes de standardisation avec des comités de gestion chargés de leur maintenance. On en distingue généralement trois types : les métadonnées de description, conçues en vue de la recherche, du repérage et de l’identification des ressources (titre, auteur, résumé, mots clefs, date de parution…) ; les métadonnées de structure, qui facilitent la navigation et la présentation des ressources électroniques, elles fournissent des informations sur la structure interne des ressources (table des matières, index, chapitre, section, page) ; les métadonnées d’administration qui facilitent la gestion, la validation, l’archivage des ressources, elles incluent des données techniques notamment, la gestion des droits, le contrôle d’accès et les conditions d’utilisation. Ces trois types sont complémentaires et souvent les frontières entre elles ne sont pas visibles dans la pratique. En d’autres termes pour ceux qui se posent la question sur leur utilité, elles permettent de localiser et d’accéder à un document surtout en ligne (les documents imprimés l’étant par le biais des données catalographiques informatisées ou non). En effet les documents en ligne ont été caractérisés, à leur apparition, par une difficulté d’accès à leur contenu par le biais des formats de description classiques (ISBD par exemple), il a fallu attendre l’avènement du Marc et de sa zone 856 pour y accéder via la saisie de l’URL. Face à l’explosion de ces ressources en ligne et l’apparition des moteurs de recherche et autres outils (moissonneurs d’entrepôts d’archives ouvertes, exemple : OAIHarvester2), il fallait structurer ces éléments de description et de localisation pour rendre ces moteurs de recherche (certains, pas tous) plus performants dans la recherche et la récupération desdites ressources. Le souci était aussi de permettre l’interopérabilité c’est-à-dire la capacité d’échanger des données entre systèmes multiples disposant de différentes caractéristiques en terme de matériels, logiciels, structures de données et interfaces, et avec le minimum de perte d’information et fonctionnalités. Les métadonnées participent ainsi à cela en complémentarité avec d’autres processus. Au niveau technique cette interopérabilité se réalise à trois niveaux complémentaires : une description des ressources avec des sémantiques communes issues de différents jeux de métadonnées standardisés (Dublin Core, Marc-XML, BiblioML, EAD pour les archives,…), un cadre d’implémentation de ces descriptions dans des langages structurés standardisés, interprétables par les machines (HTML, XHTML, XML, RDF…) et des protocoles informatiques d’échange de ces données normalisées (HTTP, OAI-PMH, SRU/SRW,…).Dans l’univers des métadonnées descriptives, le jeu de métadonnées plus populaire est sans nul doute le Dublin core passé de standard à norme ISO avec un statut officiel au sein du W3C (Consortium du World Wide Web, instance internationale permanente chargée de l’avenir du Web). Je vous invite à consulter en ligne sur Slideshare, la présentation que j’avais faite sur la question lors d’un atelier du COBESS (vous pouvez récupérer le fichier .ppt).

A huitaine !