N° 25 – Web sémantique : apporter notre pierre à l’édifice Réponse

Au moment où se construit le Web sémantique,  soyons comme les bâtisseurs des cathédrales du Moyen-âge, c’est-à-dire des maçons opératifs et non spéculatifs. Détenant des savoir-faire comme ces derniers, devons-nous pour autant nous emmurer dans des obédiences où les pratiques et connaissances ne sont réservées qu’aux seuls initiés de la bibliothéconomie ? En toute assurance, qui est la marque des hommes imbus de l’importance de leur corporation, je crois que non, tant le constituant du web sémantique, à savoir les ontologies a envahi, depuis des lustres, les travées de nos espaces documentaires. Que celui de nous qui a déjà indexé jette la première pierre et à coup sûr, une ribambelle de galets s’envoleront du même coup, de tous les bords de la terre, formant un amas de briques certes difforme, qu’il faudra agencer selon les plans de l’édifice sémantique à bâtir. Il ne s’agit ni plus ni moins dans ce billet, de dire l’impossibilité de se passer de l’expertise des héritiers de Melvil Dewey et que ceux-ci doivent marquer leur présence au moment où se dessinent les plans architecturaux du monument sémantique.

Décrire, classifier, hiérarchiser, signifier, lier des termes et documents ; voilà ce qu’on veut assigner à des moteurs dits sémantiques. Dans nos pratiques « humaines » quotidiennes, nous ne faisons pas moins que cela et tel M. Jourdain (faisant de la prose sans le savoir) nous créons des ontologies sans nous en rendre compte. Alors la question à poser n’est-elle pas de savoir, comment convertir cette production « brute », née le plus souvent d’une expertise empirique, en une  réalité normée, répondant aux canons de l’orthodoxie informatique, plus précisément « webique » et qui sous-tend la performance des moteurs de recherche sémantiques ?  Eh bien selon les « experts » (je leur concède volontiers cet attribut parce que je les considère comme tels) en la matière, il faut une mixture composée de modèles : les RDF (pillier de l’architecture du Web sémantique), formidablement expliqués dans ce lien d’expert et les FRBR (il est grand temps que les SIGB s’y mettent), accompagnés d’une bonne dose d’OWL. En termes plus concrets : des catalogues de bibliothèques différentes pourront s’enrichir entre eux, être interrogés en une seule fois et de façon transparente pour les utilisateurs quand ils auront été soumis formellement à la même « RDFisation », à l’usage d’un même vocabulaire et d’un même modèle FRBR.

Comme base de créations d’ontologies, pourquoi n’utiliserions-nous pas les termes de nos différents systèmes de classification (définis et résumés ici) : données décrites en RAMEAU, ou bien encore les Worldcat identities (powered by OCLC) ou bien même ceux de nos petits systèmes classificatoires à formalisation locale ?

Il ne s’agit ni plus ni moins, pour nous bibliothèques(caires), que d’être une pierre angulaire du Web sémantique, pierre qu’il faudra bien polir afin qu’elle ne soit pas rejetée par les bâtisseurs.

Quelques ressources


Creative Commons License
Ce document est mis en ligne sous Licence Creative Commons.

N° 24 – Un peu de Web sémantique Réponse

Que de chemin parcouru depuis que Tim Berners-Lee créa le Web en 1991. Année qui a aussi vu l’apparition de la première génération des outils dédiés à la recherche de sites Web. Ces sites ont connu une évolution quantitative exponentielle entraînant de fait, une surproduction d’information (infobésité), ce qui implique aujourd’hui, la nécessité d’avoir des mécanismes et outils de recherche qui permettent une recherche efficace (rapidité et pertinence) de l’information ainsi publiée. Cette nécessité a été levier de l’évolution technologique des moteurs de recherche, mais aussi de l’apparition du « nouveau » concept qu’est le Web sémantique, dont je me propose de faire l’exposé dans ce billet.

Qu’en est-il ?

Brièvement expliqué, ce concept a pour objet de faciliter l’accès aux informations disponibles sur le Web. La vision de Tim Berners-Lee est de rendre la sémantique des ressources du Web explicite, de manière que les programmes puissent l’exploiter comme nous autres humains. Cela grâce à l’interopérabilité des métadonnées qui va permettre aux moteurs de trouver et de mettre en relation des données jusqu’alors confinées dans leurs sites (ou leurs bases de données, une grande partie du Web invisible est confinée dans des bases de données). Le but est de permettre aux robots (fureteurs du Web) de « comprendre » le contenu des sites, grâce à l’emploi de langages adéquats (le RDF ou Resource Description Framework pour les métadonnées ; le OWL : Web Ontology Language pour les ontologies).

Pour  illustrer ce qu’est le Web sémantique, prenons un exemple tout simple : on choisit de faire une recherche sur « Abdou Diouf ». Un moteur classique comme Google va afficher des milliers de pages où figure le nom Abdou Diouf, mais un moteur estampillé Web sémantique va orienter la recherche en proposant le nom « Abdou Diouf » selon des qualificatifs (fonction, profession,…plus précisément pour cet exemple : président du Sénégal, secrétaire général de la francophonie, etc.). Donc il faut arriver à ce que les moteurs de recherche puissent « saisir le sens » des ressources du Web qu’ils indexent (expression qui a une autre signification ici et qui est différente d’une quelconque compréhension du langage naturel par les machines). Ceci implique, dans l’ « idéologie » du Web sémantique de rendre cette information disponible à  ces programmes sous forme d’ontologies (voir ci-dessus). Le bénéfice principal que l’on obtient avec pareille chose, est l’abrègement considérable du temps de recherche et qui rime avec réduction importante du bruit (informations superflues non désirées).

La philosophie du Web sémantique est aussi d’exprimer les métadonnées dans un modèle entité-relation (voir les FRBR) et d’identifier toutes les entités à l’aide d’URI (Uniform Resource Identifier, « identifiant uniforme de ressource »). Pour nous bibliothécaires et assimilés, les enjeux que nous devons saisir concernent : l’exposition des données structurées dont nous disposons par l’émiettement de la connaissance en proposant une description bibliographique au niveau le plus élémentaire. Cet enrichissement des données nécessite la reconnaissance d’entités nommées (de façon à ce que les moteurs reconnaissent les noms de personne, les lieux, les manifestations., etc.), leur catégorisation et leur localisation géographique.

Dans le prochain billet je me propose d’approfondir l’argumentation ainsi introduite et qui vise à monter que les bibliothèques sont très bien placées pour réaliser ce travail et doivent être des acteurs sûrs et « incontournables » du Web des données (autre appellation du Web sémantique).

Pour ce qui est des outils, je vous propose trois moteurs estampillés Web sémantique :

  • Hakia : (2006) Le défi d’Hakia est de construire un moteur de recherche sémantique, c’est-à-dire, destiné à rendre les résultats des recherches basés plus particulièrement sur le sens des mots clés. Le principe étant de faire la relation entre les mots, à la manière du cerveau humain. C’est une nouveauté par rapport aux moteurs de recherche classiques qui utilisent la popularité et les occurrences par indexation conventionnelle. 
  • Spock : moteur pour recherche d’individus (fonctionnement depuis août 2007). La fonction de recherche y est accessible à tous les internautes, sans inscription préalable. Il suffit de renseigner le nom d’un individu et éventuellement d’affiner la requête avec son âge, son sexe et son origine géographique. Spock offre aussi la possibilité de rechercher des individus à partir de mots-clés comme «Senegalese musician», qui remonte alors une liste de musiciens sénégalais (je vous laisse deviner ceux qui sont les premiers cités ou bien faites l’expérience). Chaque profil apparaît sous forme de fiche renseignée d’une photo, de tags (mots-clés) censés décrire l’individu, et d’une liste de proches. Si l’accès à la recherche de base est accessible à tous, Spock invite les utilisateurs à s’inscrire afin de profiter de fonctions supplémentaires. Cela leur permet d’affiner leur propre profil mais aussi de participer à l’amélioration du service en ajoutant des tags aux individus pour mieux les qualifier (par exemple, journaliste, musicien…), l’objectif étant d’améliorer la pertinence du moteur.
  • Swoogle : (développé depuis 2004 par Ebiquity group à l’Université du Maryland) moteur de recherche sur les ontologies.

Ce Web sémantique, selon certains spécialistes, est la future évolution du Web (3.0 ?), raison de plus de demeurer éveillé et/ou veilleur pour ne pas rester en rade.

Merci à Pani Zuza Wiorogorska pour ta précieuse collaboration

Prochainement la suite au même port d’escale.

PS : pensée pieuse pour madame Rose Dieng (éteinte ce 30 juin 2008 à Nice), spécialiste d’Intelligence Artificielle à l’INRIA et travaillant ces dernières années sur la gestion des connaissances et le web sémantique. Cette compatriote s’était vue décerner par le Ministère de la Recherche (France) et le groupe EADS le prix Irène Joliot-Curie 2005 distinguant ainsi une femme qui s’est affirmée par son parcours et sa contribution à la science. Je vous propose une de ses interventions concernant le web du futur où elle parle entre autres du Web sémantique.


Creative Commons License

Ce document est mis en ligne sous Licence Creative Commons.

N° 17 – RDA & FRBR 3

Ce billet a pour objet de donner un aperçu de ce que représente le modèle FRBR dans la « philosophie » des RDA. Pour une meilleure compréhension du discours contenu dans ce post, un rappel des différentes caractéristiques du modèle FRBR s’impose, pour cela voir le billet N° 08 qui lui est consacré dans ce blog. Pour rappel ce modèle est un « cadre conceptuel permettant de comprendre clairement, sous une forme précisément exprimée et dans un langage qui soit parlant pour tout le monde, l’essence même de ce sur quoi la notice bibliographique est censée renseigner « . On retrouve ici l’un des objectifs de la norme RDA qui est de proposer des notices dont les données sont en adéquation avec les besoins de l’utilisateur. En d’autres termes les concepteurs des RDA ne pouvaient faire abstraction des possibilités offertes par les FRBR (modèle de référence à suivre pour le futur ?).

Les catalogueurs ont toujours consciemment ou inconsciemment voulu la simplification des règles de catalogage. Ainsi il fallait élaborer un schéma qui donnerait la possibilité de traiter toutes les ressources actuelles, mais aussi les nouvelles qui apparaitront (retour vers le futur ?) et d’appréhender la nouvelle logique de perception de l’entité ‘oeuvre’. Il apparaît en évidence que les modèles conceptuels d’information bibliographique FRBR et FRAD (Functional Requirements for Authority Data) ont inspiré l’élaboration des RDA qui, par ailleurs, vont encourager l’usage de ces modèles, d’où découlera probablement une interdépendance entre les deux, vu le niveau d’utilisation assez faible des modèles en question et le poids que vont prendre les RDA (en tant que nouveaux AACR) dans la sphère bibliothéconomique. Pour mieux comprendre cette norme, les concepteurs (Joint Steering Committe for Development of RDA) conseillent d’ailleurs de se familiariser d’abord avec la structure et le vocabulaire des FRBR.

Après analyse, on peut remarquer que les RDA intègrent la structure des FRBR :

  1. en reprenant leur terminologie (oeuvre, expression, manifestation et item).
  2. en rendant compte des attributs de leurs entités et des relations qu’elles peuvent avoir entre elles.
  3. en associant chaque élément de donnée (contenu de l’information bibliographique) à ces entités

Est-ce que RDA va satisfaire les attentes ? Nous verrons à la publication officielle annoncée pour 2009 pour lever certains doutes (?). Quoiqu’il en soit, une réalité est là qui est l’existence de ce modèle (FRBR) et de cette norme future (RDA). Il est absolument nécessaire de maîtriser ce qui est là (formation continue ou académique) pour que nous soyons prêts, éventuellement, à les utiliser le moment venu. Nous ne pouvons pas nous permettre, nous professionnels sénégalais, une non-appropriation de tels savoirs bibliothéconomiques. Anticiper le savoir-faire, à ce que je sache, n’a jamais fait de mal à qui veut être au diapason des évolutions du métier qu’il a choisi. Donnons-nous les moyens de prendre en charge ces outils de description bibliographique, pour qu’au moment de mettre en place une structure bibliographique nationale digne de ce nom (toujours repoussée aux calendes grecques), nous ayions une matière première (synonyme aussi de « produit fini », donc prêt-à-l’emploi, dans le monde numérique) pour garnir la réflexion et agir.

Pour mieux comprendre RDA et le RDA/FRBR « mapping » je conseille la veille sur la page des FAQ (Foire aux questions / Frequently asked questions) du site de RDA JSC. Et encore, toujours pour en savoir plus : RDA to FRBR mapping document en pdf (English version), présentant les relations de concordance entre les deux. Le blog FRBR est aussi intéressant à consulter.

😉 A Zuza pour ta précieuse collaboration lors de la rédaction de ce billet

Prochainement, navigation vers des eaux plus paisibles avec vent arrière. 🙂


Creative Commons License
Ce document est mis en ligne sous Licence Creative Commons.

N° 16 – RDA : quelques considérations générales Réponse

Dans le billet de la semaine dernière, mon intérêt s’est porté sur l’ISBD consolidé publié en août 2007. Parallèlement un autre travail est entrain d’être accompli dans la sphère bibliothéconomique nord-américaine, toujours dans le sillage des nouvelles orientations imaginées pour faire évoluer le catalogage. En terme plus précis, il s’agit de la mise en place d’un nouveau code de catalogage dénommé RDA (Resource Description and Access).

Historique

En 2003, l’organisme de maintenance des AACR (Anglo-American Cataloguing Rules), en l’occurrence le Joint Steering Committee for revision of AACR (JSC) décida de réviser profondément ces règles. La dernière publication officielle (AACR2) est la seconde édition révisée en 2002 et mise à jour en 2003, 2004 et 2005. A sa suite, le draft de la première partie des AACR3 fut publié en décembre 2004. En 2005 le JSC décida de changer l’intitulé des AACR en adoptant celui de RDA, dont le premier draft sera publié en décembre 2005, suivi de la publication d’autres moutures concernant ses différents chapitres en 2006 et 2007. Pour une présentation plus complète (sur les RDA et l’organisation fonctionnelle du JSC) ce site peut vous aider à y voir plus clair. Les travaux sont en cours et la publication définitive est prévue en 2009.

Présentation et objectifs

  • code de catalogage adapté au nouveau contexte des catalogues : publication des règles sous forme électronique, pour décrire tous les types de ressources (électroniques et autres) dans des notices utilisables dans l’environnement numérique (Internet, OPAC web…)
  • approche centrée sur l’utilisateur et l’information dont il a besoin : la « norme » est conçue pour être facilement utilisable et produire des notices dont les données seront appropriées et pertinentes pour l’utilisateur
  • les directives sont basées sur des principes et non sur des règles contraignantes ou restrictives, le but étant de faciliter le processus de description des ressources selon un plan logique.
  • référence aux modèles d’information bibliographique (FRBR et FRAD, je me propose de faire prochainement, un billet sur ce dernier modèle qui concerne les données d’autorité). Ces derniers étant les bases de la construction des directives des RDA. Le prochain post portera sur l’articulation entre les RDA et les FRBR.
  • vocation internationale
  • possibilité d’un contrôle bibliographique plus efficace
  • compatibilité avec des normes de description semblables
  • utilisation préconisée au-delà de la communauté des bibliothèques : compatibilité avec les normes nord-américaines d’archives et de gestion des objets muséographiques

RDA et les métadonnées

RDA est conçu pour être utilisable avec des schémas d’encodage de métadonnées. Les notices bibliographiques créées sous RDA peuvent être stockées et transmises sous format MARC et des formats de métadonnées, tels que le Dublin Core (Dublin Core working group for RDA) ou MODS (slide sur MODS et RDA). Parallèlement un travail de développement d’un profil d’application pour RDA est entrain d’être mené, ainsi que celui d’un vocabulaire d’éléments.

Pour finir

Parler de RDA en l’état actuel (travaux d’élaboration en cours) est un exercice difficile tant le deadline quant à sa finalisation (2009) est encore long. Ce que j’ai voulu faire ressortir dans ce mini-dossier, à compléter lors du prochain post, c’est son importance ultérieure dans la construction du Web sémantique où, nous bibliothécaires et autres acteurs de l’information documentaire, devront avoir le « beau rôle », avec les informations contenues dans nos catalogues et répertoires accessibles sur le Web. Pour permettre aux moteurs de recherche d’accéder à ces données, il faut revoir et continuer à améliorer les formats et structures des catalogues, mais aussi les règles de catalogage, c’est le souci des concepteurs des RDA. Souhaitons qu’ils atteignent les buts escomptés et que les espoirs pour la profession (annonce de l’IFLA) ne soient pas déçus.

Prochainement RDA et modèle FRBR


Creative Commons License

Ce document est mis en ligne sous Licence Creative Commons.

N° 15 – Description bibliographique : ISBD consolidé Réponse

S’il est un environnement dans lequel se sont retrouvées des générations de bibliothécaires, c’est bien celui de l’ISBD (International Standard Bibliographic Description) format de description bibliographique dont l’objectif principal est de donner des directives permettant un catalogage descriptif compatible à l’échelle mondiale. Depuis une quarantaine d’années (réunion internationale des experts du catalogage à Copenhague en 1969, parrainée par le Comité de catalogage de l’IFLA) le programme ISBD a élaboré des normes pour décrire des ressources bibliographiques, les a maintenues par de nombreuses révisions et les a traduites en plus de 25 langues. L’ISBD devait être la pierre angulaire du programme de Contrôle bibliographique universel de l’IFLA. La liste des ISBD produits selon les différents types de documents débute en 1971 (voir cette liste ici) et trouve un aboutissement avec la création de ce qu’il est convenu d’appeler l’ISBD consolidé présenté en août 2007 au Congrès de l’IFLA à Durban.

En quoi consiste-t-il ?

Brièvement présenté, il s’agit de la fusion de tous les ISBD spécialisés (voir la liste indiquée supra) en un document unique. Ses principales caractéristiques se résument à :

  • une nouvelle organisation des règles à l’intérieur de chaque zone ou élément : règles générales (qui s’appliquent à tous les types de ressources) et règles spécifiques (ajouts et exceptions)
  • une harmonisation des règles, notamment dans la formulation et surtout dans la conformité avec les FRBR (publiés en 1998), le but n’étant pas cependant d’incorporer les termes utilisés dans le modèle FRBR (Oeuvre, Expression, Manifestation, Item) dans la terminologie de l’ISBD, celle-ci gardant sa spécificité en la matière, mais définissant de façon très précise la liaison conceptuelle existant entre chacun de ses éléments et les termes utilisés dans les FRBR
  • une mise à jour régulière, notamment par l’utilisation de feuillets mobiles pour la publication de la version imprimée

Pour plus de détails consulter la publication de l’IFLA sur la question.

La mise en place de cet ISBD consolidé et des initiatives parallèles qui sont en cours (RDA), entre dans un mouvement tendant à faire évoluer les règles de catalogage (vers un code unique de catalogage) pour que celles-ci obéissent à l’air du temps (technologique notamment). Les IME ICC (IFLA Meeting of Experts on an International Cataloguing Code) tenus entre 2003 et 2007 ont été très utiles pour tout ce travail de « consolidation » et il est apparu, à la suite de ces différentes rencontres , un certain nombre de suggestions à étudier dans l’avenir, de la part des différents continents (excepté l’Afrique ?). Certaines de ces suggestions ont été faites à partir de la reconnaissance de l’existence de langues et écritures différentes (notamment africaines) que le Groupe de révision des ISBD doit nécessairement prendre en compte en vue de son amélioration continue. Encore faut-il que nous (africains) soyons représentés au niveau de cette structure décisionnelle pour la défense de nos « intérêts légitimes »

Prochainement, régate continue au large des eaux de la description bibliographique où l’on fait évoluer les règles de catalogage avec RDA

Creative Commons License
Ce document est mis en ligne sous Licence Creative Commons.

N° 08 – Modèles conceptuels : FRBR Réponse

Aujourd’hui nous accostons au quai des modèles conceptuels créés pour la gestion de l’information. Brièvement présentés les modèles conceptuels sont : des outils de dialogue et d’intercompréhension entre des personnes d’horizons différents (par exemple : spécialistes d’un domaine et informaticiens) ; des outils de dialogue entre réservoirs de données hétérogènes ; des outils d’aide à la conception des systèmes ; des outils de comparaison, d’échange et de stockage de données ; des outils d’intégration au Web sémantique. Ils se situent au-dessus des schémas de métadonnées (voir posts précédents), donnant une vue d’ensemble abstraite de l’information fournie et fixent un idéal à atteindre quant à la gestion de cette information.

Mon propos, pour ce post, consiste en une introduction sur le modèle FRBR (Fundamental Requirements for Bibliographic Records ou en français, spécifications fonctionnelles des notices bibliographiques). C’est un modèle conceptuel développé par l’IFLA entre 1992 et 1998, sur la base de 9 résolutions adoptées en 1990 suite au séminaire de Stockholm sur les notices bibliographiques. Ce cadre conceptuel a pour but d’atteindre une compréhension commune et partagée des finalités des notices bibliographiques. Plus précisément il s’agit, de définir un niveau de catalogage minimal mais efficace pour les agences bibliographiques nationales et de mettre en adéquation les données bibliographiques avec les besoins des utilisateurs.

Ainsi les champs de l’étude sont : 1) les données (ensemble des données constutitives des notices bibliographiques, c’est-à-dire les données associées aux différents champs décrits dans les catalogues de bibliothèque et les bibliographies nationales); 2) les utilisateurs (tous les utilisateurs potentiels des notices : usagers des bibliothèques, personnels des bibliothèques, éditeurs, distributeurs, gestionnaires de droits d’auteur, etc.) ; 3) les besoins de ces utilisateurs (besoins relatifs aux buts recherchés dans le processus de consultation des catalogues : trouver des références en fonction de critères de recherche, identifier une ressource, la sélectionner en fonction de ses modalités d’utilisation et enfin y accéder).

La méthode repose sur une analyse des données bibliographiques selon le modèle Entité-Relation qui définit : un regroupement d’éléments de données en « entités » qui sont organisés en 3 groupes dans le FRBR, une identification des « relations » existant entres ces différentes entités et une identification d' »attributs » susceptibles de les affecter. Pour le détail concernant les entités je vous renvoie à cet article.

Les avantages pour les bibliothécaires se résument à : un catalogage facilité, une oeuvre est cataloguée une fois pour toutes pour toutes ses formes d’expression (traductions notamment), ces expressions elles-mêmes cataloguées une seule fois pour toutes les manifestations liées (éditeur, lieu d’édition, date, etc.), d’où enfin une organisation logique du catalogue. Pour l’utilisateur, la recherche est facilitée, car une seule recherche permet de trouver tous les types de matériel d’une oeuvre sans doublons, toutes les expressions sont affichées en une seule opération et sa navigation dans le catalogue est plus naturelle.

Pour l’intégration du modèle dans sa bibliothèque, il faut choisir un fournisseur de logiciel intégrant le modèle (voir VTLS inc). Désolé je n’ai pas trouvé de SIGB libre intégrant cet outil, néanmoins une consultation du lien précédent vous permettra d’en savoir plus sur le mécanisme de fonctionnement du modèle avec le tutoriel en ligne qui y est proposé.

Les FRBR restent cependant un modèle théorique dont l’application n’est pas aisée. La masse des données structurées en ISBD ou MARC est énorme et l’élaboration de programmes de conversion vers le FRBR est problématique (notamment du fait aussi de la « babelisation » du MARC). Aussi comment ne pas prendre en compte l’ingérence du Web 2.0 dans l’espace bibliothéconomique qui propose toute une nouvelle démarche qui va plus loin dans la prise en compte des besoins des utilisateurs (Opac social, folksonomie, métamoteur à affichage cartographique comme Kartoo …). Toutes ces remarques (parmi tant d’autres) ne constituent-ils pas des facteurs de blocage qui font que le modèle soit toujours confiné à des projets limités aujourd’hui ? 

Pour de plus amples informations sur le sujet voir les liens ci-après, la brochure de Barabara Tillett, le rapport final du groupe de travail de l’IFLA.

Prochaine cargaison : Modèle OAIS