N° 43 – A la découverte de « Linked Data » 6

Il y a un an j’introduisais, avec la prudence qui sied à un non spécialiste, le sujet du Web sémantique. Depuis beaucoup d’eau a coulé sous le « pont-abri » sous lequel je m’abritais et j’ose maintenant sortir de cet abri pour approfondir mon discours sur le concept. Lors du dernier IFLA 2009 (section Information Technology) il a été souvent question de ce  Web sémantique et plus spécialement de  « Linked Data« . Pour comprendre de quoi il est question, il faut faire un bref rappel de ce qu’est le Web tel que nous le connaissons, l’utilisons et le pratiquons aujourd’hui. Ce Web traditionnel est une gigantesque quantité de documents reliés entre eux par des liens hypertextes et accessibles grâce au protocole de communication HTTP. Ces documents sont lisibles et l’on peut suivre les liens qui y sont inclus et accéder à d’autres documents renvoyant eux-mêmes à d’autres documents et…c’est tout. Soyons clairs, mon intention n’est nullement d’amoindrir les effets bénéfiques de ce Web qui a contribué à faire de notre planète une Pangée virtuelle. Mais il se trouve qu’au-delà du document il y a de la matière plus fine, un composant de ce même document, dont la prise en compte renforcerait plus, les fondations de ce supercontinent virtuel adoré qu’est le Web. Cet élément si important n’est autre que la donnée qui est le constituant principal du document. Il ne s’agit ni plus ni moins que de faire de cette donnée une matière première essentielle à la manufacture du Web futur (3.0 ?).

Le Linked Data s’inscrit dans cette logique car son objectif  est de permettre aux gens de partager des données structurées sur le Web aussi facilement qu’ils peuvent partager des documents aujourd’hui.

C’est Tim Berners-Lee lui-même qui invente le terme dans son article Linked Data. En effet qui de mieux que le créateur du Web pouvait être à la base d’une telle idée visant à tracer la courbe évolutive de son oeuvre ? Le terme se réfère à un style de publication et d’interconnexion des données structurées sur le Web. L’hypothèse de base du Linked Data est que, plus une donnée est étroitement liée à une autre, plus augmentent sa valeur et son utilité. En résumé, le Linked Data est tout simplement une utilisation du Web pour créer des liens entre des données provenant de sources différentes.

linkeddata_cloud

Les principes de base du Linked Data sont les suivants :

  • utiliser le modèle de données RDF pour publier des données structurées sur le Web
  • utiliser des liens RDF pour interconnecter des données provenant de différentes sources

Appliquer ces deux principes conduit à la création d’une communauté de données sur le Web, un espace où les gens et les organisations peuvent fournir et consommer n’importe quel type de données. Cette communauté de données est souvent appelé le Web de données ou Web sémantique.

Le Web de données est accessible par l’utilisation des navigateurs Linked Data (exemples : DISCO, Openlink version demo), tout comme le Web des documents (traditionnel) l’est par le biais des navigateurs HTML. Toutefois, au lieu de suivre des liens entre les pages HTML, les navigateurs Linked Data permettent aux utilisateurs de surfer entre les différentes sources de données en suivant des liens RDF. Cela permet à l’utilisateur de démarrer par une source de données et ensuite de se mouvoir dans un Web potentiellement infini de sources interconnectées grâce à ces liens RDF. Par exemple, pendant qu’un usager étudie  les données sur une personne provenant d’une source, il peut être intéressé par des informations sur la ville de résidence de cette dernière. En suivant un lien RDF, l’usager peut accéder  à l’information concernant cette ville, information figurant dans un autre silo de données.  Le Linked Data permet donc d’établir des relations entre des données et c’est de cela qu’il s’agit fondamentalement. Ces relations peuvent être de différentes natures. Par exemple, un lien RDF qui relie des données sur les personnes peut affirmer que deux personnes se connaissent, aussi un lien RDF qui connecte les informations personnelles avec des informations sur les publications dans une base de données bibliographiques, pourrait stipuler qu’une personne est l’auteur d’un document particulier.

Il faut donc retenir que tout comme le document Web traditionnel peut être exploré en suivant des liens hypertextes, le Web de données s’explore en suivant les liens RDF. Le ciment qui maintient ensemble les documents sur le Web traditionnel est constitué par les liens hypertextes dans les pages HTML. Celui du Web de données l’étant par liens RDF.

Lien hypertexte versus Lien RDF, un face-à-face : où cependant demeure un dénominateur commun, à savoir l’incontournable HTTP, ce protocole sans lequel aucune ressource (document) n’est accessible sur le Web. En effet c’est ce même protocole qui permettra d’accéder aux données reliées entre elles,  mais par des URI (Uniform Resource Identifier). Avec le Linked Data, HTTP permettra d’accéder non plus aux documents seulement, mais sera utilisé pour des personnes, des lieux, des événements, etc. et n’importe quel concept sur le Web aura un nom commençant par HTTP qui sera son identifiant unique. Avec l’utilisation de ce protocole HTTP, le Web nous renvoie des informations, des données qui sont importantes ou utiles parce qu’elles peuvent susciter un intérêt insoupçonné au départ : par exemple si c’est un événement, qui s’y rend ? Si c’est une personne, où est-elle née ?.  Ces données une fois récupérées ne fournissent pas uniquement des renseignements sur elles-mêmes, mais aussi et surtout des relations. Par exemple je  fais une recherche sur Senghor qui est né à Joal, Joal étant une ville du Sénégal. Dès qu’il y a une relation entre deux données, l’élément lié est nommé avec un nom commençant par HTTP. A partir de son nom HTTP je peux accéder à cette ressource, ici « Senghor », ensuite je peux accéder à sa ville de naissance « Joal », à son pays le « Sénégal », à la population de son pays, etc.. Ici apparaît un formidable intérêt, qui est la réduction du temps de recherche sur le Web et un affinement automatiquement de cette recherche. Dès l’affichage du résultat on dispose de toutes les données connexes à une ressource requise.

Dans le Linked Data imaginé par Tim Bernes-Lee il faut juste des données, disponibles, brutes, émanant de toutes sources, individuelle ou collective pour rendre le monde encore meilleur.

A la prochaine pour des informations supplémentaires et surtout pour voir comment les bibliothécaires peuvent participer au mouvement.

Creative Commons License
Ce document est mis en ligne sous Licence Creative Commons.

Share

N° 25 – Web sémantique : apporter notre pierre à l’édifice Réponse

Au moment où se construit le Web sémantique,  soyons comme les bâtisseurs des cathédrales du Moyen-âge, c’est-à-dire des maçons opératifs et non spéculatifs. Détenant des savoir-faire comme ces derniers, devons-nous pour autant nous emmurer dans des obédiences où les pratiques et connaissances ne sont réservées qu’aux seuls initiés de la bibliothéconomie ? En toute assurance, qui est la marque des hommes imbus de l’importance de leur corporation, je crois que non, tant le constituant du web sémantique, à savoir les ontologies a envahi, depuis des lustres, les travées de nos espaces documentaires. Que celui de nous qui a déjà indexé jette la première pierre et à coup sûr, une ribambelle de galets s’envoleront du même coup, de tous les bords de la terre, formant un amas de briques certes difforme, qu’il faudra agencer selon les plans de l’édifice sémantique à bâtir. Il ne s’agit ni plus ni moins dans ce billet, de dire l’impossibilité de se passer de l’expertise des héritiers de Melvil Dewey et que ceux-ci doivent marquer leur présence au moment où se dessinent les plans architecturaux du monument sémantique.

Décrire, classifier, hiérarchiser, signifier, lier des termes et documents ; voilà ce qu’on veut assigner à des moteurs dits sémantiques. Dans nos pratiques « humaines » quotidiennes, nous ne faisons pas moins que cela et tel M. Jourdain (faisant de la prose sans le savoir) nous créons des ontologies sans nous en rendre compte. Alors la question à poser n’est-elle pas de savoir, comment convertir cette production « brute », née le plus souvent d’une expertise empirique, en une  réalité normée, répondant aux canons de l’orthodoxie informatique, plus précisément « webique » et qui sous-tend la performance des moteurs de recherche sémantiques ?  Eh bien selon les « experts » (je leur concède volontiers cet attribut parce que je les considère comme tels) en la matière, il faut une mixture composée de modèles : les RDF (pillier de l’architecture du Web sémantique), formidablement expliqués dans ce lien d’expert et les FRBR (il est grand temps que les SIGB s’y mettent), accompagnés d’une bonne dose d’OWL. En termes plus concrets : des catalogues de bibliothèques différentes pourront s’enrichir entre eux, être interrogés en une seule fois et de façon transparente pour les utilisateurs quand ils auront été soumis formellement à la même « RDFisation », à l’usage d’un même vocabulaire et d’un même modèle FRBR.

Comme base de créations d’ontologies, pourquoi n’utiliserions-nous pas les termes de nos différents systèmes de classification (définis et résumés ici) : données décrites en RAMEAU, ou bien encore les Worldcat identities (powered by OCLC) ou bien même ceux de nos petits systèmes classificatoires à formalisation locale ?

Il ne s’agit ni plus ni moins, pour nous bibliothèques(caires), que d’être une pierre angulaire du Web sémantique, pierre qu’il faudra bien polir afin qu’elle ne soit pas rejetée par les bâtisseurs.

Quelques ressources


Creative Commons License
Ce document est mis en ligne sous Licence Creative Commons.

N° 24 – Un peu de Web sémantique Réponse

Que de chemin parcouru depuis que Tim Berners-Lee créa le Web en 1991. Année qui a aussi vu l’apparition de la première génération des outils dédiés à la recherche de sites Web. Ces sites ont connu une évolution quantitative exponentielle entraînant de fait, une surproduction d’information (infobésité), ce qui implique aujourd’hui, la nécessité d’avoir des mécanismes et outils de recherche qui permettent une recherche efficace (rapidité et pertinence) de l’information ainsi publiée. Cette nécessité a été levier de l’évolution technologique des moteurs de recherche, mais aussi de l’apparition du « nouveau » concept qu’est le Web sémantique, dont je me propose de faire l’exposé dans ce billet.

Qu’en est-il ?

Brièvement expliqué, ce concept a pour objet de faciliter l’accès aux informations disponibles sur le Web. La vision de Tim Berners-Lee est de rendre la sémantique des ressources du Web explicite, de manière que les programmes puissent l’exploiter comme nous autres humains. Cela grâce à l’interopérabilité des métadonnées qui va permettre aux moteurs de trouver et de mettre en relation des données jusqu’alors confinées dans leurs sites (ou leurs bases de données, une grande partie du Web invisible est confinée dans des bases de données). Le but est de permettre aux robots (fureteurs du Web) de « comprendre » le contenu des sites, grâce à l’emploi de langages adéquats (le RDF ou Resource Description Framework pour les métadonnées ; le OWL : Web Ontology Language pour les ontologies).

Pour  illustrer ce qu’est le Web sémantique, prenons un exemple tout simple : on choisit de faire une recherche sur « Abdou Diouf ». Un moteur classique comme Google va afficher des milliers de pages où figure le nom Abdou Diouf, mais un moteur estampillé Web sémantique va orienter la recherche en proposant le nom « Abdou Diouf » selon des qualificatifs (fonction, profession,…plus précisément pour cet exemple : président du Sénégal, secrétaire général de la francophonie, etc.). Donc il faut arriver à ce que les moteurs de recherche puissent « saisir le sens » des ressources du Web qu’ils indexent (expression qui a une autre signification ici et qui est différente d’une quelconque compréhension du langage naturel par les machines). Ceci implique, dans l’ « idéologie » du Web sémantique de rendre cette information disponible à  ces programmes sous forme d’ontologies (voir ci-dessus). Le bénéfice principal que l’on obtient avec pareille chose, est l’abrègement considérable du temps de recherche et qui rime avec réduction importante du bruit (informations superflues non désirées).

La philosophie du Web sémantique est aussi d’exprimer les métadonnées dans un modèle entité-relation (voir les FRBR) et d’identifier toutes les entités à l’aide d’URI (Uniform Resource Identifier, « identifiant uniforme de ressource »). Pour nous bibliothécaires et assimilés, les enjeux que nous devons saisir concernent : l’exposition des données structurées dont nous disposons par l’émiettement de la connaissance en proposant une description bibliographique au niveau le plus élémentaire. Cet enrichissement des données nécessite la reconnaissance d’entités nommées (de façon à ce que les moteurs reconnaissent les noms de personne, les lieux, les manifestations., etc.), leur catégorisation et leur localisation géographique.

Dans le prochain billet je me propose d’approfondir l’argumentation ainsi introduite et qui vise à monter que les bibliothèques sont très bien placées pour réaliser ce travail et doivent être des acteurs sûrs et « incontournables » du Web des données (autre appellation du Web sémantique).

Pour ce qui est des outils, je vous propose trois moteurs estampillés Web sémantique :

  • Hakia : (2006) Le défi d’Hakia est de construire un moteur de recherche sémantique, c’est-à-dire, destiné à rendre les résultats des recherches basés plus particulièrement sur le sens des mots clés. Le principe étant de faire la relation entre les mots, à la manière du cerveau humain. C’est une nouveauté par rapport aux moteurs de recherche classiques qui utilisent la popularité et les occurrences par indexation conventionnelle. 
  • Spock : moteur pour recherche d’individus (fonctionnement depuis août 2007). La fonction de recherche y est accessible à tous les internautes, sans inscription préalable. Il suffit de renseigner le nom d’un individu et éventuellement d’affiner la requête avec son âge, son sexe et son origine géographique. Spock offre aussi la possibilité de rechercher des individus à partir de mots-clés comme «Senegalese musician», qui remonte alors une liste de musiciens sénégalais (je vous laisse deviner ceux qui sont les premiers cités ou bien faites l’expérience). Chaque profil apparaît sous forme de fiche renseignée d’une photo, de tags (mots-clés) censés décrire l’individu, et d’une liste de proches. Si l’accès à la recherche de base est accessible à tous, Spock invite les utilisateurs à s’inscrire afin de profiter de fonctions supplémentaires. Cela leur permet d’affiner leur propre profil mais aussi de participer à l’amélioration du service en ajoutant des tags aux individus pour mieux les qualifier (par exemple, journaliste, musicien…), l’objectif étant d’améliorer la pertinence du moteur.
  • Swoogle : (développé depuis 2004 par Ebiquity group à l’Université du Maryland) moteur de recherche sur les ontologies.

Ce Web sémantique, selon certains spécialistes, est la future évolution du Web (3.0 ?), raison de plus de demeurer éveillé et/ou veilleur pour ne pas rester en rade.

Merci à Pani Zuza Wiorogorska pour ta précieuse collaboration

Prochainement la suite au même port d’escale.

PS : pensée pieuse pour madame Rose Dieng (éteinte ce 30 juin 2008 à Nice), spécialiste d’Intelligence Artificielle à l’INRIA et travaillant ces dernières années sur la gestion des connaissances et le web sémantique. Cette compatriote s’était vue décerner par le Ministère de la Recherche (France) et le groupe EADS le prix Irène Joliot-Curie 2005 distinguant ainsi une femme qui s’est affirmée par son parcours et sa contribution à la science. Je vous propose une de ses interventions concernant le web du futur où elle parle entre autres du Web sémantique.


Creative Commons License

Ce document est mis en ligne sous Licence Creative Commons.

N° 10 – XML et bibliothèques 1

A l’occasion des dix ans d’XML (10 février 2008), je profite de l’événement pour ancrer ma yole au port de cette syntaxe de balisage créée a l’initiative du consortium du Web  qu’est le W3C. Je ne m’appesentirai pas outre mesure sur l’historique de sa création, tant l’information sur la question est abondamment disponible sur l’incontournable Web. Soucions-nous plutôt de son utilisation et de son importance surtout dans l’environnement bibliothéconomique.

XML (Extensible markup language) est un langage de balisage générique dont le but est de permettre la fonctionnalité et l’interopérabilité du Web en permettant a plusieurs systèmes dinformation hétérogènes de communiquer et d’échanger. Autrement dit il repose sur des principes : c’est un langage de balisage extensible ; sa maintenance est assurée par le W3C ; les balises ne sont pas prédéfinies mais libres et précisent le sens ou la structure et non pas la présentation graphique (comme le fait HTML) ; le contenu, la structure et la présentation sont nettement dissociés ; la structure des informations est arborescente. 

Les raisons qui rendent intéressantes son utilisation sont que : c’est un format libre et ouvert ; il est indépendant de toute plateforme informatique ; il est promis à une certaine pérennité (il est répandu dans plusieurs domaines et bénéficie d’une solide structure de maintenance) ; il facilite l’interopérabilité. Pour de plus amples informations voir le dossier que j’avais indiqué sur un billet précédent. 

En bibliothèque son utilisation permet : d’afficher des notices bibliographiques sur le Web (MarcXML, MODS, BiblioML…) ; d’y échanger ces notices (OAI, Dublin Core…) ; d’y éditer des ressources (TEI, EAD…) ; d’y diffuser de l’information (RDF, RSS, Atom…). Pour mieux cerner les possibilités permises par XML, faisons une petite comparaison avec le format Marc que nous connaissons tous. Marc se matérialise sous la forme d’un format de saisie constitué de zones prédifinies et immuables, certaines de ces zones permettent de communiquer avec d’autres systèmes utilisant le même format ce qui permet à plusieurs bibliothèques d’échanger des notices bibliographiques par l’import ou l’export de celles-ci. Mais ces échanges ne concernent pas les usagers de nos bibliothèques qui sont dans l’impossibilité d’accéder aux notices via le Web (pour cela ils doivent préalablement passer par le site de la Bibliothèque pour accéder à son OPAC). Alors qu’avec XML, ces notices bibliographiques deviennent visibles à partir du Web parce qu’étant repérables par les différents outils de recherche qui le sillonnent. En d’autres termes nos OPAC sont mis en surface et accessibles, en principe, à tout internaute. Un autre avantage parmi d’autres est, par exemple, le changement de formats de notices de Marc à XML qui se fait sans perte de données, permettant ainsi une retroconversion « fidèle » de ces dernières… Ce souci de pallier l’incapacité du Marc à permettre les échanges sur le WEB,  sera à l’origine de la création du MarcXML par la Bibliothèque du Congrès en juin 2002. Je vous renvoie au billet N° 06 de ce blog où j’expose, dans la présentation en bas de page, les différentes insuffisances du format Marc face au Web et l’alternative offerte par les formats de métadonnées qui supportent, entre autres, un balisage en XML.

Cette visibilité de nos notices se manifeste aussi par l’utilisation des flux RSS, qui permettent de diffuser de l’information sous forme d’alerte. Un exemple tout simple est de créer un flux RSS de nouvelles acquisitions qui permet à tout utlisateur inscrit à ce flux d’être averti dès qu’il y a de nouvelles notices dans l’OPAC. Nous sommes là en présence d’un vraie application « bibliothèque 2.0 », ce qui montre qu’XML mérite toute notre attention et qu’il serait judicieux de l’intégrer dans nos pratiques présentes et futures.

Prochainement, XML : initiation à la pratique

N° 06 – Métadonnées (1) Réponse

Que sont les métadonnées ?

La documentation sur la question foisonne sur le web et l’article dans Wikipédia est très complet, je vous y renvoie volontiers. La définition communément admise fait d’une métadonnée, tout simplement, « une donnée sur une autre donnée » et quelque soit le type de support d’information. Même si le terme est apparu dans le cadre de la description de ressources sur Internet dans les années 1990, la définition suggère que les catalogueurs, par exemple, ont toujours créé des métadonnées comme Callimaque de Cyrène (bibliothécaire d’Alexandrie) qui rédigea le premier catalogue raisonné de la littérature grecque les Pinakes au IIIe siècle avant Jésus-Christ. Elles sont organisées et/ou présentées sous forme de schémas publiés par des organismes de standardisation avec des comités de gestion chargés de leur maintenance. On en distingue généralement trois types : les métadonnées de description, conçues en vue de la recherche, du repérage et de l’identification des ressources (titre, auteur, résumé, mots clefs, date de parution…) ; les métadonnées de structure, qui facilitent la navigation et la présentation des ressources électroniques, elles fournissent des informations sur la structure interne des ressources (table des matières, index, chapitre, section, page) ; les métadonnées d’administration qui facilitent la gestion, la validation, l’archivage des ressources, elles incluent des données techniques notamment, la gestion des droits, le contrôle d’accès et les conditions d’utilisation. Ces trois types sont complémentaires et souvent les frontières entre elles ne sont pas visibles dans la pratique. En d’autres termes pour ceux qui se posent la question sur leur utilité, elles permettent de localiser et d’accéder à un document surtout en ligne (les documents imprimés l’étant par le biais des données catalographiques informatisées ou non). En effet les documents en ligne ont été caractérisés, à leur apparition, par une difficulté d’accès à leur contenu par le biais des formats de description classiques (ISBD par exemple), il a fallu attendre l’avènement du Marc et de sa zone 856 pour y accéder via la saisie de l’URL. Face à l’explosion de ces ressources en ligne et l’apparition des moteurs de recherche et autres outils (moissonneurs d’entrepôts d’archives ouvertes, exemple : OAIHarvester2), il fallait structurer ces éléments de description et de localisation pour rendre ces moteurs de recherche (certains, pas tous) plus performants dans la recherche et la récupération desdites ressources. Le souci était aussi de permettre l’interopérabilité c’est-à-dire la capacité d’échanger des données entre systèmes multiples disposant de différentes caractéristiques en terme de matériels, logiciels, structures de données et interfaces, et avec le minimum de perte d’information et fonctionnalités. Les métadonnées participent ainsi à cela en complémentarité avec d’autres processus. Au niveau technique cette interopérabilité se réalise à trois niveaux complémentaires : une description des ressources avec des sémantiques communes issues de différents jeux de métadonnées standardisés (Dublin Core, Marc-XML, BiblioML, EAD pour les archives,…), un cadre d’implémentation de ces descriptions dans des langages structurés standardisés, interprétables par les machines (HTML, XHTML, XML, RDF…) et des protocoles informatiques d’échange de ces données normalisées (HTTP, OAI-PMH, SRU/SRW,…).Dans l’univers des métadonnées descriptives, le jeu de métadonnées plus populaire est sans nul doute le Dublin core passé de standard à norme ISO avec un statut officiel au sein du W3C (Consortium du World Wide Web, instance internationale permanente chargée de l’avenir du Web). Je vous invite à consulter en ligne sur Slideshare, la présentation que j’avais faite sur la question lors d’un atelier du COBESS (vous pouvez récupérer le fichier .ppt).

A huitaine !