N° 83 – Un petit pas dans l’univers des données Réponse

Le principe de l’Open Data énoncé il y a quelques années déjà, poursuit son processus d’assimilation à l’échelle mondiale et beaucoup d’organisations internationales, de gouvernements nationaux et locaux, de compagnies privées, etc., ont mis à disposition publique les données qu’elles produisent, recueillent, maintiennent et utilisent dans le cadre de leurs activités. Ceci pour être en conformité avec cette philosophie qui veut que ces données soient disponibles pour accès et réutilisation par les citoyens et par les entreprises. Ces données qui ont fini d’être exponentiellement numériques, foisonnent dans les réseaux et autres entrepôts visibles ou « cachés » du Web, nécessitant tout un ensemble de procédés, de techniques et technologies, de normes, etc. pour les gérer en les rendant accessibles et donc utiles. Un impératif de gestion dont ne sauraient se départir les professionnels de l’info-doc, ne serait-ce que par leur activité de médiation entre ces données et les utilisateurs finaux. Ce billet se propose d’être un petit exemple de ce qu’est ce rôle, en fournissant un petit panorama de sources de données disponibles sur le Web. Des sources non exhaustives loin s’en faut, mais qui donnent une idée sur l’ampleur des données actuellement disponibles et qui doivent faire le bonheur de tout analyste engagé ou non dans une activité de recherche ou de production intellectuelle. Cette compilation pour les apprenants et chercheurs de notre institution, surtout ceux qui participent au cours sur l’analyse des données, est une contribution à notre politique interne de maîtrise de l’information (Information Literacy), dont la « maîtrise des données » (Data Literacy) et la « maîtrise statistique » (Statistical Literacy) sont des composantes importantes.

La liste est subdivisée en quatre catégories comprenant ce que j’appelle :

Les Concentrateurs de sources de données, identifiés comme étant des sites fédérant des données issues de diverses sources,

Les Sources de données d’organismes internationaux, grands producteurs de données couvrant tous les pays et toutes les disciplines

Les Sources de données gouvernementales et nationales, c’est-à-dire tout ce qui est produit et utilisé à l’échelle d’un pays par les organismes officiels publics. Il y a une cinquantaine de pays concernés, toutefois j’ai voulu juste m’intéresser aux quelques pays africains qui ont franchi le pas et rejoint le mouvement de l’Open Data.

Les Moteurs de recherche spécialisés, sans qui il serait très difficile de faire une recherche ciblant spécialement les données et se prémunir ainsi d’un « bruit » assourdissant si on utilisait les moteurs de recherche généralistes classiques

opendata1

Concentrateurs de données

DataMarket : Plusieurs données gratuites classées thématiquement

Infochimps : Robuste collection de jeux de données classés par catégorie. Cependant le processus de monétisation de leur Big data est en cours

Dataprovider : Exploration de millions de Pages Web et structuration des données brutes récoltées

DataHub : Plateforme gratuite de gestion de données de Open Knowledge Foundation. Des Milliers de jeux de données disponibles

Google Public Data Explorer : Collection de données publiques et leurs sources de Google

Freebase : Agrégateur de données de type communautaire où les membres partagent leurs données et visualisations, etc.

Data Publica: Catalogue français de données ouvertes qui propose en plus un lexique sur les données

Socrata : référentiel de différents types de jeux de données

Knoema: Fournit un atlas mondial de données exposant des profils statistiques et autres données par pays

Public Data Sets/Amazon Web Services : Amazon propose un petit nombre de jeux de données dû à leur taille plusieurs Gigabits et même Térabits

Index Mundi : Profils par pays très détaillés : Statistiques, graphiques, cartes, provenant de sources multiples

Sources de données d’organismes internationaux

Data Portal European Union : Hub de données ouvertes de l’Union Européenne

Eurostat Home : Agence Statistique de la Commission européenne

Open Data for Africa : Données fournies par la Division des statistiques de la Banque Africaine de Développement

Data and maps (EEA) : Données partagées par l’Agence Européenne pour l’environnement

UNdata : Hub de données ouvertes des Nations Unies

IMF Data and Statistics : Sources de données du FMI

Data World Bank : Données de la Banque mondiale

World Bank Projects Evaluations : Evaluation des projets financés par la Banque mondiale

OECD.Stat : Sources de Données de l’OCDE

ESPON Database Portal : Données de l’Observatoire en réseau de l’aménagement du territoire européen

MDG Indicators : Site des Nations Unies des indicateurs des OMD

Afristat : Observatoire Economique et Statistique d’Afrique Subsaharienne

ASTI : Données agricoles sur les pays en développement

WGI Project : Indicateurs sur la gouvernance mondiale (WGI) présente des indicateurs pour 215 économies sur la période 1996-2012 et sur 6 dimensions de la Gouvernance.

Sources de données gouvernementales et nationales

Un certain nombre de pays rendent publiquement accessibles leurs données gouvernementales, une trentaine identifiées dont 4 pays africains qui sont :

Ghana : Portail des Données ouvertes du Ghana

Kenya : Portail des données ouvertes du Kenya

Maroc : données publiques de l’administration marocaine :

Tunisie : Plateforme expérimentale d’ouverture des données publiques tunisiennes

Mais aussi les plages spéciales par pays dans la plateforme OpenData for Africa de la Banque africaine de développement, exemple de l’Afrique du Sud et du Projet de curation des données par pays pour toute l’Afrique.

Moteurs de recherche spécialisés

Quandl : Recherche sur plus de 3 millions de jeux de données financières, économiques et sociales

Zanran : moteur de Données numériques et Statistiques

Et ci-dessous une version sous forme de présentation téléchargeable.

N° 82 – Comparatif de logiciels de dépôts institutionnels Réponse

L’UNESCO vient de publier un guide de comparaison des cinq logiciels de dépôt institutionnels les plus couramment utilisés que sont : Digital InstitutionalRep_comparisonCommons, Dspace, Eprints, Fedora et Islandora. Ce guide est un des éléments de la stratégie d’Accès ouvert de l’organisation.

Depuis 2000, un certain nombre de plateformes dédiées aux dépôts institutionnels ont été développées, chacune avec son propre ensemble d’avantages et de caractéristiques techniques. Ce guide aidera sûrement les gestionnaires de projets de dépôts et les dirigeants d’institutions dans leur choix de logiciel à utiliser. De même, ce guide permet aux bibliothécaires d’être vraiment autonomes en termes de possibilités de comparaison des plateformes, en mettant l’accent sur ​​les caractéristiques essentielles qui permettront de répondre à leurs besoins et ainsi faire de leur dépôt des réussites en la matière.

Les catégories de comparaison.

Onze catégories comparatives ont été choisies pour aider les pilotes de projet de dépôt institutionnel dans leur choix, en leur permettant notamment d’identifier les caractéristiques les plus importantes dans l’élaboration d’un programme de dépôt institutionnel réussi au sein de leur établissement. Ces catégories sont :

  • l’infrastructure : où sont énumérées les caractéristiques fondamentales des plateformes. La section concernant l’infrastructure englobe l’installation, l’hébergement et les options de support à la clientèle.
  • la conception en mode utilisateur : il s’agit de l’interface lecteur qui reflète l’image de marque institutionnelle ainsi que la façon dont le lecteur interagit avec le dépôt. Les formats personnalisables, les pages mobiles optimisés doivent permettre de garantir une expérience de navigation optimale (HTML 5,..)
  • le contrôle et l’organisation de contenu : les bibliothécaires intéressés par la façon dont chaque plateforme prend en charge le contenu, les contrôles d’accès, et la structure du dépôt trouveront dans cette catégorie des informations pertinentes. (Outils de visualisation PDF, Galerie d’images, Licences Creative Commons, etc.)
  • la découverte de contenu : concerne les principales caractéristiques qui augmentent la visibilité du contenu du dépôt (recherche avancée, par facettes, navigation graphique, géolocalisation, PURL, indexation dans Google Scholar, etc.)
  • les outils de publication : les bibliothécaires et les rédacteurs en évaluant des options d’édition pourront découvrir et comparer des outils nécessaires à la publication, tels que la revue par les pairs, l’importation par lots, les options de métadonnées et les flux de travail rédactionnels. Ceci dans le but de publier un savoir de haute qualité directement dans le dépôt (par exemple, dans le cas de soumission volontaire d’articles ou autres travaux par des auteurs)
  • les rapports: fournir un feedback aux administrateurs rédacteurs, auteurs et parties prenantes est un aspect crucial dans la mesure du succès d’un programme de dépôt institutionnel. Cette catégorie décrit les rapports disponibles sur chaque plateforme (statistiques, Google analytics, etc.)
  • le multimédia : une caractéristique moderne du dépôt, la catégorie Multimédia compare la façon dont chaque plateforme gère les images, la vidéo et les services de streaming qui ajoutent une plus grande profondeur aux collections (vidéo, audio, diaporama, etc.)
  • les caractéristiques sociales et notifications : s’appuyant sur la possibilité de découvrir et l’optimisation des moteurs de recherche, les caractéristiques sociales du dépôt favorisent une approche moderne d’engagement des lecteurs en fournissant des outils pour suivre, partager et mettre en favori une ressource savante dans le dépôt (utilisation des médias sociaux, des flux RSS, etc.)
  • l’interopérabilité : s’appuyant sur l’initiative des archives ouvertes-protocole de moissonnage de métadonnées (OAI-PMH), tout dépôt se construit dans un but de diffusion. La catégorie interopérabilité examine comment chaque plateforme s’intègre avec les services de recherche, les profils de chercheurs et d’autres dépôts hébergés sur la même plateforme installée.
  • l’authentification : bien que la majorité du contenu d’un dépôt soit en accès libre, les identifiants de connexion institutionnels demeurent un aspect important dans la façon dont les lecteurs et les chercheurs accèdent à des contenus à travers les systèmes informatiques du  campus et le dépôt (annuaire LDAP, Shibboleth, etc.)
  • l’accessibilité : la capacité d’offrir l’accès à un plus grand nombre de lecteurs et chercheurs possibles, y compris surtout ceux qui ont des handicaps, est un élément fondamental du dépôt. (Conformité aux modèles VPAT, à l’article 508 et les normes du gouvernement américain en matière d’accessibilité)
  • la préservation : la capacité de pouvoir préserver à long terme des ressources savantes numériques pour les générations futures est une donnée fondamentale à prendre en compte. Pouvoir rendre des contenus disponibles dans le futur même si les formats changent, permettre leur émulation et leur migration d’un format à un autre si nécessaire. (Sauvegarde de contenu, Export XML, Conformité avec LOCKSS, etc.)

Bien que le guide soit en anglais sa lecture est aisée même si vous n’êtes pas érudit dans la langue de Shakespeare. La subdivision en catégories, elles-mêmes présentant les éléments de comparaison sous forme de tableaux, rend très facile la compréhension des données.

Le guide est accessible ici ou en cliquant sur l’image illustrative en haut à droite. Bonne lecture !

N° 80 – MyScienceWork, un réseau social pour la Science 2

Une fois n’est pas coutume, je me propose d’être le relais de MyScienceWork, une plateforme d’accès aux articles scientifiques et fonctionnant aussi comme un réseau social. Un exercice qui s’inscrit cependant en droite ligne de ce que ce blog a toujours fait, c’est-à-dire faire l’apologie du Web 2.0 sous toutes ses formes. Il est donc tout à fait naturel d’y intégrer une petite lucarne, reprenant pour l’essentiel un communiqué de presse du réseau et expliquant comment les chercheurs peuvent s’inscrire, consulter plus de 26 millions d’articles gratuitement et améliorer leur visibilité internationale pour trouver de nouveaux contacts et des annonces d’emplois scientifiques.

mysciencework_bandeau

MyScienceWork, start-up créée par une ancienne doctorante en biologie, lance une nouvelle version de votre réseau social professionnel dédié à la recherche.

1/ Collaborez, partagez

Rejoignez les 300 000 membres de notre communauté et les 30 000 chercheurs, doctorants et ingénieurs inscrits ces 3 derniers mois. Gagnez en visibilité en partageant vos articles, découvrez de nouvelles publications, engagez des discussions avec d’autres experts du domaine.

2/ Accédez gratuitement à 26 millions de publications scientifiques

La philosophie de MyScienceWork est de renforcer la diffusion des articles en open access. Accédez gratuitement à plus de 26 millions d’articles en accès libre et gratuits issus de Plos ONE, Pubmed, REPEC, HAL et bien d’autres sources.

3/ Renforcez votre réseau professionnel

Déposez votre CV sur un site professionnel dédié aux scientifiques en remplissant votre profil professionnel incluant votre bibliothèque personnelle de publications, les conférences auxquelles vous avez participées etc. MyScienceWork vous propose un grand nombre d’offres d’emploi internationales myscienceworkainsi que des événements scientifiques en rapport avec vos travaux.

4/ Nos avantages face à la concurrence

Multidisciplinaire : MyScienceWork est un réseau social connectant biologistes, médecins, physiciens mais aussi des chercheurs en sciences humaines et sociales, des ingénieurs, des juristes etc
International : Une interface en 7 langues et des articles disponibles en 101 langues ! Une ouverture totale vers l’accès libre aux connaissances scientifiques.
Vulgarisation scientifique : News (français/anglais) est le média de votre actualité scientifique.

Découvrez des portraits de chercheurs, des événements et l’annonce des derniers résultats scientifiques. Contribuez en vulgarisant vos travaux qui seront relus par des journalistes et diffusés sur News. Suivez en continue les actualités du mouvement pour l’Open Access, pour une science accessible à tous, plus collaborative et plus transparente.

Voilà ! Il ne vous reste plus qu’à vous y inscrire comme moi, si vous êtes intéressé 🙂

N° 64 – L’Open Access en bref Réponse

S’il est un domaine qui n’a pas fait l’objet d’un traitement particulier dans ce blog, c’est bien celui relatif au libre accès aux publications scientifiques, plus connu sous le vocable anglais « Open Access ». En lieu et place d’une description détaillée du mouvement (le stade de concept ayant été dépassé depuis longtemps) qui est en pleine expansion avec des réalisations concrètes, je propose quelques tutoriels en ligne et autres liens facilitant sa compréhension. Pour les détails un détour par ce lien sera fort utile.

Tutoriels

  • Une vidéo réalisée par SPARC (Scholarly Publishing & Academic Resources Coalition) présentant le mouvement du libre accès à l’Information Scientifique et Technique (IST) et les avantages de cette démarche.

  • Un tutoriel qui présente l’outil en ligne Roméo conçu par Sherpa (Securing a Hybrid Environment for Research Preservation and Access). L’objectif est d’apprendre à interroger cet outil pour connaître et comprendre les politiques des éditeurs scientifiques vis-à-vis du libre accès à l’information scientifique et technique. Accéder au tutoriel

Ces deux tutoriels sont aussi disponibles à partir du site Web de l’Université Bordeaux-Segalen, plus précisément sur l’espace « Autoformation ».

Quelques liens

Pour ce qui concerne plus particulièrement l’Afrique, pour une fois elle n’est pas en reste, même si beaucoup reste encore à faire pour intéresser la globalité du continent à cette question. Pour illustrer cette implication dans le mouvement, je vous propose de découvrir la communication faite par Denise Rosemary Nicholson durant le dernier congrès de l’IFLA à Puerto Rico et intitulée « Open Access: benefits for Africa ». Avec en fin d’article une liste par pays des initiatives de Libre accès en cours (à partir de la page 19). Elle affirme dans cette communication que l’Open Access est la seule voie pour l’Afrique, assertion que je partage pleinement. Ce mouvement permet au continent d’avoir un raccourci vers la production scientifique externe nécessaire à son développement. De plus il se donne les moyens de diffuser, promouvoir et préserver à long terme sa propre production scientifique, ce qu’elle n’a pu vraiment réaliser tout au long de siècles  marqués par une oralité dominante. Voilà où se situe l’enjeu stratégique de l’Open Access et qui doit pousser le monde scientifique africain, les médiateurs de l’IST que nous sommes, à nous investir pleinement dedans pour que, par exemple, le modèle économique en cours concernant l’accès payant à la production scientifique africaine, soit plus empreint du sceau de la justice. En effet, est-il normal que les éditeurs qui publient les travaux de nos chercheurs formés par nos pays avec leurs maigres ressources, fassent payer à ces mêmes pays, l’accès aux résultats de recherches qu’ils ont contribué à mener par l’investissement sur l’éducation de ces « élites » ou même le financement direct de ces recherches ?

Investir dans le Libre accès pour la recherche scientifique africaine, c’est donc quelque part casser ce modèle d’échange inégal qui nous appauvrit plus qu’il ne nous enrichit. Grâce à ce mouvement il est possible de penser et de mettre en place un « Marché commun » de la production scientifique africaine, où les fruits de nos travaux de recherche seront d’abord partagés entre nous, favorisant ainsi le décloisonnement de notre recherche qui reste confinée, le plus souvent, dans les frontières terrestres de nos pays respectifs.

N° 05 – Open source : suite et fin Réponse

La semaine dernière je vous ai présenté quelques ressources libres et donné quelques indications sur comment aborder la prise en compte éventuelle de ces ressources. Mon propos d’aujourd’hui se veut être complémentaire, par la présentation d’autres logiciels susceptibles de nous intéresser. Pour les SIGB, deux applications retiennent mon attention, il s’agit de Evergreen et de PMB.

  • Evergreen : il est adopté par un nombre assez important de bibliothèques et dispose d’un staff de développeurs compétents. Il dispose d’un wiki qui lui est dédié où peuvent ête retrouvées beaucoup d’informations relatives à son fonctionnement et développement. Une version démonstration en ligne du catalogue est disponible ici. Il est avec Koha (dont la version 3.0 en anglais est disponible) l’un des logiciels préconisé par eIFL-FOSS.
  • PMB : sans doute le plus connu des deux parce qu’étant déjà utilisé par des bibliothèques sénégalaises. Ce qui est intéressant avec ce logiciel, c’est la prise en charge d’applications Web 2.0 dans sa version 3. En effet ce SIGB qui en est à la version 3.1 (novembre 2007) propose un OPAC social depuis la version 3.0 (possibilité de laisser des avis, tags, des mots-clefs sur les notices et pouvant être gérés par le bibliothécaire dans le module catalogue). En outre un Plugin proposant une interface entre SPIP (CMS libre) et PMB est disponible voir les détails ici. Le conseil que je donne est de faire appel à votre « informaticien-maison » pour vous aider à mieux comprendre les mécanismes de mise en oeuvre de ces fonctionnalités (migration vers une nouvelle version, adoption de plugin, etc.) pour en tirer le meilleur profit au besoin.

Cette association entre PMB et SPIP montre l’importance des outils que sont les CMS, notamment dans la création de sites web dynamiques et l’utilisation que nous pouvons en faire dans un environnement d’information documentaire. Ces CMS peuvent nous aider à améliorer nos sites, mais surtout nous faire prendre conscience que l’ère des sites web statiques et révolue et qu’en fin de compte savoir créer un site web ne se limite plus à uniquement maîtriser Frontpage ou Dreamweaver, mais aussi à pouvoir adjoindre à tout outil de création de site, des CMS pour « contôler » et « entretenir » celui-ci (le site web). Voici donc quelques uns de ces outils libres, liste loin d’être exhaustive.

  • SPIP : projet né en 2001 et traduit en une vingtaine de langues. On dénombre plus de 6000 sites web sous SPIP, une grande communauté d’utilisateurs qui implique une base de connaissances pouvant profiter à tout utilisateur ou futur utilisateur.
  • Joomla : CMS orienté Web 2.0 (inclusion des fonctionnalités suivantes : des flux RSS, des news, une version imprimable des pages, des blogs, des sondages, des recherches) dont la présentation donne des informations très complètes.
  • Drupal : CMS qui permet de créer une grande variété de sites Internet (blogs, sites Internet institutionnels, sites communautaires, sites d’informations, boutiques en ligne). Voir le site Drupalsites pour avoir un aperçu des différentes possibiltés offertes et surtout rejoindre la communauté d’utilisateurs du monde entier.

L’utilisation de tels outils peut être pertinente pour nous et porteuse de valeur ajoutée si elle se couple d’une connaissance de base (même théorique) des technologies informatiques sur lesquelles ils reposent (PHP, MySQL, Apache server, etc.). Des ressources pour se former sont disponibles en ligne, comme le site du CRDP de Bourgogne. Je vous conseille plus particulièrement ce lien pour installer un serveur Web étape par étape.

Pour finir mon propos, il faut savoir que tout ce qui est gratuit n’est pas Libre et tout ce qui est Libre n’est pas gratuit, cette confusion découle de la compréhension du terme « free » qui est utilisé en anglais pour les deux notions. D’où, actuellement, l’apellation consacrée et généralement admise de FOSS (free and open source software) pour désigner les logiciels libres et gratuits. Voir pour plus de précisions ce dernier lien

Semaine prochaine intrusion dans la baie des métadonnées

N° 04 – De l’Open Source pour espaces documentaires 1

Nous commençons cette année par une escale au port de l’Open Source, plus particulièrement du FOSS (Free and Open Source Software), véritable mine gratuite et libre de logiciels. L’espace documentaire en est pourvu en quantité et le défi est de pouvoir y trouver la qualité mais aussi d’adopter des méthodes de travail rationnelles pour une prise en main optimum de ces ressources (j’y reviendrai plus loin). J’aurai voulu que ce post soit une vaste recueil de   « Know-how » ou « Savoir-faire », c’est-à-dire comment gérer les différentes ressources qui seront exposées ici. Vous conviendrez avec moi que c’est une entreprise difficile à réaliser dans cet article qui doit répondre aux desiderata du format d’édition qu’est un blog. Je vous propose donc une liste de quelques ressources libres dédiées à l’environnement documentaire et exclusivement consacrée, pour cette semaine, aux systèmes intégrés de gestion de bibliothèque (SIGB ou ILS en anglais) ou d’archives.  

  • GNUTECA : logiciel de bibliothèque proposant une interface web et graphique GTK.
  • Koha Open Source Library System : je vous propose une présentation en ligne faite par un chef de projet Koha.
  • Archimede : Logiciel de dépôt institutionnel, qui permet de stocker et de gérer les archives électroniques. Il permet aussi de verser plusieurs documents à la fois, avec les formulaires pour entrer les métadonnées.
  • Museolog : logiciel de catalogage d’information muséologique

Les ressources citées ici ne sont pas les plus importantes, ni même les plus populaires, le débat que je veux soulever concerne le choix et la gestion de ces outils libres. Adopter de tels logiciels peut être pertinent pour nos structures sous-développées mais il faut savoir que ce n’est pas la panacée et qu’il faut beaucoup de choses pour accompagner un tel choix. Par exemple :

         prévoir un plan de formation initiale pour les utilisateurs en vue de prendre en compte les fonctionnalités du logiciel

         prévoir un plan de formation continue pour les versions futures qui ne sont pas aussi automatiques que dans le monde des logiciels payants. D’où la nécessité de faire une veille logicielle pour s’encquérir des nouveaux développements

         prévoir un service de maintenance physique et logique. En d’autres termes un Help desk qualifié pour résoudre les problèmes de fonctionnement et de développement. Cette dernière exigence montre la nécessité de la formation solide en informatique des bibliothécaires, archivistes et documentalistes. L’heure est venue de disposer de vrais informaticiens-bibliothécaires ou de documentalistes-informaticiens pour prendre en charge les enjeux et challenges des TIC dans nos structures et ne plus dépendre de « l’extérieur ». 

Semaine prochaine : Open Source suite et fin