N° 84 – Les catalogues de données 1

Je poursuis mon parcours dans l’univers des données après le billet précédent portant sur une revue listée et catégorisée des sources de données disponibles sur le Web. Parmi celle-ci, il était fait état de sources à caractère national, donc de données produites au niveau des pays, notamment africains. Une investigation accrue dans ce sens, doublée d’un désir de satisfaire une curiosité professionnelle, m’a amené à m’intéresser à la manière dont les données «africaines» pouvaient être décrites et accessibles, selon un procédé identique  à celui des documents présents dans les catalogues classiques des bibliothèques. J’ai ainsi pu dénicher quelques très belles perles, dont le catalogue des données de l’ANSD (Agence Nationale de la Statistique et de la Démographie) du Sénégal. Il est produit dans le cadre du programme d’archivage national des données du Sénégal (ANADS) géré par l’ANSD elle-même.
L’archivage des données, arrimé à Internet, fait surtout référence au concept de microdonnée. Ces microdonnées, qui sont des ressources importantes pour les gouvernements, les institutions nationales et les chercheurs du monde académique, surtout ceux en sciences sociales, sont le plus souvent issues d’enquêtes et de recensements. Elles représentent des ressources indispensables et doivent être gérées de façon à encourager leur utilisation et réutilisation. La politique nationale d’archivage des données se décline généralement en 06 activités qui vont de l’acquisition des données à leur dissémination en passant par la conservation, la documentation, le catalogage et l’anonymisation. Parmi celles-ci se trouve une activité essentielle qui est celle de la documentation, qui permet la réexploitation des données d’enquête et donc de nouveaux traitements statistiques. En effet ceux-ci ne sont possibles que si les producteurs d’enquêtes fournissent tous les documents qu’ils ont élaborés durant leur activité de collecte de données (conception d’échantillon, méthodologies, questionnaires, dictionnaires de variables, nomenclatures, etc.). Les Archives de données ont donc élaboré des techniques adaptées pour donner accès à l’information sur les données disponibles, afin de faciliter l’accès aux données elles-mêmes, respectant ainsi les spécifications définies par l’Initiative de Documentation des Données (DDI en anglais) et même celles des métadonnées du Dublin Core.
DDI est un standard technique de documentation basé sur le format XML qui permet de décrire des enquêtes et sondages en sciences humaines et sociales allant de la description du projet à la description détaillée de chaque variable. Pour ce faire, il a été élaboré un dictionnaire de balises de la norme DDI en anglais, traduit également en français.

L’activité de catalogage des données proprement dite, suit des procédures établies pour que les utilisateurs puissent identifier et accéder facilement aux informations recherchées. Ces informations mises à jour continuellement sont relatives au titre, au contenu, au contexte géographique, à l’opportunité, à la disponibilité et l’accessibilité de chaque ressource. Cet accès s’appuie sur un travail d’indexation et la mise à disposition d’un moteur de recherche interne.

De prime abord, tout cela peut paraître confus et peut susciter certaines interrogations légitimes, comme, par exemple, la manière de mise en œuvre pratique. Cependant, en découvrant le catalogue de l’ANSD du Sénégal, j’ai pu vérifier la faisabilité de tout cela en parcourant différentes notices figurant dans ledit catalogue. En poussant mes investigations j’ai pu découvrir que les activités de documentation, de catalogage, de dissémination, entre autres, sont effectivement possibles en grâce à un logiciel Libre dénommé NADA.
NADA qui en est à sa version 4.2, requérant au minimum une version PHP 5.3 ou supérieure et MySQL 5.3 ou supérieure pour une installation sans couacs, est une application Web de catalogage de microdonnées servant de portail aux chercheurs pour parcourir, rechercher, comparer et télécharger des données de recensement pertinents ou des résultats d’enquête. Il a été développé à l’origine pour soutenir la création d’Archives nationales de données d’enquête. L’application est utilisée par un nombre varié et croissant d’organisations nationales, régionales et internationales. D’ailleurs à part le Sénégal d’autres pays africains comme l’Ethiopie et l’Ouganda, par le biais de leur bureau statistique national, ont élaboré des catalogues utilisant ce logiciel. Pour en savoir plus sur son fonctionnement, ses composantes techniques, son téléchargement mais aussi découvrir d’autres outils comme l’éditeur de métadonnées en DDI, vous pouvez toujours visiter le site dédié à NADA.

Avec ce modeste exposé j’espère que vous en savez un peu plus sur ce que pourrait être un DATA LIBRARIAN.

N° 83 – Un petit pas dans l’univers des données Réponse

Le principe de l’Open Data énoncé il y a quelques années déjà, poursuit son processus d’assimilation à l’échelle mondiale et beaucoup d’organisations internationales, de gouvernements nationaux et locaux, de compagnies privées, etc., ont mis à disposition publique les données qu’elles produisent, recueillent, maintiennent et utilisent dans le cadre de leurs activités. Ceci pour être en conformité avec cette philosophie qui veut que ces données soient disponibles pour accès et réutilisation par les citoyens et par les entreprises. Ces données qui ont fini d’être exponentiellement numériques, foisonnent dans les réseaux et autres entrepôts visibles ou « cachés » du Web, nécessitant tout un ensemble de procédés, de techniques et technologies, de normes, etc. pour les gérer en les rendant accessibles et donc utiles. Un impératif de gestion dont ne sauraient se départir les professionnels de l’info-doc, ne serait-ce que par leur activité de médiation entre ces données et les utilisateurs finaux. Ce billet se propose d’être un petit exemple de ce qu’est ce rôle, en fournissant un petit panorama de sources de données disponibles sur le Web. Des sources non exhaustives loin s’en faut, mais qui donnent une idée sur l’ampleur des données actuellement disponibles et qui doivent faire le bonheur de tout analyste engagé ou non dans une activité de recherche ou de production intellectuelle. Cette compilation pour les apprenants et chercheurs de notre institution, surtout ceux qui participent au cours sur l’analyse des données, est une contribution à notre politique interne de maîtrise de l’information (Information Literacy), dont la « maîtrise des données » (Data Literacy) et la « maîtrise statistique » (Statistical Literacy) sont des composantes importantes.

La liste est subdivisée en quatre catégories comprenant ce que j’appelle :

Les Concentrateurs de sources de données, identifiés comme étant des sites fédérant des données issues de diverses sources,

Les Sources de données d’organismes internationaux, grands producteurs de données couvrant tous les pays et toutes les disciplines

Les Sources de données gouvernementales et nationales, c’est-à-dire tout ce qui est produit et utilisé à l’échelle d’un pays par les organismes officiels publics. Il y a une cinquantaine de pays concernés, toutefois j’ai voulu juste m’intéresser aux quelques pays africains qui ont franchi le pas et rejoint le mouvement de l’Open Data.

Les Moteurs de recherche spécialisés, sans qui il serait très difficile de faire une recherche ciblant spécialement les données et se prémunir ainsi d’un « bruit » assourdissant si on utilisait les moteurs de recherche généralistes classiques

opendata1

Concentrateurs de données

DataMarket : Plusieurs données gratuites classées thématiquement

Infochimps : Robuste collection de jeux de données classés par catégorie. Cependant le processus de monétisation de leur Big data est en cours

Dataprovider : Exploration de millions de Pages Web et structuration des données brutes récoltées

DataHub : Plateforme gratuite de gestion de données de Open Knowledge Foundation. Des Milliers de jeux de données disponibles

Google Public Data Explorer : Collection de données publiques et leurs sources de Google

Freebase : Agrégateur de données de type communautaire où les membres partagent leurs données et visualisations, etc.

Data Publica: Catalogue français de données ouvertes qui propose en plus un lexique sur les données

Socrata : référentiel de différents types de jeux de données

Knoema: Fournit un atlas mondial de données exposant des profils statistiques et autres données par pays

Public Data Sets/Amazon Web Services : Amazon propose un petit nombre de jeux de données dû à leur taille plusieurs Gigabits et même Térabits

Index Mundi : Profils par pays très détaillés : Statistiques, graphiques, cartes, provenant de sources multiples

Sources de données d’organismes internationaux

Data Portal European Union : Hub de données ouvertes de l’Union Européenne

Eurostat Home : Agence Statistique de la Commission européenne

Open Data for Africa : Données fournies par la Division des statistiques de la Banque Africaine de Développement

Data and maps (EEA) : Données partagées par l’Agence Européenne pour l’environnement

UNdata : Hub de données ouvertes des Nations Unies

IMF Data and Statistics : Sources de données du FMI

Data World Bank : Données de la Banque mondiale

World Bank Projects Evaluations : Evaluation des projets financés par la Banque mondiale

OECD.Stat : Sources de Données de l’OCDE

ESPON Database Portal : Données de l’Observatoire en réseau de l’aménagement du territoire européen

MDG Indicators : Site des Nations Unies des indicateurs des OMD

Afristat : Observatoire Economique et Statistique d’Afrique Subsaharienne

ASTI : Données agricoles sur les pays en développement

WGI Project : Indicateurs sur la gouvernance mondiale (WGI) présente des indicateurs pour 215 économies sur la période 1996-2012 et sur 6 dimensions de la Gouvernance.

Sources de données gouvernementales et nationales

Un certain nombre de pays rendent publiquement accessibles leurs données gouvernementales, une trentaine identifiées dont 4 pays africains qui sont :

Ghana : Portail des Données ouvertes du Ghana

Kenya : Portail des données ouvertes du Kenya

Maroc : données publiques de l’administration marocaine :

Tunisie : Plateforme expérimentale d’ouverture des données publiques tunisiennes

Mais aussi les plages spéciales par pays dans la plateforme OpenData for Africa de la Banque africaine de développement, exemple de l’Afrique du Sud et du Projet de curation des données par pays pour toute l’Afrique.

Moteurs de recherche spécialisés

Quandl : Recherche sur plus de 3 millions de jeux de données financières, économiques et sociales

Zanran : moteur de Données numériques et Statistiques

Et ci-dessous une version sous forme de présentation téléchargeable.