N° 95 – Enjeux de la numérisation en Afrique. 3, Enjeux pratiques (suite)

Moyens et procédures

Traitement matériel

Comme pour l’ère industrielle, l’ère numérique s’accompagne aussi de sa « mécanisation » sans laquelle sa révolution et son évolution productive ne seraient pas en perpétuel renouvellement. Du point de vue physique comme logiciel, cet environnement foisonne de gadgets sophistiqués, fruits d’une sagesse créatrice et inventive plus prolifique que celle qui fut au cours des siècles antérieurs, plus précisément au XXsiècle. L’état de l’outillage numérique actuellement disponible annihile toute utopie d’accomplir un dessein de numérisation de ressources tangibles et intangibles pour l’Afrique. Il faut juste être bien imprégné du fonctionnement de ces outils, des adaptations pour lesquelles ils ont été confectionnés et des procédés de maintenance à respecter, pour qu’ils jouent pleinement leur rôle dans la durée. L’objectif ici n’est pas de faire un étalage exhaustif et détaillé de tous les appareils pouvant être déployés pour un projet de numérisation. Il est cependant important de faire savoir que les outils de choix pour pareil projet, avec toutes les matières identifiées, seront sans doute à vocation patrimoniale.

Pour les ressources tangibles

L’utilisation de scanners de documents patrimoniaux est préconisée pour les documents plus ou moins anciens ou assemblés de façon particulière, un assemblage qui empêche tout désir de « déreliure » des pages pouvant porter atteinte à l’intégrité de la forme, car toutes les étapes du processus de numérisation, incluant les appareils de numérisation, doivent préserver l’intégrité physique du document (Anctil et al2014), mais aussi des contenus qui y sont véhiculés. Ce sont des documents généralement fragilisés par les effets du temps et qui nécessitent une précaution de manipulation que n’offre pas un scanner automatique ou de défilement qui agit comme une imprimante classique, alimentée feuille par feuille à partir de bacs. Ce dernier type de numériseur siérait plus à des documents d’un jeune âge et dont les écritures contrastent bien avec la teinte du support, assurant un confort de capture et donc de rendu après.

Les artefacts et autres structures immobiles à grand volume, telles que des monuments et autres sites, feraient l’objet d’une numérisation en trois dimensions (3D) qui permet de capturer leur forme sous tous les angles. Pour les artefacts, l’idéal serait d’utiliser des numériseurs portables pour éviter de déplacer les objets. Certains, même s’ils sont déplaçables, peuvent être d’un poids assez lourd, et en évitant de les manipuler durant l’opération, on évite de les dégrader ou de les détruire. Pour les structures à grand volume, telles que des monuments historiques, l’utilisation de la numérisation 3D par impulsion laser, ou encore et surtout par la photogrammétrie est fortement envisageable, allant meme jusqu’à l’utilisation de drones pour prendre des vues d’en haut d’ édifices de très grande hauteur (pyramides notamment). La génération d’une documentation 3D, issue d’une numérisation par ces technologies, permet à d’éventuels chercheurs et chercheuses d’avoir des mesures sans avoir à investir physiquement leur terrain d’étude au risque de le détériorer.

Diverses technologies ont été utilisées pour enregistrer et reproduire du son et de l’image, et donner naissance à des documents audiovisuels, donc nativement analogiques. Fixés sur des supports jugés fragiles, ils n’offrent aucune garantie de pérennité d’accès au contenu tenant compte de la forte probabilité de dégradation des supports et de l’obsolescence des matériels utilisés pour les consulter. Les convertisseurs analogiques/numériques existent depuis plus d’une décennie et sont disponibles pour ce genre d’opération. Cet exercice concernant ce type précis de documents est très complexe et nécessite de prendre exemple sur des institutions reconnues pour leurs pratiques efficaces en la matière (la Bibliothèque nationale de France, par exemple), mais aussi de privilégier une coopération interafricaine, voire de type Nord/Sud à dimension bipartite ou multipartite comme le Réseau francophone numérique (RFN).

Pour les ressources intangibles

Il est question ici des dispositifs à utiliser pour capturer les savoirs individuels de la mémoire humaine et les savoirs collectifs que sont les représentations sociales. Les savoirs des individus sont difficiles d’accès parce qu’ils sont dans les lieux de stockage les plus intimes qui soient. L’enjeu ici est d’arriver à capturer ce qui n’est accessible que par la volonté du détenteur ou à son insu. Il faut se rappeler qu’en Afrique le savoir a eu souvent une connotation ésotérique étant transmis de manière initiatique entre maître et disciple, ou de manière filiale dans un cadre purement familial, voire tribal ou clanique, comme l’explique en profondeur Julien Bonhomme (2006) à propos de la transmission du savoir initiatique en Afrique centrale. Éthiquement, il va sans dire que la première option est la seule qu’il faille adopter, c’est-à-dire la pleine collaboration des cibles impliquant que ces dernières soient tout aussi sincères dans leur acte de dévoilement personnel. En conséquence, faudra-t-il mener une sensibilisation de ces parties prenantes à tous les niveaux, avec séances d’explication, dispositifs incitatifs, etc., pour éviter des goulots d’étranglement qui se manifesteraient le plus souvent par leur non-coopération (refus de se faire interviewer, de fournir des documents primaires, etc.)? La fixation de ces connaissances est moins une question d’outils à déployer (n’importe quel téléphone de dernière génération peut jouer le rôle de caméra et d’enregistreur) que d’accès aux personnes ou aux groupes qu’on veut soumettre à l’exercice de « mémorisation numérique ». Il faut donc un contact direct avec les sources orales émettrices et l’un des moyens pour y arriver est aussi de susciter l’organisation de manifestations formelles collectives (conférences thématiques, festivals culturels, foires artisanales, émissions ou reportages télévisuels et radiophoniques, etc.). En définitive, il faut déployer tout un arsenal d’idées pour rendre aisée et efficace la capture de ces savoirs sur support intangible.

Normes et standards

La numérisation pratique obéit à une normalisation conventionnelle et à des lignes directrices généralement admises en fonction des structures qui s’y adonnent, des besoins spécifiques et des ressources dont elles disposent. Cependant, aucun document de normalisation de processus de numérisation ne peut prétendre à l’exhaustivité ni à la finitude, car devant évoluer avec la technologie et le développement des connaissances dans le domaine (Brosseau, Choquette et Renaud 2006). Il s’agira ainsi, pour un projet de ce type, de bien veiller à se doter d’un cahier des charges mettant en évidence toutes les exigences souhaitées en ce qui concerne le choix de matériel et de consignes de numérisation. L’essentiel sera d’adopter les normes existantes en les adaptant au mieux à la nature des ressources à numériser et aux conditions particulières de leur création et de leur délivrance.

Pour les documents imprimés, il faut veiller à ce que ces derniers soient numérisés en respectant les minima en termes de résolution d’image (nombres de points par pouce), de colorimétrie en trouvant des compromis entre la couleur, le niveau de gris et le binaire, et de formats de sortie des fichiers (TIFF, JPEG, PDF) en fonction du but de la numérisation qui peut être orientée vers l’archivage à long terme ou la consultation.

Pour les ressources non imprimées, il est important de veiller au respect des formats de consultation que cette dernière soit sous forme d’écoute ou de visionnage. Un soin particulier sera donc donné aux formats courants en la matière (MP4, AVI, MOV, AIF, MP3, WAV, etc.), mais aussi au choix de métadonnées de structure qui permettent la traçabilité des éléments techniques utilisés pour ces fichiers numériques et faciliter les processus de migrations futures. Ces métadonnées doivent être intégrées au document, qui doit comprendre toutes les informations techniques nécessaires : niveau de compression, taille des fichiers, nombre de pixels, format, etc. (IFLA 2004, 11). Un soin particulier sera apporté au nommage des fichiers numériques générés avec des règles précises pour repérer et identifier plus facilement des documents recherchés avant même qu’ils ne soient ouverts, éviter les problèmes lors de transfert et de partage, et permettre leur conservation à moyen et long terme (Dunant Gonzenbach 2013). Il faudra s’inspirer des spécifications normatives en la matière, plus spécifiquement la norme ISO 9660.

Enfin dans un souci d’interopérabilité, il est important de privilégier des formats ouverts comme le XML, pour que les documents numériques ainsi produits puissent s’échanger avec d’autres systèmes de même nature, et favoriser ainsi la visibilité des savoirs africains partout dans le monde.

Traitement documentaire

Indexation

Les éléments de savoir identifiés pour faire objet de numérisation, outre les canaux écrits conventionnels, sont généralement transmis par des canaux locaux faisant la part belle aux langues vernaculaires. Il se posera sûrement, pour des enregistrements numérisés directement au contact des cibles, la question de la compréhension du message, car les codes de déchiffrement ne seront pas partagés par les récepteurs finaux. Il faudra dans ce cas penser à des alternatives sous forme de traduction avec transcription textuelle pour les enregistrements sonores et avec sous-titrage pour les images animées. Ceci est aussi important dans l’optique de description bibliographique et d’indexation manuelle de ces ressources en langues locales, dont la terminologie ne figure pas dans les thésaurus et autres listes de vedettes-matières normalisées courantes. C’est le lieu de penser à construire de pareils systèmes d’organisation de connaissances basés sur des réalités propres au contexte africain, si on veut prendre en compte tous les types de savoirs et leur moyen d’expression. Autrement dit, il s’agit de prendre en compte les termes spécifiques tels qu’ils sont déclinés dans les langues concernées et non pas seulement leur traduction dans des langues plus communément conventionnelles. Une telle initiative demande un travail à la base impliquant différents spécialistes en bibliothéconomie, archivistique, histoire, linguistique et informatique pour mettre en place des thésaurus et autres ontologies visant à décrire et à accéder aux ressources ainsi numérisées. Un défi sera la pluralité linguistique et dialectique immense qui caractérise l’Afrique. En effet, il est utopique de prétendre utiliser toutes les langues, une solution sera alors d’identifier certaines langues transnationales de certaines régions, pour en faire des éléments de base des thésaurus à construire. Ces derniers ne seront pas seulement en format écrit, mais se combineront aussi avec un mode oral pouvant permettre la recherche vocale avec l’utilisation de la technique informatique de « reconnaissance automatique de la parole » déjà disponible, par exemple, avec la recherche Google. Cette disposition permettrait aux personnes non alphabétisées de pouvoir rechercher et accéder à des contenus audiovisuels spécifiques dans des langues qu’ils comprennent. Enfin, l’adoption d’un modèle d’organisation en « cercles concentriques », idée empruntée au président Senghor[5] et cité par Lecoutre (2007), permettra de construire ces thésaurus d’abord au niveau local (niveau sous-régional) et de les fondre ensuite dans un ensemble fédérateur plus vaste et à perspective continentale.

Cette étape de l’indexation est extrêmement importante, car la gestion efficace de ces documents numérisés implique le développement de techniques d’indexation et d’annotation sémantique (Coustaty et al. 2012, 94) et l’enjeu est d’enrichir ce secteur de l’organisation scientifique des connaissances par une spécificité purement africaine, car cela participe aussi de la légitimation de tous les savoirs produits sur le continent. Cette thésaurisation aura pour principal effet de simplifier les choix de termes de l’élément « sujet » d’un format comme le Dublin Core qui est devenu, par la force de l’usage, l’un des jeux de métadonnées les plus courants. Ce format, le Dublin Core, permet de définir un ensemble de métadonnées assez simples pour que des non-spécialistes puissent les créer à n’importe quel point du cycle de vie d’une ressource (créateur, propriétaire, gestionnaire, éditeur, utilisateur, etc.), mais suffisamment structurées pour qu’elles puissent être moissonnées sur le web par des outils dédiés. Ce format a l’avantage de pouvoir être utilisé pour décrire aussi bien des ressources bibliothéconomiques, archivistiques et muséographiques, et de permettre une interopérabilité (échange de données et repérage de ressources) au niveau de ces trois grandes disciplines de la gestion des savoirs (Bibliothèque nationale de France 2016). Cela est d’autant plus pertinent quand il s’agit, comme imaginé et souhaité ici, de projets conjoints ou de partage des données de ces différentes disciplines (Réseau canadien d’information sur le patrimoine 2017, 24) qui couvrent le champ de friches des savoirs africains. L’utilisation du Dublin Core peut aussi être combinée avec d’autres formats et normes plus spécifiques aux disciplines concernées et cela serait même nécessaire d’un point de vue pratique. Pour ce qui est de l’indexation automatique obtenue par reconnaissance optique de caractères (OCR) et qui permet la recherche de mots en plein-texte, elle concerne plus les documents nativement imprimés. Pour garantir une « océrisation » optimale, l’accent doit être mis sur le choix des meilleurs outils disponibles actuellement pour diminuer au maximum la marge d’erreur après traitement. Un seuil de 98 % de reconnaissance de caractères est un minimum à exiger vu la qualité des logiciels actuels et qui reconnaissent aisément les caractères imprimés. Cependant, pour certains documents en langue locale ou nationale, il arrivera que des mots ne soient pas bien restitués parce qu’issus d’une transcription phonétique censée représenter les sons de cette langue et que les logiciels d’OCR ne connaissent pas, car ces derniers ne sont pas toujours capables de reconnaître des caractères « exotiques » (André 2003). Il demeure constant que certains sons des langues africaines n’aient pas d’équivalent dans les langues latines ou anglo-saxonnes et des caractères spéciaux ont été créés pour les symboliser, notamment au Sénégal, quand il a fallu dans les années 70, codifier six langues nationales qui n’ont été cependant reconnues officiellement comme telles que plus tard par la constitution de 2001 (Cissé 2011). Cette opération de codification s’est d’ailleurs poursuivie au cours de ces années 2000 avec, par exemple, la langue Menik du Sénégal oriental[6]. Il est donc temps que les développeurs et développeuses de logiciels d’OCR se rapprochent de l’Afrique pour intégrer ce genre de réalité diacritique dans leur produit, ou que les spécialistes africains en informatique et en conception de logiciels s’investissent dans ce créneau de création de logiciel d’OCR pour un marché africain qui sera forcément porteur, vu l’irréversibilité du besoin numérisant. Ils pourront alors profiter d’une de ces opportunités d’affaires que peut offrir l’économie de la connaissance.

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s