N° 125 – Ce qu’on dit à des étudiants de Master sur les documents et l’intelligence artificielle

Il faut savoir reconnaître les bonnes fortunes quand elles se présentent. L’invitation qui m’a été faite par le Professeur Kouassi Sylvestre Kouakou à venir partager quelques idées avec ses étudiants de Master inscrits dans un cours sur les humanités numériques à l’EBAD en est assurément une. Non seulement parce qu’enseigner, même ponctuellement, dans l’institution où l’on a soi-même fait ses armes intellectuelles est toujours une expérience chargée d’une signification particulière, mais aussi parce que le thème retenu, à savoir « collecter, organiser, visualiser et diffuser une masse documentaire à l’ère numérique », est précisément celui qui occupe une part centrale de mes réflexions théoriques et de mes développements d’outils depuis quelques années. L’invitation a été très fortement appréciée.

Ce qui a rendu l’exercice d’autant plus stimulant, c’est son caractère délibérément interactif. L’heure n’était pas à la conférence magistrale descendante, mais à un échange nourri, émaillé de questions, de contradictions parfois, et surtout d’une démonstration en direct d’AnnotIA, l’interface d’annotation automatique d’artefacts visuels et de documents patrimoniaux que j’ai développée pour permettre la description multilingue, en français, en anglais et en wolof, d’objets aussi divers que des manuscrits, des photographies d’archives ou des œuvres iconographiques, avec génération automatique de métadonnées structurées en JSON-LD. Ce billet est une façon de prolonger cet échange au-delà de la salle, pour ceux qui y étaient et pour tous ceux qui n’ont pas pu l’être.

L’abondance qui appauvrit

Il y a dans la situation documentaire contemporaine un paradoxe que l’on ne médite jamais assez. L’humanité n’a jamais produit autant de documents, sous autant de formes, avec autant de vitesse. Des centaines de millions de téraoctets de données nouvelles voient le jour quotidiennement, selon les estimations les plus récentes. Et pourtant, les institutions qui devraient être les mieux servies par cette profusion, à commencer par celles du continent africain, en restent les grandes laissées-pour-compte.

Le patrimoine documentaire africain ne représente que 5% des inscriptions sur le Registre Mémoire du Monde de l’UNESCO qui est le programme mondial de référence pour la sauvegarde des fonds d’archives d’importance internationale. Un chiffre que l’organisation attribue explicitement aux ressources insuffisantes et à la faible visibilité des institutions de mémoire de la région (UNESCO, Trésors du patrimoine documentaire de l’Afrique, 2024). Ce n’est pas un indicateur de volume numérisé, mais c’est un indicateur de reconnaissance internationale des fonds africains, et il dit, à sa façon, la même chose que les chiffres d’accès en ligne : le patrimoine documentaire du continent reste structurellement sous-représenté dans les circuits mondiaux du savoir. Ce chiffre mériterait d’être écrit en lettres, non en chiffres, pour qu’on en ressente la pesanteur autrement. Il dit deux choses simultanément, et c’est là où réside le paradoxe que j’évoquais : d’abord, que la masse ne produit pas mécaniquement l’accès ; ensuite, que l’Afrique accumule ce qu’Émile Durkheim eût peut-être qualifié de fait social contraint, une double dette documentaire qui n’est pas le fruit du hasard, mais d’une organisation délibérée du monde. Une dette de conservation d’abord, héritée de décennies de sous-financement archivistique chronique ; une dette de numérisation ensuite, qui n’est pas séparable des conditions structurelles dans lesquelles les institutions du savoir africaines ont été amenées à fonctionner.

Ce n’est donc pas, j’y insiste, un problème technique. C’est un problème épistémique, c’est-à-dire un problème qui touche à la manière dont une société produit, conserve et rend accessible ce qu’elle sait d’elle-même. Et les solutions à y apporter ne sauraient être purement techniques non plus, même si la technique, lorsqu’elle est convoquée à bon escient, y joue un rôle qui mérite d’être examiné sans précipitation.

Le cycle documentaire comme architecture de pensée

Pour organiser la réflexion avec les étudiants, j’ai choisi de partir d’un cadre que je qualifierais de cycle documentaire numérique, articulé en huit étapes interdépendantes : la collecte, le traitement, l’organisation, le stockage, la recherche, la visualisation, la diffusion et la valorisation. Ce n’est pas là un modèle figé, encore moins une procédure à suivre pas à pas comme un mode d’emploi électroménager. C’est une architecture de pensée, c’est-à-dire un cadre qui donne à voir les relations de dépendance qui existent entre les différentes opérations documentaires, de sorte que l’on comprenne pourquoi la qualité d’un traitement OCR/HTR mal conduit sur un manuscrit numérisé rend caduque toute tentative d’indexation fine ultérieure, et pourquoi une métadonnée mal renseignée est parfois plus nuisible qu’une métadonnée absente, parce qu’elle donne l’illusion de la maîtrise là où règne le désordre.

La première partie du cycle, des étapes 1 à 4, concerne ce que l’on pourrait appeler la chaîne de l’acquisition structurée : capter les sources dans leur diversité (papier, numérique natif, audiovisuel, tradition orale), les traiter pour les rendre exploitables, les organiser selon des normes qui permettent l’interopérabilité, les stocker de manière à garantir leur pérennité. La seconde partie, des étapes 5 à 8, est là où le document cesse d’être un objet inerte pour devenir une ressource vivante : la recherche intelligente, la visualisation des données, la diffusion auprès des publics, et enfin la valorisation qui transforme le document en connaissance.

J’insiste souvent, et je l’ai fait lors de cette intervention, sur la dimension normative de l’organisation documentaire, parce que c’est la partie du cycle qui cristallise le mieux les enjeux culturels et techniques que l’on a tendance à occulter derrière des discussions purement procédurales. Une métadonnée, je le dis aux étudiants sans ménager les susceptibilités, est une affirmation à propos d’un document. Elle encode une perspective, une langue, une culture. Dublin Core, ISAD(G), MARC 21, EAD : ces normes sont nées dans des contextes géolinguistiques précis, élaborées prioritairement pour des corpus écrits dans des langues à graphie latine, et leur application sans adaptation au traitement de documents en tifinagh, en ge’ez (ou guèze), en n’ko ou en arabe ajami pose des problèmes d’adéquation que la littérature professionnelle documente depuis plusieurs décennies.

Ce que l’intelligence artificielle change, et ce qu’elle ne change pas

L’intelligence artificielle fait aujourd’hui l’objet d’un enthousiasme qui, pour être compréhensible, n’en est pas moins parfois un peu aveugle. Je ne suis pas de ceux qui pensent que la prudence à son égard est synonyme d’arriération intellectuelle, ni de ceux qui croient que tout ce qu’elle touche se transforme en or. Ce que j’observe, c’est qu’elle est un outil, un outil puissant, qui amplifie les compétences de celui qui sait s’en servir et révèle les lacunes de celui qui ne sait pas ce qu’il fait.

Dans le domaine documentaire, les capacités de l’IA sont réelles et méritent d’être prises au sérieux. Le résumé automatique, la classification intelligente par type et par sujet, la reconnaissance d’entités nommées dans les textes, la traduction entre langues, la transcription de manuscrits par HTR, la génération automatique de métadonnées : autant d’opérations qui, lorsqu’elles sont bien conduites sur des corpus bien préparés, permettent selon plusieurs études terrain de réduire significativement le temps consacré aux opérations techniques sur des collections volumineuses. J’ai eu l’occasion de l’observer dans mes propres projets, et je ne prétends pas le contraire.

Mais il y a dans le déploiement de ces systèmes une question que l’on escamote trop souvent : celle du corpus d’entraînement. Des travaux de recherche en linguistique computationnelle ont montré que la composition des jeux de données d’entraînement des grands modèles de langue reflète des déséquilibres de représentation entre les langues du monde. Demander à ces modèles de décrire un objet rituel d’Afrique centrale, d’indexer un manuscrit ajami, ou de transcrire un document en arabe dialectal soudanais, c’est exposer le résultat obtenu à des limites que seul un travail de constitution de corpus africains annotés, représentatifs et de qualité permettra progressivement de réduire. Le modèle NLLB (No Language Left Behind) représente à cet égard une avancée documentée, en couvrant deux cents langues, dont le wolof, l’hausa, le swahili et l’amharique, être autres. Des initiatives académiques et institutionnelles complémentaires, notamment sur le continent africain, contribuent par ailleurs à élargir ces bases.

L’architecture RAG, pour Retrieval-Augmented Generation, que j’ai présentée en détail lors de l’intervention, répond à une préoccupation que je considère fondamentale pour tout déploiement de l’IA en contexte documentaire institutionnel : la traçabilité. Le problème central des grands modèles de langage, c’est qu’ils hallucinent parfois, c’est-à-dire qu’ils produisent des affirmations vraisemblables mais factuellement fausses, et quelquefois des sources qui n’ont jamais existé. Le RAG contourne cette pathologie en obligeant le modèle à ancrer ses réponses dans des documents réels, récupérés dynamiquement à partir d’un corpus maîtrisé, vectorisé et indexé. L’institution documentaire retrouve ainsi ce qui la définit depuis toujours : le contrôle sur ce qu’elle sait, et sur la façon dont elle le dit.

La question africaine n’est pas un angle mort.

On parle de l’Afrique en matière de patrimoine documentaire avec une naïveté désarmante, parfois bienveillante, qui aboutit au même résultat qu’une ignorance moins aimable : l’invisibilisation. Tombouctou (la ville) conserve à elle seule plus d’une dizaine de milliers de manuscrits et peut-être jusqu’à « 300 000 manuscrits, mais sur toute l’étendue des 6e et 7e régions de la République du Mali« . C’est un chiffre qui devrait couper le souffle. Il ne le fait généralement pas, parce que les corpus numériques mondiaux l’ignorent sans doute, parce que les moteurs de recherche ne le remontent pas ou pas assez, mais surtout parce que les institutions qui s’en occupent manquent des ressources pour le rendre visible, une conséquence de l’état de contexte contraint.

Les corpus ajami d’Afrique de l’Ouest représentent un exemple parmi d’autres de ce que l’on pourrait appeler la richesse documentaire silencieuse du continent : des documents produits en langues africaines à partir de l’écriture arabe adaptée, témoignant de pratiques intellectuelles, juridiques, théologiques et commerciales souvent méconnues des circuits de la connaissance globalisée.

À cela s’ajoute la question, de plus en plus présente dans les débats professionnels, de la gouvernance des données numériques et des politiques d’hébergement institutionnel. Plusieurs cadres juridiques nationaux et internationaux, dont les implications pour les organisations gestionnaires de données sont régulièrement examinées dans les publications spécialisées en droit du numérique, ont conduit les institutions documentaires à porter une attention accrue au choix de leurs infrastructures. La question centrale n’est pas toujours celle du coût, mais celle du contrôle : où les données résident-elles physiquement, et qui en détient les clés d’accès ? C’est à cette question que répondent des solutions comme DSpace (dépôt institutionnel), Nextcloud (travail collaboratif), AtoM (gestion archivistique) ou Koha (gestion bibliothéconomique) entre autres, dont l’architecture auto-hébergée possible permet à une institution de conserver ses données sur ses propres serveurs, sans dépendance à une infrastructure tierce. Ces outils font l’objet d’une attention croissante de la part des institutions documentaires africaines, comme en témoignent les recommandations et le plaidoyer d’EIFL en matière de logiciels libres pour les bibliothèques.

J’emprunte au sociologue indien Shiv Visvanathan le concept de « justice cognitive » pour désigner l’horizon que plusieurs chercheurs et praticiens des sciences de l’information assignent à une politique documentaire soucieuse de la diversité des systèmes de connaissances : la reconnaissance de l’égale dignité épistémique de toutes les traditions intellectuelles, et la production de corpus représentatifs, en langues africaines, susceptibles d’enrichir les modèles computationnels futurs.

Le professionnel qui émerge

L’une des questions qui a le plus animé les échanges avec les étudiants du Master est celle du devenir du métier. Elle se pose de manière presque anxieuse, et je la comprends. Si l’IA peut cataloguer dix mille documents en dix minutes, qu’est-ce que l’archiviste ou le bibliothécaire professionnel est encore supposé faire ?

Ma réponse est la suivante, et je la maintiens : le professionnel de l’information du XXIᵉ siècle n’est pas en voie de remplacement, il est en voie de mutation. Les compétences qui vont définir le praticien compétent dans les prochaines années ne sont pas celles qui consistent à maîtriser une tâche que la machine effectue mieux ; elles sont celles qui consistent à comprendre ce que la machine fait, à en évaluer les résultats, à en corriger les biais, à concevoir les architectures documentaires dans lesquelles elle intervient, et à exercer sur elle un jugement que seule une formation rigoureuse en sciences de l’information permet d’acquérir.

Gestionnaire de données, ingénieur de la connaissance, spécialiste IA documentaire, médiateur numérique, architecte documentaire : ces cinq rôles, qui viennent s’ajouter aux compétences classiques et non les remplacer, dessinent le profil hybride que les formations comme celle de l’EBAD ont la responsabilité de préparer. C’est une responsabilité qui n’est pas légère, et qui mérite que les enseignants, les intervenants et les étudiants en soient également conscients.

L	M	M	J	V	S	D
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

	Les bibliothèques pu… dans N° 110 – L’intelligence…
	amonnoyeur dans N° 110 – L’intelligence…
	Alkhna DRAME dans N° 103 – Intelligence artifici…
	Veille et sensibilis… dans N° 103 – Intelligence artifici…
	A. B. DIOUF dans N° 98 – Discours sur la…

L	M	M	J	V	S	D
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

	Les bibliothèques pu… dans N° 110 – L’intelligence…
	amonnoyeur dans N° 110 – L’intelligence…
	Alkhna DRAME dans N° 103 – Intelligence artifici…
	Veille et sensibilis… dans N° 103 – Intelligence artifici…
	A. B. DIOUF dans N° 98 – Discours sur la…

Partager :

Articles similaires

Laisser un commentaire Annuler la réponse.