Comment lire un pipeline d’inférence quand on travaille la documentation patrimoniale en Afrique
Il y a quelques mois, en préparant une intervention sur l’annotation automatisée des collections artéfactuelles dans le cadre de la dixième école d’été de l’AIFBD, j’ai commencé à dresser un tableau récapitulatif des huit étapes par lesquelles passe une requête à un système d’intelligence artificielle, depuis la saisie de l’utilisateur jusqu’au retour à l’interface. L’exercice était mécanique au début. Il est devenu, à mesure que je remplissais les cases, une réflexion sur la souveraineté technologique des institutions documentaires africaines. Je voudrais ici en restituer la substance, non pour vanter les outils que j’ai retenus (ils sont volontairement omis d’exposition et de présentation ici) , mais pour expliquer pourquoi le choix de ne pas céder aux solutions hégémoniques engage quelque chose de plus profond que la simple optimisation des coûts.
Le pipeline d’inférence se laisse décrire en huit moments distincts : la saisie, le prétraitement, l’encodage, le passage dans le modèle, le décodage, le post-traitement, le retour à l’interface, et enfin la validation par l’utilisateur. À chacun de ces moments correspond un choix d’outils. Et à chacun de ces choix correspond, qu’on le veuille ou non, une décision politique.
- La saisie : l’antichambre du dialogue
Tout commence par une interface. C’est l’endroit où le bibliothécaire, le conservateur, l’archiviste dépose son fichier, son texte, son manuscrit numérisé, et dit en somme à la machine : voici ce que je voudrais te soumettre. Cet endroit, qu’on appelle dans le jargon le frontend, peut être construit avec une dizaine de bibliothèques différentes. J’ai choisi celles qui se déploient en quelques lignes de code, qui ne demandent pas une équipe d’ingénieurs pour être tenues à jour, et qui peuvent fonctionner sur un poste de travail modeste sans serveur dédié. Le critère ici n’est pas la beauté de l’interface : c’est la possibilité, pour une institution dotée de moyens contraints, de garder la main sur ce qu’elle expose à ses usagers. La frugalité du frontend conditionne la pérennité de l’outil.
- Le prétraitement : nettoyer avant de faire entrer
La donnée brute est rarement utilisable telle quelle. Une image numérisée porte ses scories : reflets du plastique de couverture, ombres du scanner, parasites du capteur. Un texte issu d’un manuscrit océrisé porte ses fautes de reconnaissance. Le prétraitement est cette étape souvent invisible où l’on tokenise, on segmente, on redresse, on normalise. Pour le texte, j’utilise des outils de traitement linguistique éprouvés, conçus pour fonctionner sur processeur ordinaire et qui couvrent honnêtement le français : la performance reste acceptable même sur des textes wolofs, à condition de ne pas attendre miracle. Pour l’image, le redimensionnement et la conversion d’espaces colorimétriques se font avec des bibliothèques anciennes, robustes, dont la documentation tient en quelques pages. C’est précisément cette ancienneté qui les rend précieuses : elles ne disparaîtront pas du jour au lendemain au gré des décisions stratégiques d’une multinationale.
- L’encodage : transformer le sens en nombres
L’opération qui me fascine le plus dans ce pipeline est sans doute celle-ci. Le texte ou l’image, jusque-là porteur d’un sens humain, doit être converti en un vecteur de nombres décimaux que le modèle saura manipuler. C’est ce qu’on appelle un embedding en jargon IA. Le choix d’un encodeur n’est pas neutre : un encodeur entraîné essentiellement sur des corpus anglophones produira, pour un texte wolof, des vecteurs imprécis, et pour un motif iconographique africain, des descripteurs qui passeront à côté de l’essentiel. J’ai retenu pour AnnotIA un encodeur conjoint qui place le texte et l’image dans un même espace vectoriel : c’est ce qui permet ensuite de demander si une description en français correspond bien à ce que l’image montre. Pour l’extraction de mots-clés thématiques, un autre composant exploite ces mêmes embeddings pour faire émerger les groupes nominaux les plus saillants. Le tout fonctionne sur processeur, sans GPU, ce qui n’est pas une concession technique : c’est une condition de la souveraineté.
- Le passage dans le modèle : ce qui se joue dans la boîte noire
On entre ici dans le cœur du système. Les vecteurs traversent les couches d’un réseau de neurones qui calcule, pour chaque entrée, une distribution de probabilités sur les sorties possibles. C’est le moment où la machine décide, en somme, ce que l’image représente. Les modèles propriétaires les plus performants sur ce type de tâche réclament des cartes graphiques coûteuses et une connexion internet stable : autant dire qu’ils restent inaccessibles à la plupart des institutions africaines. Une autre voie existe, qui consiste à utiliser des modèles distillés, plus petits, optimisés pour tourner sur des configurations modestes. Pour la description automatique d’images, AnnotIA s’appuie sur un modèle de captioning (sous-titrage) local dont les poids tiennent en quelques centaines de mégaoctets et dont l’inférence reste fluide sur un ordinateur portable correct. La perte de qualité par rapport aux mastodontes propriétaires est réelle ; elle est aussi mesurable, et le plus souvent acceptable au regard du gain en autonomie.
- Le décodage : choisir parmi les possibles
Une fois la distribution de probabilités calculée, encore faut-il en extraire une réponse. C’est le travail du décodage, qui sélectionne, parmi tous les mots ou toutes les classes possibles, celui ou celle qui paraît la plus probable au modèle. Pour la traduction multilingue, qui m’occupe particulièrement parce qu’elle conditionne l’accessibilité des notices au public francophone, anglophone et wolophone, j’utilise un modèle de traduction qui couvre deux cents langues, dont plusieurs langues africaines. Sa qualité sur le wolof reste imparfaite, j’ai déjà eu l’occasion de le dire ailleurs sur ce carnet : les corpus d’entraînement sont déséquilibrés, et la langue de Cheikh Anta Diop n’a pas reçu, pour entraîner ces modèles, l’attention qu’on a portée au français ou à l’arabe. Mais on travaille avec ce qu’on a, et on documente honnêtement les limites. Pour les paires linguistiques classiques comme l’anglais vers le français, un modèle plus léger et plus ancien suffit largement : on n’a pas besoin de mobiliser un cargo pour traverser une rivière.
- Le post-traitement : reformater pour les normes documentaires
La sortie brute du modèle, soyons honnêtes, n’est pas exploitable par un système de gestion de bibliothèque ou par un agrégateur patrimonial. Elle se présente comme un fragment de texte ou comme une suite de probabilités. Le post-traitement consiste à restructurer cette sortie selon les formats que les institutions documentaires attendent : Dublin Core pour le moissonnage OAI-PMH, EAD pour les instruments de recherche archivistiques, JSON-LD enrichi avec le vocabulaire schema.org pour la découvrabilité sur le web sémantique. Cette étape mobilise des bibliothèques utilitaires, modestes mais essentielles, qui permettent de manipuler du JSON, du XML, des expressions régulières. Aucune de ces bibliothèques n’est spectaculaire ; toutes sont irremplaçables. C’est le maillon discret par lequel le travail intellectuel de la machine rejoint la galaxie des standards bibliothéconomiques internationaux.
- Le retour à l’interface : refermer la boucle
Le résultat, désormais formaté, doit revenir à l’utilisateur. Selon les cas, il s’affiche dans l’interface du portail, ou il est injecté directement dans un système de gestion archivistique ou bibliographique via une interface de programmation (API). Pour AnnotIA, j’ai privilégié une exposition par interface web légère qui permet à la fois la consultation directe et l’intégration dans des plateformes existantes comme les systèmes d’archives électroniques ou les dépôts institutionnels. Le principe ici est celui de l’interopérabilité : le système ne doit pas créer un silo de plus, il doit alimenter les infrastructures déjà en place. C’est ce qui distingue, à mon sens, un outil documentaire d’un produit logiciel grand public.
- La validation : la fonction professionnelle reprend sa place
La dernière étape est aussi celle qui réhabilite la fonction professionnelle du documentaliste. Une notice produite par la machine n’est qu’une proposition. C’est le bibliothécaire, le conservateur ou l’archiviste qui valide, corrige, enrichit, et ce travail de validation alimente en retour les modèles, soit par réajustement direct, soit par accumulation d’annotations qui pourront servir à de futurs entraînements. Les outils d’annotation collaborative qui permettent d’organiser ce travail de validation à plusieurs sont nombreux et souvent gratuits. Leur usage rappelle une évidence parfois oubliée dans le discours sur l’automatisation : la machine ne remplace pas le professionnel, elle libère son temps pour des tâches à plus haute valeur ajoutée intellectuelle. Cette validation, c’est aussi le moment où s’exerce la justice cognitive (Piron, 2018) : décider qu’un terme wolof n’a pas d’équivalent français évident et qu’il vaut mieux l’omettre que le déformer, c’est un acte de catalogage qu’aucun modèle n’effectuera à la place du professionnel humain.
Ce que ces choix engagent
Si je devais résumer la logique qui a présidé à ces choix d’outils, je dirais ceci : à chaque étape du pipeline, j’ai préféré la solution qui me laissait la possibilité de comprendre ce qui se passait, qui acceptait de tourner sur du matériel modeste, qui était distribuée sous une licence ouverte et qui ne dépendait pas d’une infrastructure cloud propriétaire. Aucun de ces critères pris isolément ne suffit. Ensemble, ils dessinent un cahier des charges pour une intelligence artificielle documentaire qui soit véritablement appropriable par les institutions africaines, qui ne reproduise pas, sous prétexte de modernité, les rapports de dépendance technologique que les vingt dernières années auraient dû nous apprendre à éviter.
Je n’ignore pas que ces choix ont un coût. Les modèles distillés sont moins performants que leurs versions complètes. Les traductions wolof produites en local sont moins fluides que celles d’un modèle commercial accessible par interface de programmation. Le confort d’usage souffre parfois de la frugalité. Mais c’est un compromis assumé, qui me paraît préférable à l’alternative : confier à un prestataire étranger l’indexation du patrimoine artefactuel africain, et accepter que la moindre variation tarifaire ou la moindre décision géopolitique vienne fragiliser l’accès aux collections que nous sommes chargés de conserver pour les générations futures.
Le choix de la frugalité, en intelligence artificielle documentaire, ne se réduit pas à un choix par défaut imposé par le manque de moyens. C’est une orientation qui place la souveraineté technologique des institutions au-dessus de la séduction des solutions clé en main. C’est aussi, plus modestement, un choix professionnel : celui de l’ingénieur documentaire qui veut pouvoir expliquer à ses collègues, à ses tutelles, à ses usagers, ce que fait réellement l’outil qu’il leur propose. À l’heure où le discours sur l’intelligence artificielle est saturé de promesses, cette exigence de lisibilité me paraît valoir quelques compromis sur la performance pure.


