Il y a une vingtaine d’années, l’entrée du Web dans nos officines documentaires avait sonné comme une petite révolution domestique. On avait réappris à cataloguer, à référencer, à mettre en réseau ce qui avait si longtemps dormi sur du papier jauni. Aujourd’hui, c’est au tour de l’intelligence artificielle de frapper à la porte et cette fois, elle n’est pas venue seule. Elle a amené avec elle des capacités que même les plus enthousiastes d’entre nous n’auraient pas osé imaginer il y a dix ans. Voici le récit d’une rencontre.
Une vieille question, une réponse nouvelle
Posons-nous d’emblée la question que tout archiviste, bibliothécaire ou documentaliste s’est un jour formulée dans le secret de son magasin de conservation : que faire de ces milliers, parfois ces millions de documents, dont le traitement intellectuel exigerait une armée de spécialistes et plusieurs décennies de labeur patient ? La question n’est pas nouvelle. Elle est, en réalité, aussi vieille que la profession elle-même.
Mais les éléments de réponse, eux, ont singulièrement changé. L’avènement de l’intelligence artificielle dans le champ documentaire ne relève plus du futurisme technologique ni du récit de science-fiction. C’est une réalité opérationnelle, outillée, testée et désormais accessible à des institutions dont les ressources humaines et financières ne rivalisent pas avec celles des grandes bibliothèques nationales des pays industrialisés.
C’est précisément de cela dont il sera question ici : d’une expérience concrète de conception d’un outil logiciel intégrant l’IA pour la gestion archivistique institutionnelle. Non pas pour en livrer la recette, ce n’est pas l’objet de ces lignes, mais pour en partager la philosophie, les ambitions, et quelques-unes des surprises que cette aventure intellectuelle et technique a réservées.
Les Archives, ce continent documentaire toujours à défricher
Commençons par poser le décor. Toute institution, quelle que soit sa nature, publique ou privée, académique ou administrative, nationale ou locale, produit, accumule et conserve des archives. Des documents de toute nature : textes administratifs, correspondances, photographies historiques, rapports d’activités, actes officiels, registres d’état civil, cartes et plans, etc. Un patrimoine documentaire qui, dans la plupart des cas, attend son heure dans des magasins plus ou moins bien équipés, sous-traité à l’entropie naturelle des supports physiques.
Le défi n’est pas seulement quantitatif. Il est aussi qualitatif. Un document non décrit est un document invisible (le sens commun que nous apprîmes à exprimer en jeunesse professionnelle). Un document invisible est un document inutile. Et un document inutile est, à terme, un document condamné. C’est la tragédie silencieuse de bien des fonds d’archives institutionnelles : des richesses documentaires considérables, enfouies sous le poids de leur propre abondance, faute de moyens suffisants pour les mettre en valeur.
À cela s’ajoutent des contraintes spécifiques que l’archiviste de terrain connaît bien : l’hétérogénéité des supports (le papier côtoie le numérique, le microfilm voisine avec l’image numérisée), la diversité linguistique des fonds dans les contextes plurilingues, la dégradation physique accélérée dans certains environnements climatiques, et la quasi-absence d’infrastructures informatiques adaptées. C’est dans ce contexte que l’intelligence artificielle peut jouer un rôle vraiment transformateur, à condition de ne pas perdre de vue les réalités du terrain.
Quand la machine apprend à lire les archives
L’une des contributions les plus immédiatement utiles de l’IA en contexte archivistique est ce qu’on appelle la reconnaissance optique de caractères, plus connue sous son acronyme anglais OCR. Le principe n’est pas nouveau en soi vu que les logiciels de numérisation existent depuis les années 1990. Mais leur capacité à traiter des documents dégradés, des typographies anciennes, des documents multilingues ou des images de mauvaise résolution a longtemps été décevante.
Les approches modernes, combinant des pipelines de prétraitement adaptatif de l’image (amélioration du contraste, réduction du bruit, binarisation noir-blanc , etc.) et des moteurs de reconnaissance entraînés sur des corpus variés, permettent aujourd’hui d’obtenir des résultats significativement meilleurs sur des fonds historiques. Le document scanné cesse d’être une image opaque pour devenir un texte interrogeable, indexable, classifiable.
La classification automatique constitue la deuxième étape de la chaîne. Une fois le texte extrait, des algorithmes d’analyse linguistique permettent d’identifier le type de document, sa période de production, ses thèmes principaux, et de lui attribuer une cote conforme aux normes archivistiques internationales comme l’ISAD(G)¹. Ce qui prenait auparavant des heures à un archiviste expérimenté peut désormais être accompli en quelques secondes avec, bien entendu, une validation humaine indispensable.
La notice archivistique : entre automatisation et responsabilité professionnelle
C’est ici que la question devient philosophiquement intéressante. L’IA peut-elle se substituer à l’archiviste dans la rédaction de la notice descriptive ? La réponse courte est non et la réponse longue est : pas encore, et peut-être jamais complètement.
La description archivistique, telle que codifiée par la norme ISAD(G)², est une opération intellectuelle qui ne se réduit pas à une correspondance mécanique entre des mots-clés et des champs de métadonnées. Elle mobilise une compréhension du contexte de production du document, une connaissance des producteurs, une sensibilité à la dimension patrimoniale et mémorielle des fonds. Ce sont des compétences que l’archiviste développe au fil de son expérience et qu’aucun algorithme, aussi sophistiqué soit-il, ne possède encore de manière intrinsèque, du moins en ma connaissance.
Ce que l’IA peut faire, en revanche, c’est produire une notice préliminaire, c’est-à-dire une proposition documentaire cohérente et structurée, conforme aux standards en vigueur que l’archiviste va ensuite valider, amender, enrichir. Une sorte de premier jet intelligent qui épargne le travail mécanique et libère le professionnel pour les tâches à plus haute valeur ajoutée intellectuelle. L’automatisation au service de l’expertise, et non à sa place.
L’archiviste virtuel, ou l’accès démocratisé au patrimoine documentaire
Voici sans doute la fonctionnalité qui suscite le plus de curiosité et sans doute parfois le plus d’inquiétude chez les professionnels que nous sommes. La possibilité pour un utilisateur de poser une question en langage naturel à une base documentaire et d’obtenir une réponse articulée, sourcée, précise. Ce que les informaticiens appellent la génération augmentée par la récupération ou RAG, selon l’acronyme anglais³.
L’idée est élégante dans sa conception : le système ne génère pas de réponses ex nihilo. Il consulte d’abord le corpus documentaire indexé, identifie les passages les plus pertinents par rapport à la question posée, en utilisant des méthodes statistiques de pondération des termes qui vont bien au-delà de la simple recherche par mot-clé et transmet ces passages à un modèle de langage qui les synthétise en une réponse structurée, en citant ses sources.
Ce point des citations est capital. L’une des faiblesses documentées des grands modèles de langage est ce que les chercheurs nomment joliment « hallucination » ou la tendance à inventer des informations plausibles mais factuellement inexactes⁴. En contexte archivistique, où la vérité factuelle est une exigence déontologique absolue, ce risque est inacceptable. Les dispositifs techniques mis en place pour y remédier (ancrage strict sur le contexte documentaire fourni, obligation de citation, signal d’absence explicite quand aucune source ne répond à la question) constituent autant de garde-fous essentiels à la manifestation, non négociable, de la vérité documentaire..
Une précision qui mérite d’être soulignée : notre système fonctionne également sans connexion internet permanente et sans clé d’accès à un service externe. Dans ce cas, il bascule automatiquement en mode extractif qui consiste en une synthèse des passages les plus pertinents du corpus local, sans génération textuelle externe. Une robustesse opérationnelle qui répond à des contraintes infrastructurelles bien réelles dans de nombreux contextes institutionnels.
La conservation préventive, discipline de l’anticipation
Parmi les apports de l’IA à la gestion archivistique, celui qui touche à la conservation préventive est peut-être le plus précieux sur le plan patrimonial. Anticiper la dégradation d’un document avant qu’elle ne soit irréversible : voilà une ambition que les professionnels du patrimoine écrit portent depuis des décennies, sans toujours disposer des outils pour la concrétiser.
L’application de modèles mathématiques issus de la chimie physique, exemple du modèle d’Arrhenius, formalisé dans la norme ISO 11799:2024 sur les conditions de stockage des archives⁵ et autres documents de bibliothèque, permet de calculer, pour chaque type de support documentaire, une vitesse théorique de dégradation en fonction des paramètres environnementaux : température, humidité relative, acidité. Ces calculs, autrefois réservés aux laboratoires de conservation les mieux équipés, peuvent aujourd’hui être intégrés dans un outil de gestion courant, accessible à tout archiviste muni d’un ordinateur standard.
Le résultat est un tableau de bord de risques servant comme vision instantanée et chiffrée de l’état de santé de ses fonds et qui permet de prioriser les actions de conservation et d’orienter les budgets disponibles là où ils sont le plus nécessaires. Une contribution modeste en apparence, mais qui peut faire la différence entre la sauvegarde et la perte d’un document irremplaçable.
Souveraineté numérique et patrimoine documentaire : une question politique
Je ne voudrais pas conclure ce billet sans aborder une dimension qui me tient particulièrement à cœur, et qui dépasse largement le cadre strictement technique : la question de la souveraineté numérique des institutions patrimoniales.
La plupart des solutions logicielles disponibles pour la gestion des archives sont développées en contexte euro-nord-américain voire australien, hébergées sur des infrastructures cloud situées hors du territoire des institutions utilisatrices, notamment africaines et soumises à des régimes juridiques et commerciaux qui peuvent entrer en tension avec les obligations légales et déontologiques des archivistes. La question des données patrimoniales (qui y accède, dans quelles conditions, sous quelle juridiction) n’est pas une question secondaire, bien au contraire, c’est une question de politique publique et de responsabilité professionnelle.
Le choix d’une architecture fonctionnant en mode local prioritaire, sans dépendance obligatoire à un service cloud externe, sans transmission de données vers des serveurs tiers, et distribué sous une licence autorisant la modification et la redistribution libres⁶, répond directement à ces préoccupations. Ce n’est pas seulement un choix technique. C’est une posture éthique.
Évolution ou révolution ? La question qui ne change pas
Je me retrouve, au terme de ce billet, à me poser la même question que celle qui ouvrait mon billet N° 90 sur la Webibliothéconomie, publié il y a déjà 10 années sur ce même espace : s’agit-il d’une évolution ou d’une révolution ?
La réponse que je donnerais aujourd’hui est la même qu’alors, enrichie d’une décennie d’expérience supplémentaire : cela dépend du professionnel. Pour celui qui aura fait l’effort d’apprivoiser ces outils, de comprendre leur logique, leurs forces et leurs limites, l’IA sera une évolution naturelle de sa pratique, en d’autres termes, un prolongement de compétences déjà constituées, une amplification de capacités déjà exercées. Pour celui qui refusera le dialogue, elle sera effectivement une révolution sous forme d’une disruption venue de l’extérieur, subie plutôt qu’accompagnée.
L’archiviste ou le documentaliste augmenté par l’intelligence artificielle n’est pas un professionnel moindre. C’est un professionnel qui a compris que la machine prend en charge l’énorme que sont l’indexation mécanique/automatique, le repérage statistique, la génération de notices préliminaires,… pour lui laisser l’essentiel : le jugement, la contextualisation, la médiation, la responsabilité intellectuelle et éthique de la mémoire institutionnelle.
Et cela, aucun algorithme ne sait encore le faire totalement, encore moins notre outil endogènement développé qu’est ArchivIA.
« La machine prend en charge l’énorme pour laisser à l’archiviste l’essentiel. »
Notes
- ISAD(G) : Norme générale et internationale de description archivistique, élaborée par le Conseil international des Archives (CIA), 2e édition, 2000. Elle structure la description en six zones (identification, contexte, contenu et structure, conditions d’accès, sources complémentaires, notes) et constitue le référentiel de description le plus utilisé dans les Archives nationales à l’échelle mondiale.
- Ibid. La notice ISAD(G) n’est pas un simple formulaire de saisie, c’est la traduction formalisée d’une compréhension intellectuelle du document et de son contexte de production. Sa rédaction engage la responsabilité professionnelle de l’archiviste.
- RAG ou Retrieval-Augmented Generation : architecture introduite par Lewis et al. (2020) combinant un module de récupération documentaire (retrieval) et un modèle génératif (generation). La version implémentée ici enrichit la récupération d’un moteur de pondération TF-IDF (Term Frequency–Inverse Document Frequency) avec scoring hybride BM25, permettant d’identifier les passages les plus statistiquement pertinents au sein d’un corpus.
- Le phénomène d’hallucination des LLM (Large Language Models) est documenté notamment par Bender et al. (2021) dans leur article « On the Dangers of Stochastic Parrots », et par Ji et al. (2023) dans une revue systématique de la littérature sur le sujet. La métaphore du « perroquet stochastique » (machine générant du texte plausible sans compréhension réelle) est particulièrement parlante pour un public de professionnels de l’information.
- ISO 11799:2003 : Information and documentation. Document storage requirements for archive and library materials. La norme fixe les conditions optimales de température (13-18°C), d’humidité relative (30-50%) et de qualité de l’air pour la conservation des supports documentaires courants. Le modèle d’Arrhenius, issu de la chimie physique, permet de calculer l’impact de chaque degré de température supplémentaire sur la durée de vie théorique d’un support.
- La licence EUPL (European Union Public Licence, v1.2) est une licence open source élaborée par la Commission européenne, compatible avec les principales licences libres (GPL, LGPL, AGPL) et disponible dans les vingt-trois langues officielles de l’Union européenne. Son adoption par des institutions patrimoniales africaines francophones facilite l’appropriation juridique du logiciel et sa redistribution sans contrainte contractuelle envers des acteurs commerciaux tiers.





