N° 123 – L’ordre que personne n’a dessiné

Et si l’ordre qui règne dans nos bibliothèques, nos services d’archives, nos centres de documentation, n’avait jamais été véritablement conçu par quiconque ? Et si cet ordre, que nous croyons avoir bâti de nos mains de classificateurs et d’indexeurs, était en réalité une propriété émergente, un phénomène mathématique aussi vieux que les fractales et aussi spontané que la cristallisation du sel dans l’eau ?

La question peut surprendre. Elle m’a moi-même surpris, en travaillant sur l’adaptation de principes issus des sciences exactes aux pratiques documentaires. Trois concepts, tirés de la géométrie fractale, de la théorie du chaos et de la physique des systèmes complexes, m’ont conduit à une conclusion qui devrait intéresser tout professionnel de l’information : nous ne sommes pas les architectes de l’ordre documentaire, nous en sommes les jardiniers.

Le triangle qui se mange lui-même
En 1915, le mathématicien polonais Wacław Sierpiński décrit une figure géométrique étrange : un triangle dont on retire le centre, puis on retire le centre de chaque triangle restant, puis on recommence, à l’infini. Ce qui reste est un objet dont la dimension n’est ni 1 (une ligne) ni 2 (une surface) mais 1,585, un nombre fractal, situé entre les deux. Tout objet fractal possède cette propriété déconcertante : chaque partie, aussi petite soit-elle, reproduit exactement la structure du tout. C’est ce qu’on appelle l’auto-similarité.

Ce nombre de 1,585 n’est pas arbitraire. Il est le résultat d’une opération qui ne peut se résoudre que par le logarithme. À chaque subdivision, le Sierpinski produit 3 copies de lui-même, chacune réduite de moitié. La question « quelle est la dimension de cet objet ? » revient à résoudre l’équation 3 = 2^d, c’est-à-dire : à quelle puissance faut-il élever 2 pour obtenir 3 ? La réponse est d = log(3) / log(2) = 1,585. Le logarithme est ici irremplaçable : c’est le seul outil algébrique capable d’extraire un exposant inconnu. Ce qui signifie que la complexité structurelle d’un objet fractal, qu’il soit géométrique ou documentaire, ne se mesure que par le logarithme.

Or, les systèmes documentaires sont des fractales. La classification Dewey en est l’exemple le plus limpide : la classe 500 (Sciences) contient 510 (Mathématiques), qui contient 512 (Algèbre), qui contient 512.3 (Algèbre linéaire). Chaque niveau de subdivision reproduit la logique du niveau supérieur. Un thésaurus fonctionne de même : terme générique, terme spécifique, terme encore plus spécifique, toujours la même structure de ramification, répétée à chaque étage. Une arborescence de fichiers sur un serveur d’archives, un plan de classement dans un cabinet juridique, un cadre de classement archivistique : tous sont des fractales.

Ce constat n’est pas qu’esthétique, il a des conséquences opérationnelles.

Prenons un fonds classifié en Dewey. Si vous comptez les documents dans chacune des dix grandes classes et que trois d’entre elles sont à zéro (rien en 200-Religion, rien en 400-Langues, rien en 700-Arts, par exemple), votre classification ressemble visuellement à un triangle de Sierpinski avec des triangles manquants, des trous. Ces trous, quand vous les regardez dans un tableau Excel, ne sont que des zéros parmi d’autres chiffres. Quand vous les visualisez comme un fractal, ils deviennent des lacunes structurelles immédiatement repérables. L’œil comprend ce que le tableur noie.

La profondeur de votre thésaurus raconte aussi une histoire fractale. Un thésaurus à deux niveaux (12 termes génériques, 85 termes spécifiques) a une dimension fractale faible : c’est un outil rudimentaire. Un thésaurus à cinq niveaux (12 termes génériques se ramifiant en 85, puis 340, puis 720, puis 180 termes) a une dimension fractale élevée : c’est un instrument de précision. Le ratio de branchement (combien de termes spécifiques pour chaque terme générique) est l’équivalent documentaire du rapport de subdivision du Sierpinski. Si ce ratio chute brutalement au dernier niveau (180 termes au niveau 5 contre 720 au niveau 4), le thésaurus est « tronqué » : la spécialisation s’arrête là où elle devrait continuer.

Pour un plan de classement personnalisé, celui d’un centre de documentation spécialisé ou d’un fonds d’archives par exemple, l’analyse fractale permet de calculer l’indice de Gini de la répartition (mesure de l’inégalité) et de tester si la loi de Pareto s’applique (est-ce que 20% des catégories contiennent 80% des documents ?). Ces mesures transforment une intuition vague (« il me semble que notre fonds est déséquilibré ») en un diagnostic chiffré.

Le hasard qui dessine des cathédrales
Le deuxième pan du triptyque est le plus spectaculaire. On l’appelle le « jeu du chaos » et il a été formalisé par Michael Barnsley dans les années 1980.

Le principe est d’une simplicité désarmante : placez un point au hasard sur une feuille. Choisissez au hasard l’un des trois sommets d’un triangle. Déplacez votre point à mi-chemin entre sa position actuelle et le sommet choisi. Recommencez. Après 50 points, vous ne voyez rien, du bruit, du hasard pur. Après 500 points, une vague forme commence à se dessiner. Après 5 000 points, le triangle de Sierpinski apparaît dans toute sa netteté. Personne ne l’a dessiné. Aucune intelligence n’a guidé le processus. L’ordre a émergé du chaos, spontanément, inévitablement.

C’est exactement ce qui se passe dans une bibliothèque.

Chaque emprunt est un « point aléatoire ». L’usager qui se présente au bureau de prêt un mardi après-midi choisit un document selon un besoin qui lui est propre, qui dépend de son humeur, de son programme, de ce qu’il a trouvé en rayonnage. Vu individuellement, chaque emprunt est imprévisible. Mais accumulez 10 000 emprunts sur un an, et des lois implacables apparaissent : Zipf (quelques titres sont massivement empruntés, l’écrasante majorité ne l’est qu’une ou deux fois), Bradford (la majorité des consultations se concentre sur un petit nombre de revues), Pareto (20% des collections génèrent 80% de l’activité). Personne n’a programmé ces lois. Elles émergent, seules, de la somme des comportements individuels. C’est le jeu du chaos à l’œuvre, dans nos salles de lecture.

J’ai voulu pousser cette analogie au-delà de la métaphore, en créant un outil qui permet aux gestionnaires documentaires de saisir leurs propres données d’emprunts et de vérifier si ces lois se manifestent dans leur contexte. Trois scénarios ont été conçus pour cela.

Le premier porte sur les emprunts ou consultations par catégorie. Vous saisissez vos chiffres réels (par exemple : Sciences sociales 342, Littérature 287, Technologies 156, Arts 73, Religion 28…) et l’outil calcule deux choses : le coefficient de variation de Zipf (si le produit rang × fréquence est constant, Zipf est vérifié) et le ratio Pareto (combien de catégories faut-il pour atteindre 80% de l’usage total). Si l’on constate que 3 catégories sur 8 concentrent 80% des emprunts, le professionnel dispose d’un argument quantifié pour orienter sa politique d’acquisition.

Le deuxième scénario porte sur les requêtes OPAC. Les termes de recherche que les usagers saisissent dans le catalogue en ligne suivent-ils une distribution de Zipf ? Si oui, cela signifie que quelques termes dominent massivement et méritent des pages de résultats enrichies (bibliographies thématiques, guides de recherche). Si non, la distribution est plus uniforme et l’effort d’indexation doit être réparti.

Le troisième scénario porte sur la fréquentation par créneau horaire, jour de la semaine ou mois de l’année. Le coefficient de variation de la fréquentation indique si les pics et les creux sont marqués ou non. Si le mardi matin concentre 4 fois plus de visiteurs que le samedi après-midi, c’est un argument chiffré pour adapter les horaires d’ouverture et la répartition du personnel, chose que les tutelles comprennent mieux qu’un simple « on a l’impression que le samedi c’est calme ».

Ce que le catalogue sait et que personne n’a écrit
Le troisième concept du triptyque est peut-être le plus profond. L’émergence, en philosophie des sciences et en physique des systèmes complexes, désigne l’apparition de propriétés globales qui n’existent dans aucune composante prise isolément. Une molécule d’eau n’est pas « humide ». L’humidité est une propriété émergente de milliards de molécules interagissant ensemble. De la même manière, une notice bibliographique n’est pas un « savoir ». Le savoir est une propriété émergente d’un catalogue de milliers de notices interconnectées par des sujets, des auteurs, des citations et des co-occurrences.

Ce point mérite qu’on s’y arrête, parce qu’il renverse une conception courante de notre métier. Nous avons tendance à penser que l’intelligence d’un système documentaire réside dans la qualité de chaque notice individuelle, une bonne indexation, une description complète, un résumé bien rédigé. C’est vrai, mais c’est insuffisant. L’intelligence du système réside dans les relations entre les notices, et ces relations ne sont pas saisies par un catalogueur : elles émergent de la masse des métadonnées.

Trois scénarios d’analyse ont été conçus pour rendre cette émergence visible et mesurable.

Le premier détecte les clusters thématiques dans un fonds documentaire. Vous saisissez des documents avec leur sujet principal et leurs sujets secondaires (par exemple : « Introduction à Python » → Informatique, Programmation, IA ; « Machine Learning » → IA, Informatique, Statistiques ; « Statistiques appliquées » → Statistiques, Mathématiques). L’outil détecte automatiquement que « Informatique », « IA » et « Statistiques » forment un cluster, liées par des documents communs, tandis que « Droit » et « Sciences politiques » forment un autre cluster, séparé du premier. Personne n’a dessiné ces clusters. Ils ont émergé de la structuration thématique des notices. Le nombre de clusters, leur taille relative et leur interconnexion racontent l’histoire de votre fonds mieux qu’un rapport statistique.

Le deuxième scénario construit le réseau sémantique émergent des co-occurrences de mots-clés. Vous saisissez des paires de mots-clés apparaissant ensemble dans vos notices (« IA » + « Données » : 45 co-occurrences ; « IA » + « Éthique » : 23 ; « Données » + « Vie privée » : 31). L’outil dessine le réseau en cercle, calcule la centralité de chaque nœud (nombre de connexions) et identifie les « hubs sémantiques », ces mots-clés qui servent de ponts entre domaines thématiques. Le mot-clé le plus central est le « carrefour » de votre fonds, celui qui relie le plus de domaines entre eux. C’est un terme à privilégier dans l’indexation et les recommandations, une information que seule l’analyse de l’émergence peut révéler.

Le troisième scénario détecte les profils émergents d’usagers. Vous saisissez pour chaque usager trois indicateurs : emprunts physiques par mois, consultations numériques par mois, heures passées en bibliothèque. L’outil classifie automatiquement chaque usager dans un profil émergent : « Emprunteur physique » (beaucoup d’emprunts, peu de numérique), « Usager numérique » (peu d’emprunts, beaucoup de consultations en ligne) ou « Résident bibliothèque » (longues heures sur place, usage mixte). Ces profils n’ont été définis par personne. Ils émergent de la distribution naturelle des comportements. Connaître ces profils permet d’adapter les services : plus de postes numériques et un bon Wi-Fi pour les uns, des espaces de lecture confortables et silencieux pour les autres, un réassort rapide du fonds physique pour les derniers.

Le bibliothécaire jardinier
La leçon commune de ces trois phénomènes, fractale, chaos et émergence, tient en une phrase : les bonnes règles locales produisent l’ordre global. Le triangle de Sierpinski n’est pas dessiné par un architecte : il est engendré par une règle de subdivision répétée. Le jeu du chaos ne suit aucun plan : il obéit à une règle de déplacement à mi-chemin. Les clusters émergents ne sont pas conçus : ils apparaissent quand chaque notice est correctement indexée.

Pour les professionnels de l’information documentaire, la conclusion opérationnelle est celle-ci : vous ne pouvez pas, vous ne devez pas essayer de concevoir un système documentaire optimal « du sommet ». C’est trop complexe. Ce que vous pouvez faire, et c’est votre génie propre, c’est poser les bonnes règles locales : une politique d’indexation cohérente, une classification adaptée, une interconnexion systématique des notices, une signalétique qui facilite le vagabondage. À partir de là, l’ordre global émerge de lui-même. Les lois de Zipf, Bradford et Pareto apparaissent dans vos statistiques d’usage. Les clusters thématiques se forment dans votre catalogue. Les profils d’usagers se dessinent dans vos données de prêt.

Le rôle du professionnel passe alors d’architecte omniscient à jardinier de l’émergence. Il ne dessine pas le jardin feuille par feuille : il prépare le sol, plante les graines aux bons endroits, installe le système d’irrigation, et laisse la nature (mathématique) faire le reste.

Et si c’était ça, finalement, la bibliothéconomie du XXIe siècle ?

L	M	M	J	V	S	D
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

	Les bibliothèques pu… dans N° 110 – L’intelligence…
	amonnoyeur dans N° 110 – L’intelligence…
	Alkhna DRAME dans N° 103 – Intelligence artifici…
	Veille et sensibilis… dans N° 103 – Intelligence artifici…
	A. B. DIOUF dans N° 98 – Discours sur la…

L	M	M	J	V	S	D
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

	Les bibliothèques pu… dans N° 110 – L’intelligence…
	amonnoyeur dans N° 110 – L’intelligence…
	Alkhna DRAME dans N° 103 – Intelligence artifici…
	Veille et sensibilis… dans N° 103 – Intelligence artifici…
	A. B. DIOUF dans N° 98 – Discours sur la…

Partager :

Articles similaires

Laisser un commentaire Annuler la réponse.