N° 103 – Intelligence artificielle comme outil de description bibliographique

Toujours dans le désir de découvrir les possibilités offertes par l’intelligence artificielle dans le cadre de la pratique documentaire professionnelle, intéressons-nous à l’opération de description catalographique spécifique à l’usage du MARC 21. Une première demande a été faite à un outil d’IA, qui est de créer un tableau des principaux champs de description d’un ouvrage avec une colonne montrant leur correspondance aux zones de l’ISBD. Ce tableau pouvant servir comme Template (modèle) de bordereau ou masque de saisie dans un logiciel documentaire qui intègre le format MARC 21.

Définitions sommaires

ISBD : Un jeu de directives standardisées reconnues mondialement (IFLA) pour le catalogage de tout type de matériel publié présent dans les collections de bibliothèques, indépendamment de son format (version de référence 2011)

MARC 21 : Une norme de représentation et de communication d’informations bibliographiques et autres données associées et codifiées pour une interprétation par des systèmes informatiques. Cette norme s’appuie sur la NISO/ANSI Z39.2, facilitant ainsi l’interopérabilité et le partage d’informations entre divers programmes informatiques.

Principaux champs de description bibliographique en MARC 21 et leur correspondance aux zones de l’ISBD

Cliquer sur le lien suivant pour acceder au Tableau des Champs MARC 21 « usuels » de description d’un ouvrage

Explications de l’IA a propos du contenu du tableau :

Champ 110 – Collectivité auteur principal :

  • L’indicateur 1 détermine la forme d’entrée (1 pour forme directe, 2 pour forme inversée).
  • Le sous-champ $a contient le nom de la collectivité.

Champs 336, 337 et 338 – RDA (Resource Description and Access)

  • sont introduits par la RDA pour représenter respectivement le type de contenu (texte, son, image…), le type de support média (ordinateur, audio…), et le type de support matériel (volume, feuille, en ligne…). Ce sont quelques-uns des champs MARC 21 les plus couramment associés à la RDA.
  • Le sous-champ $2 correspond à la source reliée à la liste suivante et il doit être enregistré dans la sous-zone $2 de chaque zone respective : « rdacontent » pour la zone 336 ; « rdamedia » pour la zone 337 ; « rdacarrier » pour la zone 338.
  • Les champs associés à RDA (Resource Description and Access) sont nombreux, car la RDA est un standard de description et d’accès aux ressources utilisé conjointement avec MARC      21.

Champ 500 – Notes

  • est généralement utilisé pour toutes les notes générales concernant l’item catalogué.

 Champ 520 – Résumé :

  • L’indicateur 1 détermine le type de contenu ou le niveau de résumé :
    • 0 – Résumé
    • 1 – Contenu noté
    • 2 – Avis
    • 3 – Récompense
    • 4 – Contenu éditorial
  • Le sous-champ $a contient le texte du résumé ou du contenu noté.
  • Le sous-champ $b, bien que moins couramment utilisé, permet d’ajouter des informations supplémentaires ou d’étendre le résumé.

Champ 651 – Sujet géographique :

  • L’indicateur 1 n’est généralement pas utilisé (d’où le «  »).
  • L’indicateur 2 est généralement défini à 0 pour une entrée « sujet » LCSH (Library of Congress Subject Headings), mais d’autres codes peuvent être utilisés pour d’autres systèmes.
  • Le sous-champ $a contient le nom géographique.

Champ 700 – Personne comme auteur secondaire :

  • L’indicateur 1 est utilisé pour déterminer la forme d’entrée (1 pour forme complète).
  • Le sous-champ $a contient le nom de la personne.

Champ 710 – Collectivité comme auteur secondaire :

  • Comme pour le champ 110, l’indicateur 1 détermine la forme d’entrée.
  • Le sous-champ $a contient le nom de la collectivité.

Champ 773

  • en MARC 21, il est utilisé pour relier un article ou une partie d’une publication à l’ensemble de la publication. C’est souvent utilisé pour les articles de revues ou les chapitres de livres.

Il existe de nombreux autres champs de sujets en MARC 21, notamment pour les sujets chronologiques, les genres/formes, etc. J’ai inclus certains des plus couramment utilisés, mais pour un travail de catalogage complet, il est nécessaire de consulter la documentation MARC 21 pour obtenir une vue d’ensemble.

IA pour l’indexation analytique

Quand l’IA permet d’indexer un document à partir de son résumé (exemple : Le Capital de K. Marx).

À la demande de création de vedettes-matière conformes au fichier d’autorités de la « Library of Congress Subject Headings » et leur encodage dans le champ 650 du MARC 21, ça donne ceci comme réponse :

Pour indexer le résumé donné en respectant les normes des vedettes-matière de la Library of Congress Subject Headings (LCSH) et en utilisant le format MARC 21, voici les vedettes-matière que l’on pourrait créer :

650 _0 $a Capitalism $x Economic aspects.

650 _0 $a Industrial society $x History.

650 _0 $a Political science $x Philosophy.

650 _0 $a Economics $x History $y 19th century.

Avec une explication sommaire du résultat :

Chaque entrée est structurée comme suit : le champ « 650 » indique une vedette-matière ajoutée pour un sujet topique, avec la première sous-zone « _0 » (indicateur de source non spécifié ou de la Library of Congress) suivie de la sous-zone « $a » pour la vedette-matière principale, la sous-zone « $x » pour les subdivisions générales et la sous-zone « $y » pour les subdivisions chronologiques. Cela refléterait un indexage précis pour un ouvrage avec les thèmes indiqués dans le résumé.

  • J’ai procédé au même exercice avec une couverture de livre jointe au narratif du prompt. L’outil d’IA utilisé permet, en effet, d’analyser des textes PDF, mais aussi des fichiers d’image (JPG, PNG,…), comme une couverture de livre, avec donc des possibilités d’opération documentaire automatisée. L’outil ne s’est pas limité au résumé du livre, mais s’est basée sur le contenu de la couverture qu’il priorise comme source principale d’information.
Couverture de livre

Résultat du traitement par l’IA :

Je vais créer une description bibliographique simplifiée en format MARC 21 pour le livre intitulé « Somme archivistique issue d’Afrique et d’ailleurs : Contribution à l’éveil de tous sur l’importance des mémoires documentaires » de l’auteur Antonin Benoît Diouf. Veuillez noter que dans un contexte réel, cette description serait beaucoup plus détaillée et inclurait des champs pour le numéro de contrôle de la bibliothèque, les numéros ISBN, les mentions d’édition, l’adresse de publication, les notes physiques, etc.

 100 1\$a Diouf, Antonin Benoît.

245 10$a Somme archivistique issue d’Afrique et d’ailleurs :$bContribution à l’éveil de tous sur l’importance des mémoires documentaires /$c Antonin Benoît Diouf.

260  \$a [Place of publication not identified] :$b L’Harmattan, $c [Date of publication not identified].

300  \$a [Number of pages not identified] ;$c 24 cm.

490 1\$a Études africaines ;$v Série Culture

650  \0$a Archival materials $x Typology.

650  \0$a Archival materials $x Political aspects.

650  \0$a Information policy.

650  \0$a Archives $x Space management.

650  \0$a Archives $x Economic aspects.

650  \0$a Archives $x Social aspects.

650  \0$a Archives $x Management $x Standards.

650  \0$a Archival science $x Methodology.

650  \0$a Archival science $x Africa.

650  \0$a Documentary heritage $x Africa.

Ce modèle MARC 21 inclut les champs suivants :

    • 100 pour l’auteur principal du livre.
    • 245 pour le titre et la mention de responsabilité (auteur).
    • 260 pour les informations de publication (qui sont inconnues, donc représentées par des espaces réservés).
    • 300 pour la description physique de l’item (nombre de pages, dimensions).
    • 490 pour la série à laquelle l’ouvrage appartient.
    • Des champs 650 multiples pour les vedettes-matière qui reflètent le contenu du livre selon les LCSH.

Cette entrée serait affinée avec des informations spécifiques sur le lieu et la date de publication, l’ISBN, et d’autres éléments standard dans une entrée de catalogue complète.

Incomplétude de la description compréhensible du fait que celle-ci s’est faite à partir de la couverture qui n’est pas une source d’information principale pour le catalogage, d’où l’absence des métadonnées « Lieu » et « Date » de publication par exemple. L’idéal sera alors d’avoir une image de la page de titre du livre, comme source d’information pour l’IA, et pouvoir obtenir plus d’exhaustivité en termes de métadonnées descriptives (une attitude classique de bon catalogueur). De même, pour la zone de description matérielle, faudra-t-il toujours renseigner personnellement les informations concernées.

La même description en Dublin Core encodée en XML

Résultat du traitement par l’IA

Cette structure XML encapsule les métadonnées descriptives du livre en utilisant la norme Dublin Core, qui est largement utilisée pour décrire une variété de ressources. Les balises dc:subject peuvent être répétées pour chaque descripteur, mot-clef, etc., relatif à l’ouvrage.

 

La même description en MARC 21 encodée en XML (MARCXML)

Résultat du traitement par l’IA

Ceci n’est juste qu’un exemple des possibilités offertes par l’IA dans l’accomplissement de notre métier dans la galaxie documentaire, imaginons seulement un instant des applications en contexte bibliothéconomique plus élargi et/ou en archivistique.

Le principal impératif qui doit gouverner un professionnel du secteur qui veut s’appuyer sur l’IA pour se faciliter la tâche, demeure la maitrise de la syntaxe de requête (Prompt), c’est-a-dire, la commande écrite qui permet à l’IA de générer du contenu. Être précis, avec le plus de détails possibles, permet d’affiner les résultats à recevoir en retour.

Un commentaire sur « N° 103 – Intelligence artificielle comme outil de description bibliographique »

Laisser un commentaire