Chapter 6
Hébergée par l’Université Carnegie Mellon (Pittsburgh, Pennsylvanie, Etats-Unis), l’Universal Library insiste sur les trois avantages de la bibliothèque numérique: 1) elle occupe moins de place qu’une bibliothèque traditionnelle et son contenu peut être copié ou sauvegardé électroniquement; 2) elle est immédiatement accessible à quiconque sur l’internet; 3) comme toute recherche sur son contenu est automatisée, elle permet une réduction significative des coûts de fonctionnement et une meilleure accessibilité des documents.
A titre historique, le site Library 2000 présente un condensé des recherches menées entre octobre 1995 et octobre 1997 par le MIT/LCS (Massachusetts Institute of Technology / Laboratory of Computer Science). Pragmatique, le projet Library 2000 a consisté à étudier pendant deux ans les problèmes posés par le stockage en ligne d’une très grande quantité de documents, puis à développer un prototype sensé économiquement viable en l’an 2000, prototype grâce auquel plusieurs grandes bibliothèques numériques sont mises en ligne à compter de novembre 1997.
En ce qui concerne les images, les problèmes de bande passante s’estompent. Après avoir proposé avec enthousiasme des images en pleine page très agréables à l’oeil mais excessivement longues à apparaître à l’écran, nombreux sont les sites qui optent ensuite pour des images de format réduit, avec possibilité de cliquer ou non sur ces images pour obtenir un format plus grand. Cette présentation reste souvent la norme ensuite, même avec la généralisation de l’internet à débit rapide. Le passage du petit format ou grand format est désormais rapide sinon immédiat, à la grande satisfaction des iconographes, photographes et autres amateurs d’images.
= Numérisation: mode texte ou image
Qui dit bibliothèque numérique dit numérisation. Pour pouvoir être consulté à l’écran, un livre peut être numérisé soit en mode texte soit en mode image.
La numérisation en mode texte implique la saisie d’un texte. Elle consiste à patiemment saisir le livre sur un clavier, page après page, solution souvent adoptée lors de la constitution des premières bibliothèques numériques, ou alors quand les documents originaux manquent de clarté, pour les livres anciens par exemple. Les années passant, la numérisation en mode texte consiste surtout à scanner le livre en mode image, puis à le convertir en texte grâce à un logiciel OCR (optical character recognition), avec relecture éventuelle à l’écran pour corriger le texte obtenu puisqu'un bon logiciel OCR serait fiable à 90%.
La version informatique du livre ne conserve pas la présentation originale du livre ou de la page. Le livre devient texte, à savoir un ensemble de caractères apparaissant en continu à l’écran. A cause du temps passé au traitement de chaque livre, ce mode de numérisation est assez long, et donc nettement plus coûteux que la numérisation en mode image. Dans de nombreux cas, il est toutefois très préférable, puisqu’il permet l’indexation, la recherche et l’analyse textuelles, une étude comparative entre plusieurs textes ou plusieurs versions du même texte, etc. C’est la méthode utilisée par exemple par le Projet Gutenberg, fondé dès 1971, ou encore la Bibliothèque électronique de Lisieux, créée en 1996.
La numérisation en mode image correspond à la photographie du livre page après page. La version informatique est le fac-similé numérique de la version imprimée. La présentation originale étant conservée, on peut feuilleter le texte page après page à l’écran. C’est la méthode employée pour les numérisations à grande échelle, par exemple pour le programme de numérisation de la Bibliothèque nationale de France (BnF) et la constitution de sa bibliothèque numérique Gallica. La numérisation en mode texte est toutefois utilisée pour les tables des matières, les sommaires et les corpus de documents iconographiques, afin de faciliter la recherche textuelle.
Pourquoi ne pas tout numériser en mode texte? La BnF répond en 2000 sur le site de Gallica: «Le mode image conserve l’aspect initial de l’original y compris ses éléments non textuels. Si le mode texte autorise des recherches riches et précises dans un document et permet une réduction significative du volume des fichiers manipulés, sa réalisation, soit par saisie soit par OCR, implique des coûts de traitement environ dix fois supérieurs à la simple numérisation. Ces techniques, parfaitement envisageables pour des volumes limités, ne pouvaient ici être économiquement justifiables au vu des 50.000 documents (représentant presque 15 millions de pages) mis en ligne.»
Concepteur de Mot@mot, logiciel de remise en page de fac-similés numériques, Pierre Schweitzer insiste sur l’utilité des deux modes de numérisation. «Le mode image permet d’avancer vite et à très faible coût, explique-t-il en janvier 2001. C’est important car la tâche de numérisation du domaine public est immense. Il faut tenir compte aussi des différentes éditions: la numérisation du patrimoine a pour but de faciliter l’accès aux oeuvres, il serait paradoxal qu’elle aboutisse à se focaliser sur une édition et à abandonner l’accès aux autres. Chacun des deux modes de numérisation s’applique de préférence à un type de document, ancien et fragile ou plus récent, libre de droit ou non (pour l’auteur ou pour l’édition), abondamment illustré ou pas. Les deux modes ont aussi des statuts assez différents: en mode texte ça peut être une nouvelle édition d’une oeuvre, en mode image c’est une sorte d’"édition d’édition", grâce à un de ses exemplaires (qui fonctionne alors comme une fonte d’imprimerie pour du papier). En pratique, le choix dépend bien sûr de la nature du fonds à numériser, des moyens et des buts à atteindre. Difficile de se passer d’une des deux façons de faire.»
= Gallica
Secteur numérique de la Bibliothèque nationale de France (BnF), Gallica est inauguré en octobre 1997 avec des images et textes du 19e siècle francophone, «siècle de l’édition et de la presse moderne, siècle du roman mais aussi des grandes synthèses historiques et philosophiques, siècle scientifique et technique». A l’époque, le serveur stocke 2.500 livres numérisés en mode image complétés par les 250 livres numérisés en mode texte de la base Frantext de l’INaLF (Institut national de la langue française). Classés par discipline, ces livres sont complétés par une chronologie du 19e siècle et des synthèses sur les grands courants en histoire, sciences politiques, droit, économie, littérature, philosophie, sciences et histoire des sciences. Le site propose aussi un échantillon de la future iconothèque numérique, à savoir le fonds du photographe Eugène Atget, une sélection de documents sur l’écrivain Pierre Loti, une collection d’images de l’Ecole nationale des ponts et chaussées ayant trait aux grands travaux liés à la révolution industrielle en France, et enfin un choix de livres illustrés de la Bibliothèque du Musée de l’homme.
Fin 1997, Gallica se considère moins comme une banque de données numérisées que comme un «laboratoire dont l’objet est d’évaluer les conditions d’accès et de consultation à distance des documents numériques». Le but est d’expérimenter la navigation dans ces collections, en permettant aussi bien le libre parcours du chercheur ou du curieux que des recherches textuelles pointues.
Début 1998, Gallica annonce 100.000 volumes et 300.000 images pour la fin 1999, avec un accroissement rapide des collections ensuite. Sur les 100.000 volumes prévus, qui représenteront 30 millions de pages numérisées, plus du tiers concerne le 19e siècle. Quant aux 300.000 images fixes, la moitié appartient aux départements spécialisés de la BnF (Estampes et photographie, Manuscrits, Arts du spectacle, Monnaies et médailles, etc.). L’autre moitié provient de collections d’établissements publics (musées et bibliothèques, Documentation française, Ecole nationale des ponts et chaussées, Institut Pasteur, Observatoire de Paris, etc.) ou privés (agences de presse dont Magnum, l’Agence France-Presse, Sygma, Rapho, etc.).
Par ailleurs, à la même date, le site bilingue français-anglais de la BnF est à la fois solidement ancré dans le passé et résolument ouvert sur l’avenir, comme en témoigne le menu principal de la page d’accueil, avec ses neuf rubriques: (1) nouveau (à savoir les nouvelles manifestations culturelles); (2) connaître la BnF; (3) les actualités culturelles; (4) les expositions virtuelles (quatre expositions en septembre 1998: les splendeurs persanes, le roi Charles V et son temps, naissance de la culture française, tous les savoirs du monde); (5) des informations pratiques; (6) l’accès aux catalogues de la BnF; (7) l’information professionnelle (conservation, dépôt légal, produits bibliographiques, etc.); (8) la bibliothèque en réseau (Francophonie, coopération nationale, coopération internationale, etc.); (9) les autres serveurs (bibliothèques nationales, bibliothèques françaises, universités, etc.). Bien en vue sur la page d’accueil, un logo permet d’accéder à Gallica.
En mai 1998, la BnF revoit ses espérances à la baisse et modifie quelque peu ses orientations premières. Jérôme Strazzulla, journaliste au Figaro, explique dans l'édition du 3 juin 1998 que la BnF est «passée d’une espérance universaliste, encyclopédique, à la nécessité de choix éditoriaux pointus». Dans le même article, le président de la BnF, Jean-Pierre Angremy, rapporte la décision du comité éditorial de Gallica: «Nous avons décidé d’abandonner l’idée d’un vaste corpus encyclopédique de cent mille livres, auquel on pourrait sans cesse reprocher des trous. Nous nous orientons aujourd’hui vers des corpus thématiques, aussi complets que possibles, mais plus restreints. (...) Nous cherchons à répondre, en priorité, aux demandes des chercheurs et des lecteurs.» Le premier corpus aura trait aux voyages en France, avec mise en ligne prévue en 2000. Ce corpus rassemblera des textes, estampes et photographies du 16e siècle à 1920. Les corpus envisagés ensuite auront les thèmes suivants: Paris, les voyages en Afrique des origines à 1920, les utopies, et les mémoires des Académies des sciences de province.
En 2003, Gallica rassemble 70.000 ouvrages et 80.000 images allant du Moyen-Age au début du 20e siècle, tous documents libres de droits. Mais, de l’avis de nombreux usagers, les fichiers sont très lourds puisque les livres sont numérisés en mode image, et l’accès en est très long. Chose tout aussi problématique, la numérisation en mode image n’autorise pas la recherche textuelle alors que Gallica se trouve être la plus grande bibliothèque numérique francophone du réseau en nombre de titres disponibles en ligne. Seule une petite collection de livres (1.117 livres en février 2004) est numérisée en mode texte, celle de la base Frantext de l'ATILF (Analyse et traitement informatique de la langue française, le laboratoire ayant succédé à l'INaLF), intégrée dans Gallica.
En février 2005, Gallica compte 76.000 ouvrages. A la même date, la BnF annonce la mise en ligne prochaine (entre 2006 et 2009) de la presse française parue entre 1826 et 1944, à savoir 22 titres représentant 3,5 millions de pages. Début 2006, les premiers journaux disponibles en ligne sont les quotidiens Le Figaro (fondé en 1826), La Croix (fondée en 1883), L'Humanité (fondée en 1904) et Le Temps (fondé en 1861 et disparu en 1942).
En décembre 2006, les collections comprennent 90.000 ouvrages numérisés (fascicules de presse compris), 80.000 images et des dizaines d'heures de ressources sonores. Gallica débute la conversion en mode texte des livres numérisés en mode image afin de favoriser l'accès à leur contenu et leur indexation par les moteurs de recherche.
En novembre 2007, la BnF annonce la numérisation de 300.000 ouvrages supplémentaires d'ici 2010, à savoir 45 millions de pages qui seront accessibles sur son nouveau site Gallica2, simultanément en mode image et en mode texte.
1999: LES BIBLIOTHECAIRES DEVIENNENT CYBERTHECAIRES
= [Résumé]
Selon Peter Raggett, bibliothécaire depuis plus de vingt ans, «l’internet offre aux chercheurs un stock d’informations considérable. Le problème pour eux est de trouver ce qu’ils cherchent (en 1999). Jamais auparavant on n’avait senti une telle surcharge d’informations, comme on la sent maintenant quand on tente de trouver un renseignement sur un sujet précis en utilisant les moteurs de recherche disponibles sur l’internet. A mon avis, les bibliothécaires auront un rôle important à jouer pour améliorer la recherche et l’organisation de l’information sur le réseau. (...) La tâche du bibliothécaire sera de filtrer les informations pour le public. Personnellement, je me vois de plus en plus devenir un bibliothécaire virtuel. Je n’aurai pas l’occasion de rencontrer les usagers, ils me contacteront plutôt par courriel, par téléphone ou par fax, j’effectuerai la recherche et je leur enverrai les résultats par voie électronique.»
= Bibliothécaires et internet
Le bibliothécaire-documentaliste voit son activité professionnelle frappée de plein fouet par l'informatique puis par l’internet. Dans les années 1980, l'informatique permet aux bibliothécaires de remplacer des catalogues de fiches sur bristol par des catalogues consultables à l’écran, avec un classement alphabétique ou systématique effectué par la machine. L'informatisation du prêt et des commandes de livres fait disparaître l’impressionnant stock de fiches et bordereaux nécessaires lors des opérations manuelles. L’informatique en réseau permet ensuite la gestion de catalogues collectifs regroupant dans une même base de données les catalogues des bibliothèques de la même région, du même pays ou de la même spécialité, entraînant du même coup des services très facilités pour le prêt inter-bibliothèques et le regroupement des commandes auprès des fournisseurs. Puis les bibliothèques ouvrent un serveur minitel pour la consultation de leur catalogue, désormais disponible au domicile du lecteur. Ces catalogues sont progressivement transférés sur l’internet, avec une consultation plus souple et plus attractive que sur minitel. Outre le catalogue en ligne, les sites web des bibliothèques offrent un ensemble de documents numérisés ou encore un choix de liens hypertextes vers d’autres sites, évitant ainsi aux usagers de se perdre sur la toile.
Selon Olivier Bogros, directeur de la Bibliothèque municipale de Lisieux (Normandie), interviewé en juin 1998, l’internet est «un outil formidable d’échange entre professionnels (tout ce qui passe par le courrier électronique, les listes de diffusion et les forums) (...). C’est aussi pour les bibliothèques la possibilité d’élargir leur public en direction de toute la Francophonie. Cela passe par la mise en ligne d’un contenu qui n’est pas seulement la mise en ligne du catalogue, mais aussi et surtout la constitution de véritables bibliothèques virtuelles.»
La liste de diffusion Biblio-fr est créée en 1993 par Hervé Le Crosnier, professeur à l’Université de Caen (Normandie), à l’intention des «bibliothécaires et documentalistes francophones et [de] toute personne intéressée par la diffusion électronique de l’information documentaire». La liste se veut le regard francophone des documentalistes sur les questions soulevées par le développement de l’internet, par exemple «la diffusion de la connaissance, l’organisation de collections de documents électroniques, la maintenance et l’archivage de l’écrit électronique». Biblio-fr compte 3.329 abonnés le 20 décembre 1998 et 15.136 abonnés le 20 avril 2007. Une autre liste de diffusion est ADBS-info, gérée par l’Association des professionnels de l’information et de la documentation (ADBS), avec 7.699 abonnés le 20 avril 2007.
Des portails sont créés à l’intention des bibliothèques, par exemple Biblio On Line. Jean-Baptiste Rey, son rédacteur et webmestre, relate en juin 1998: «Le site dans sa première version a été lancé en juin 1996. Une nouvelle version (l’actuelle) a été mise en place à partir du mois de septembre 1997. Le but de ce site est d’aider les bibliothèques à intégrer internet dans leur fonctionnement et dans les services qu’elles offrent à leur public. Le service est décomposé en deux parties: (a) une partie "professionnelle" où les bibliothécaires peuvent retrouver des informations professionnelles et des liens vers les organismes, les institutions, et les projets et réalisations ayant trait à leur activité; (b) une partie comprenant annuaire, mode d’emploi de l’internet, villes et provinces, etc... permet au public des bibliothèques d’utiliser le service Biblio On Line comme un point d’entrée vers internet.»
Le site de l’ENSSIB (Ecole nationale supérieure des sciences de l’information et des bibliothèques) héberge la version électronique du Bulletin des bibliothèques de France (BBF), une revue professionnelle bimensuelle dans laquelle «professionnels et spécialistes de l’information discutent de toutes les questions concernant la politique et le développement des bibliothèques et des centres de documentation: évolution par secteur, grands projets, informatisation, technologies de l’information, écrits électroniques, réseaux, coopération, formation, gestion, patrimoine, usagers et publics, livre et lecture...»
Annie Le Saux, rédactrice de la revue, relate en juillet 1998: «C’est en 1996 que le BBF a commencé à paraître sur internet (les numéros de 1995). (...) Nous nous servons beaucoup du courrier électronique pour prendre contact avec nos auteurs et pour recevoir leurs articles. Cela diminue grandement les délais. Nous avons aussi recours au web pour prendre connaissance des sites mentionnés lors de colloques, vérifier les adresses, retrouver des indications bibliographiques dans les catalogues des bibliothèques...»
= Quelques expériences
# En 1999
Avec cette manne documentaire qu’offre désormais l’internet, que vont devenir les bibliothécaires-documentalistes? Vont-ils devenir des cyberthécaires, ou bien vont-ils progressivement disparaître parce que les usagers n’auront tout simplement plus besoin d’eux? A la fin des années 1990, il ne semble pas que la profession soit en danger, au contraire. Piloter les usagers sur l’internet, filtrer et organiser l’information à leur intention, créer et gérer un site web, rechercher des documents dans des bases de données spécialisées, telles sont désormais les tâches de nombreux bibliothécaires. C'est le cas de Peter Raggett à l'OCDE et de Bruno Didier à l'Institut Pasteur.
Peter Raggett est sous-directeur (puis directeur) de la Bibliothèque centrale de l’OCDE (Organisation de coopération et de développement économiques), rebaptisée ensuite Centre d'information et de documentation (CDI).
Située à Paris, l’OCDE regroupe trente pays membres. Au noyau d’origine, constitué des pays d’Europe de l’Ouest et d’Amérique du Nord, viennent s’ajouter le Japon, l’Australie, la Nouvelle-Zélande, la Finlande, le Mexique, la République tchèque, la Hongrie, la Pologne et la Corée.
Réservée aux fonctionnaires de l’organisation, la bibliothèque permet la consultation de 60.000 monographies et 2.500 périodiques imprimés. En ligne depuis 1996, ses pages intranet deviennent une source d’information majeure pour le personnel.
«Je dois filtrer l’information pour les usagers de la bibliothèque, ce qui signifie que je dois bien connaître les sites et les liens qu’ils proposent, explique Peter Raggett en août 1999. J’ai sélectionné plusieurs centaines de sites pour en favoriser l’accès à partir de l’intranet de l’OCDE. Cette sélection fait partie du bureau de référence virtuel proposé par la bibliothèque à l’ensemble du personnel. Outre de nombreux liens, ce bureau de référence contient des pages recensant les articles, monographies et sites web correspondant aux différents projets de recherche en cours à l’OCDE, l’accès en réseau aux CD-ROM et une liste mensuelle des nouveaux titres.»
Comment voit-il l’avenir de la profession? «L’internet offre aux chercheurs un stock d’informations considérable. Le problème pour eux est de trouver ce qu’ils cherchent. Jamais auparavant on n’avait senti une telle surcharge d’informations, comme on la sent maintenant quand on tente de trouver un renseignement sur un sujet précis en utilisant les moteurs de recherche disponibles sur l’internet. A mon avis, les bibliothécaires auront un rôle important à jouer pour améliorer la recherche et l’organisation de l’information sur le réseau. Je prévois aussi une forte expansion de l’internet pour l’enseignement et la recherche. Les bibliothèques seront amenées à créer des bibliothèques numériques permettant à un étudiant de suivre un cours proposé par une institution à l’autre bout du monde. La tâche du bibliothécaire sera de filtrer les informations pour le public. Personnellement, je me vois de plus en plus devenir un bibliothécaire virtuel. Je n’aurai pas l’occasion de rencontrer les usagers, ils me contacteront plutôt par courriel, par téléphone ou par fax, j’effectuerai la recherche et je leur enverrai les résultats par voie électronique.»
En 1999, Bruno Didier est bibliothécaire à l’Institut Pasteur (Paris), une fondation privée dont le but est la prévention et le traitement des maladies infectieuses par la recherche, l’enseignement et des actions de santé publique.
Séduit par les perspectives qu’offre le réseau pour la recherche documentaire, Bruno Didier crée le site web de la bibliothèque en 1996 et devient son webmestre. «Le site web de la bibliothèque a pour vocation principale de servir la communauté pasteurienne, relate-t-il en août 1999. Il est le support d’applications devenues indispensables à la fonction documentaire dans un organisme de cette taille: bases de données bibliographiques, catalogue, commande de documents et bien entendu accès à des périodiques en ligne. C’est également une vitrine pour nos différents services, en interne mais aussi dans toute la France et à l’étranger. Il tient notamment une place importante dans la coopération documentaire avec les instituts du réseau Pasteur à travers le monde. Enfin j’essaie d’en faire une passerelle adaptée à nos besoins pour la découverte et l’utilisation d’internet. (...) Je développe et maintiens les pages du serveur, ce qui s’accompagne d’une activité de veille régulière. Par ailleurs je suis responsable de la formation des usagers, ce qui se ressent dans mes pages. Le web est un excellent support pour la formation, et la plupart des réflexions actuelles sur la formation des usagers intègrent cet outil.»
Son activité professionnelle a changé de manière radicale, tout comme celle de ses collègues. «C’est à la fois dans nos rapports avec l’information et avec les usagers que les changements ont eu lieu, explique-t-il. Nous devenons de plus en plus des médiateurs, et peut- être un peu moins des conservateurs. Mon activité actuelle est typique de cette nouvelle situation: d’une part dégager des chemins d’accès rapides à l’information et mettre en place des moyens de communication efficaces, d’autre part former les utilisateurs à ces nouveaux outils. Je crois que l’avenir de notre métier passe par la coopération et l’exploitation des ressources communes. C’est un vieux projet certainement, mais finalement c’est la première fois qu’on dispose enfin des moyens de le mettre en place.»
# En 2000
En 2000, Bakayoko Bourahima est responsable de la bibliothèque de l'Ecole nationale supérieure de statistique et d’économie appliquée (ENSEA) d’Abidjan (Côte d'Ivoire). L'ENSEA est un établissement qui assure la formation de statisticiens pour les pays africains d’expression française. Son site web est mis en ligne en avril 1999 dans le cadre du réseau REFER, un réseau mis sur pied par l’Agence universitaire de la Francophonie (AUF) pour desservir la communauté scientifique et technique en Afrique, en Asie et en Europe orientale (24 pays participants en 2002).