De l'imprimé à Internet

Chapter 10

Chapter 103,492 wordsPublic domain

J'ai déjà rapporté dans un article paru dans le Bulletin des Bibliothèques de France [1997, n° 3, article en ligne] ainsi que dans le Bulletin de l'ABF [Association des bibliothécaires français] [1997, n° 174, sommaire en ligne], comment l'envie de créer une bibliothèque virtuelle avait rapidement fait son chemin depuis ma découverte de l'informatique en 1994 : création d'un bulletin électronique d'informations bibliographiques locales (Les Affiches de Lisieux) en 1994 dont la diffusion locale ne rencontre qu'un très faible écho, puis en 1995 début de la numérisation de nos collections de cartes postales en vue de constituer une photothèque numérique, saisie de nouvelles d'auteurs d'origine normande courant 1995 en imitation (modeste) du projet de l'ABU [Association des bibliophiles universels] avec diffusion sur un BBS [bulletin board service] spécialisé. L'idée du site Internet vient d'Hervé Le Crosnier, enseignant à l'université de Caen et modérateur de la liste de diffusion Biblio-fr, qui monta sur le serveur de l'université la maquette d'un site possible pour la Bibliothèque municipale de Lisieux, afin que je puisse en faire la démonstration à mes élus. La suite logique en a été le vote au budget primitif de 1996 d'un crédit pour l'ouverture d'une petite salle multimédia avec accès public au réseau pour les Lexoviens [habitants de Lisieux]. Depuis cette date un crédit d'entretien pour la mise à niveau des matériels informatiques est alloué au budget de la bibliothèque qui permettra cette année la montée en puissance des machines, l'achat d'un graveur de cédéroms et la mise à disposition d'une machine bureautique pour les lecteurs de l'établissement.... ainsi que la création en ce début d'année d'un emploi jeune pour le développement des nouvelles technologies."

Une autre initiative intéressante est celle de Bibelec (Bibliothèque électronique des étudiants), réalisée par les étudiants de Sciences-Po (Institut d'études politiques, Paris). Lors de sa création, elle se définissait comme la première cyberbibliothèque française en sciences sociales exclusivement réalisée par des étudiants.

Professeur de français, de littérature française et d'applications informatiques à Tokyo (Japon), Patrick Rebollar utilise l'ordinateur pour la recherche et l'enseignement depuis plus de dix ans. En 1994, il a vu apparaître Internet "dans le champ culturel et linguistique francophone" et il a débuté son site web en 1996. Son site comprend notamment une excellente Chronologie littéraire 1848-1914, qui est organisée année après année. Pour chaque année, outre des liens avec le texte intégral des oeuvres publiées cette année-là, on trouve des notes historiques, politiques et sociales, des informations scientifiques, médicales et technologiques, et des informations sur le monde littéraire.

Dans son courrier électronique du 17 juillet 1998, Patrick Rebollar expliquait:

"Pour la Chronologie littéraire, cela a commencé dans les premières semaines de 1997, en préparant un cours sur le roman fin de siècle (19e). Je rassemblai alors de la documentation et m'aperçus d'une part que les diverses chronologies trouvées apportaient des informations complémentaires les unes des autres, et d'autre part que les quelques documents littéraires alors présents dans le Web n'étaient pas présentés de façon chronologique, mais toujours alphabétique. Je fis donc un document unique qui contenait toutes les années de 1848 à 1914, et l'augmentais progressivement. Jusqu'à une taille gênante pour le chargement, et je décidai alors, fin 1997, de le scinder en faisant un document pour chaque année. Dès le début, je l'ai utilisé avec mes étudiants, sur papier ou sur écran. Je sais qu'ils continuent de s'en servir, bien qu'ils ne suivent plus mon cours. J'ai reçu pas mal de courrier pour saluer mon entreprise, plus de courrier que pour les autres activités Web que j'ai développées."

Une des autres activités de Patrick Rebollar sont ses Bookmarks, répertoire très complet des sites francophones, y compris littéraires.

Situé à l'autre bout du monde, à l'Université de Swarthmore (Pennsylvanie, USA), ClicNet est un site culturel et littéraire francophone qui propose 800 liens à des oeuvres de littérature par ordre alphabétique et par sujet, et 2.500 liens à des ressources francophones.

Des bibliothèques numérisent aussi leurs collections anciennes d'images, ce qui permet à celles-ci d'être consultées par tous et non plus seulement par un petit nombre d'élus du fait de la valeur et de la fragilité des originaux. La Bibliothèque municipale de Lyon par exemple met ses enluminures à la disposition du public. Constituée aujourd'hui de 3.000 images, sa collection d'enluminures présentera à terme plus de 10.000 images correspondant à 200 manuscrits et incunables, sur une période allant du 5e siècle à la Renaissance. Le système utilisé est le SGBI (Système de gestion de banques d'images) créé par la Maison de l'Orient à Lyon, sous l'égide du CNRS (Centre national de la recherche scientifique) et de l'Université Lyon 2.

"Chaque document, signalé par son auteur, son titre et son siècle de réalisation, représente une entité. Par un double clic sur l'entité choisie, on accède à un écran qui permet de feuilleter les images du document. Chaque écran peut comporter 9 imagettes, correspondant à des objets-images. Lorsque le document comporte davantage d'objets-images, des flèches permettent d'accéder aux objets-images suivants. Chaque objet-image peut comprendre plusieurs images, leur nombre étant indiqué sous chaque objet-image. Un double-clic sur une imagette permet de voir l'image agrandie. Dans une seconde étape, une interrogation multicritères sera possible."

Des bases de données textuelles sont accessibles par abonnement payant, par exemple FRANTEXT et l'ARTFL Project.

FRANTEXT, présent sur le Web depuis début 1995, est préparé par l'Institut national de la langue française (INaLF), une branche du CNRS (Centre national de la recherche scientifique). La base comprend, en mode interactif, 180 millions de mots-occurrences résultant du traitement informatique d'une collection représentative de 3.500 unités textuelles en arts, sciences et techniques couvrant cinq siècles (16e-20e siècles). Début 1998, 82 centres de recherche et bibliothèques universitaires d'Europe, d'Australie, du Japon et du Canada étaient abonnés, ce qui représentait 1.250 postes de travail ayant accès à FRANTEXT. Le nombre de sessions d'interrogations de la base était d'une cinquantaine par jour.

Christiane Jadelot, ingénieur d'études à l'INaLF-Nancy, expliquait dans son courrier électronique du 8 juin 1998:

"Les premières pages sur l'INaLF ont été mises sur l'Internet au milieu de l'année 1996, à la demande de Robert Martin, directeur de l'INaLF. Je peux en parler, car j'ai participé à la mise sous Internet de ces pages, avec des outils qui ne sont pas comparables à ceux que l'on utilise aujourd'hui. J'ai en effet travaillé avec des outils sous UNIX, qui n'étaient pas très faciles d'utilisation. Nous avions peu d'expérience de la chose, à l'époque, et les pages étaient très verbeuses. Mais la direction a senti la nécessité urgente de nous faire connaître par l'Internet, que beaucoup d'autres entreprises utilisaient déjà pour promouvoir leurs produits. Nous sommes en effet Unité de recherche et de service et nous avons donc à trouver des clients pour nos produits informatisés, le plus connu d'entre eux [étant] la base textuelle FRANTEXT. Il me semble que la base FRANTEXT était déja sur Internet [depuis début 1995], ainsi qu'une maquette du tome 14 du TLF [Trésor de la langue française]. Il était donc nécessaire de faire connaître l'ensemble de l'INaLF par ce moyen. Cela correspondait à une demande générale."

Comme l'indique Christiane Jadelot, l'INaLF prépare également la version en ligne du Trésor de la langue française (TLF) (Jean Nicot, 1606), dont une maquette est disponible sur le Web pour les lettres Q à S. L'oeuvre complète du TLF est disponible sur le site de l'ARTFL Project, avec recherche textuelle possible par mot ou portion de texte.

Dans son courrier électronique du 11 juin 1998, Arlette Attali indiquait les changements qu'Internet a apporté dans sa vie professionnelle:

"Etant moi-même plus spécialement affectée au développement des bases textuelles à l'INaLF, j'ai été amenée à explorer les sites du Web qui proposaient des textes électroniques et à les "tester". Je me suis donc transformée en 'touriste textuelle' avec les bons et mauvais côtés de la chose. La tendance au zapping et au survol étant un danger permanent, il faut bien cibler ce que l'on cherche si l'on ne veut pas perdre son temps. La pratique du Web a totalement changé ma façon de travailler: mes recherches ne sont plus seulement livresques et donc d'accès limité, mais elles s'enrichissent de l'apport des textes électroniques accessibles sur Internet.

[A l'avenir je pense] contribuer à développer des outils linguistiques associés à la base FRANTEXT et à les faire connaître auprès des enseignants, des chercheurs, des étudiants et aussi des lycéens."

En janvier 1998, elle a mené une enquête auprès des utilisateurs de FRANTEXT en Europe, en Australie, au Japon et au Canada pour mieux connaître ses utilisateurs. Les résultats de cette enquête sont disponibles en ligne.

L'ARTFL Project (ARTFL: American and French Research on the Treasury of the French Language) est un projet commun du CNRS (Centre national de la recherche scientifique, France) et de l'Université de Chicago (Illinois, USA), qui vise à constituer une base de données de 2.000 textes du 13e au 20e siècle concernant la littérature, la philosophie, les arts ou les sciences.

L'ARTFL travaille aussi à la version en ligne exhaustive de la première édition (1751-1772) de l'Encyclopédie ou Dictionnaire raisonné des sciences, des métiers et des arts de Diderot et d'Alembert. 72.000 articles écrits par plus de 140 collaborateurs (dont Voltaire, Rousseau, d'Alembert, Marmontel, d'Holbach, Turgot, etc.) ont fait de cette encyclopédie un monumental ouvrage de référence. Destinée à rassembler puis divulguer les connaissances de l'époque, elle porte la marque des courants intellectuels et sociaux du 18e siècle, et c'est grâce à elle qu'ont été propagées les idées du Siècle des Lumières.

Les chiffres sont éloquents quant à l'ampleur du travail: l'Encyclopédie comprend 17 volumes de texte et 11 volumes de planches, 18.000 pages de texte et 20.736.912 mots. La base de données correspondant au premier volume est accessible en ligne à titre expérimental. La recherche peut être effectuée par mot, portion de texte, auteur ou catégorie, ou par la combinaison de ces critères entre eux. On dispose de renvois d'un article à l'autre, et des liens permettent d'aller d'une planche au texte, ou du texte au fac-similé des pages originales. L'automatisation complète des procédures de saisie a entraîné quelques erreurs typographiques et des erreurs d'identification qui seront corrigées plus tard. La recherche d'images par mot, portion de texte ou catégorie sera également possible à l'avenir.

L'ARTFL travaille aussi à un projet de base de données pour le Dictionnaire de l'Académie française, dont les différentes éditions se sont échelonnées entre 1694 et 1935. Ce projet inclut la saisie, l'édition et le développement d'un moteur de recherche spécifique. Les différentes éditions pourront être combinées dans une seule base de données qui permettra de consulter aussi bien une édition particulière que l'ensemble de celles-ci pour juger de l'évolution d'un terme. Pour le moment, seules deux éditions, la première (1694) et la cinquième (1798) sont disponibles pour une recherche par mot. Une fonction de recherche en texte intégral est prévue par la suite.

Une rubrique présente une liste des autres projets de l'ARTFL, notamment la version image de l'édition de 1740 du Dictionnaire historique et critique de Philippe Bayle, le Roget's Thesaurus de 1911, le Webster's Revised Unabridged Dictionary de 1913, le Thresor de la langue française de Jean Nicot (1606), un projet multilingue sur La Bible comprenant La Bible française de Louis Segond (1910), etc.

7.3. Cyberbibliothèques non francophones

De par la quantité d'oeuvres dactylographiées à cette intention, le Project Gutenberg est la plus ancienne et la plus grande cyberbibliothèque qui existe. Créée en 1971 par Michael Hart aux Etats-Unis, elle a pour but de mettre gratuitement le plus grand nombre possible de textes à la disposition du plus grand nombre possible de lecteurs, à raison d'environ 45 titres par mois. Ses objectifs pour 2001 sont un stock de 10.000 textes littéraires et une transmission de 1.000 milliards de textes électroniques, soit 10.000 livres numériques vers 100 millions de lecteurs.

Le projet débuta en 1971 quand on donna à Michael Hart un compte de 100 millions de dollars de "temps machine" au Materials Research Lab de l'Université d'Illinois (USA). Immédiatement après avoir reçu ce crédit, il décida de le consacrer à la recherche et au stockage des oeuvres conservées dans les bibliothèques. Il décida aussi de stocker des textes électroniques de la manière la plus simple possible, en format ASCII, avec des lettres capitales pour les termes en italique, gras ou soulignés, afin que ces textes puissent être lus quels que soient la machine et le logiciel utilisés.

Cinquante heures environ sont nécessaires pour sélectionner, dactylographier, corriger et mettre en page un texte électronique. La dactylographie des textes est l'oeuvre de volontaires. Un ouvrage de taille moyenne - par exemple un roman de Stendhal ou de Jules Verne - est composé de deux fichiers ASCII.

Le Project Gutenberg inclut trois grands secteurs: la littérature de divertissement (Light Literature), comme Alice au pays des merveilles, Peter Pan ou les Fables d'Esope, la littérature "sérieuse" (Heavy Literature) comme La Bible, les oeuvres de Shakespeare ou Moby Dick, et la littérature de référence (Reference Literature), composée d'encyclopédies et de dictionnaires, par exemple le Thesaurus de Roget.

Sur le site web, Michael Hart explique que la collection de littérature de divertissement est destinée à amener devant l'écran aussi bien un enfant d'âge pré-scolaire qu'une personne du troisième âge. Des enfants ou des grand-parents vont rechercher le texte électronique de Peter Pan après avoir vu Hook au cinéma, ou bien ils lisent Alice au pays des merveilles après l'avoir regardé à la télévision. Pratiquement tous les épisodes de Star Trek ont mentionné des livres qui ont leur correspondant électronique dans le Project Gutenberg (Moby Dick, Peter Pan...). L'objectif est que les gens puissent retrouver des citations qu'ils ont entendues dans des conversations, des films, des musiques, d'autres livres, et ce à l'aide d'une bibliothèque contenant tous ces éléments dans un format facile pour la recherche.

En juillet 1997, le Project Gutenberg fêtait son vingt-sixième anniversaire avec la mise en ligne des Merry Adventures of Robin Hood de Howard Pyle. En septembre 1997, il fêtait son millième texte électronique avec la version anglaise de la Divine comédie de Dante. Dans sa lettre d'information d'octobre 1997, Michael Hart annonçait son intention de compléter la collection d'Oscar Wilde, de "séparer" les oeuvres complètes de Shakespeare en fichiers individuels pour chaque oeuvre, et de mettre en ligne des ouvrages non anglophones.

Outre l'anglais, on trouve quelques oeuvres en allemand, espagnol, français, italien et latin, mais elles ne sont pas encore légion. En janvier 1998, si on lançait une recherche sur les ouvrages disponibles en langue française, on trouvait neuf titres, dont six romans de Stendhal (L'Abbesse de Castro, La Chartreuse de Parme, La Duchesse de Palliano, Le Rouge et le Noir, Les Cenci, Vittoria Accorambani), deux romans de Jules Verne (De la terre à la lune et Le tour du monde en 80 jours) et French Cave Paintings, un ouvrage sur les peintures préhistoriques. A part l'ouvrage sur les cavernes, disponible depuis 1995, tous ces ouvrages n'ont été intégrés à la bibliothèque que début 1997. Si aucun titre de Stendhal n'était disponible en anglais, il existait trois oeuvres de Jules Verne en langue anglaise : 20,000 Leagues Under the Sea (disponible depuis septembre 1994), Around the World in 80 Days (disponible depuis janvier 1994) et From the Earth to the Moon (disponible depuis septembre 1993).

Début septembre 1998, le nombre de titres d'ouvrages en langue française était monté à onze, avec Cyrano de Bergerac, d'Edmond Rostand, disponible depuis mars 1998, et La Révolution française, de Thomas Carlyle, disponible depuis mai 1998.

Une autre importante bibliothèque électronique anglophone est The On-Line Books Page. Créée par John Mark Ockerbloom, ancien étudiant de l'Université Carnegie Mellon (Pittsburgh, Pennsylvanie, USA), elle est un répertoire de livres en accès libre sur Internet, avec un index de 7.000 livres en ligne et des liens vers d'autres répertoires et archives de textes en ligne.

Créées en été 1992 par Paul Southworth et hébergées par l'Information Technology Division de l'Université du Michigan (USA), les ETEXT Archives rassemblent des textes électroniques de toutes sortes, sans juger de leur contenu. L'équipe est entièrement composée de volontaires.

Les ETEXT Archives virent le jour pour combler le manque d'organisation observé dans les archives de documents politiques, périodiques et forums de discussion politiques et sociaux éparpillés dans Usenet, puis elles furent développées pour combler le même manque d'organisation dans l'archivage des magazines électroniques (e-zines) lorsque ceux-ci ont commencé à proliférer sur Internet.

Elles hébergent aussi gratuitement des périodiques, oeuvres de fiction, oeuvres politiques, poétiques, religieuses, etc., à la demande d'auteurs ou d'organismes souhaitant les faire connaître, après avoir sensibilisé les auteurs au respect d'une certaine éthique (pas d'ouvrages pornographiques), aux règles concernant le droit d'auteur et à l'utilisation d'un format lisible par tous (ASCII, HTML, PDF et PostScript). Par contre, le site ne propose pas de liens hypertextes avec d'autres oeuvres ou d'autres sites. Il s'en tient au but fixé, à savoir l'archivage de textes.

Proposée par Logos, une société internationale de traduction dont la maison-mère est à Modène (Italie), la Wordtheque est une bibliothèque multilingue permettant une recherche par mot dans une base de données de plus de 328 millions de termes provenant de romans, documents techniques et traductions dans de nombreuses langues. Les recherches sont possibles par langue, mot, auteur et titre. Le logiciel de recherche documentaire permet aussi l'accès au texte intégral d'oeuvres littéraires du domaine public. Si on souhaite acquérir une de ces oeuvres, un lien permet de la commander en ligne à la cyberlibrairie Amazon.com.

Entre autres outils de travail, Logos propose aussi une base de données de 553 glossaires dans Linguistic Resources, un dictionnaire multilingue de 7,5 millions d'entrées dans Multilingual Dictionary et la conjugaison des verbes en 17 langues dans Conjugation of Verbs.

Logos a été créé par Rodrigo Vergara, un réfugié politique chilien qui a émigré en Italie quand il était étudiant en agronomie pour échapper au régime du général Pinochet. Aujourd'hui, à 45 ans, il dirige une entreprise de traduction offrant des services dans plus de 35 langues, avec un réseau de 300 traducteurs dans le monde et un chiffre d'affaires de 60 millions de FF.

En décembre 1997, Rodrigo Vergara expliquait à Annie Khan, journaliste au Monde:

"Nous voulions que nos traducteurs aient tous accès aux mêmes outils de traduction. Nous les avons donc mis à leur disposition sur Internet, et tant qu'à faire nous avons ouvert le site au public. Cela nous a rendus très populaires, nous a fait beaucoup de publicité. L'opération a drainé vers nous de nombreux clients, mais aussi nous a permis d'étoffer notre réseau de traducteurs grâce aux contacts établis à la suite de cette initiative."

Dans Links to Electronic Book and Text Sites, OmniMedia Digital Publishing propose un répertoire de serveurs de livres et de textes électroniques. Première bibliothèque publique d'Internet et pour Internet, l'Internet Public Library (IPL) dispose de 20.166 documents en ligne soigneusement sélectionnés, catalogués et décrits par son personnel. La Online Book Initiative (OBI) est un projet consistant à rassembler une importante collection de textes du domaine public en format ASCII.

Créée par l'Université Carnegie Mellon (Pittsburgh, Pennsylvanie, USA), l'Universal Library a pour objectif de mettre le plus grand nombre d'ouvrages possibles à la disposition des usagers d'Internet. Elle comprend un index de plus de 5.000 oeuvres en anglais. La moitié de ces oeuvres est reliée au catalogue expérimental de la Library of Congress, si bien que - rêve enfin devenu réalité - les usagers peuvent avoir un accès direct au texte intégral de l'oeuvre à partir de la notice du catalogue.

Une très bonne série de liens vers la littérature anglophone est Literary Resources on the Net. Oeuvre de John Lynch, docteur en littérature anglaise à l'Université de Pennsylvanie (USA), le site propose des ressources littéraires en fonction des catégories suivantes : période classique et biblique, période médiévale, Renaissance, 18e siècle, période romantique, période victorienne anglaise, 20e siècle anglais et irlandais, théâtre et drame, théorie, littérature féminine et féminisme, ethnies et nationalités, autres littératures nationales, bibliographie et histoire du livre, hypertextes et divers.

La Bibliotheca universalis est un des onze projets retenus lors du Sommet du G7 des 13-17 mai 1996. Ce projet de bibliothèque électronique à l'échelon mondial "illustre la nécessité de donner à la société de l'information une ambition culturelle internationale, respectant les diversités culturelles et la pluralité linguistique". Il a "pour ambition de donner accès aux oeuvres principales du patrimoine culturel et scientifique mondial - textes, images, sons - par le biais des technologies multimédias. Il doit ainsi favoriser le dialogue culturel par-delà les frontières et améliorer les services rendus aux utilisateurs." Le projet souhaite proposer une collection universelle à partir des programmes de numérisation existants, avec environnement en réseau, système d'information distribué, fonctions de recherches avancées, et normes communes pour la numérisation des textes, des images et des sons ainsi que pour les protocoles de communication.

Ouvert en 1992, l'Electronic Text Center de l'Université de Virginie (USA) propose la combinaison d'un archivage en ligne au format SGML (standard generalized markup language) de 40.000 textes électroniques en douze langues et des 19.000 illustrations correspondant à ces textes, dont certains sont du domaine public, avec un centre comprenant le matériel informatique et les logiciels permettant la création et l'analyse de texte. French Texts and Language Resources procure des textes français en ligne et sur CD-ROM, et une série de liens menant à d'autres textes électroniques en français.