Le livre, de l'imprimé au numérique

Chapter 5

Chapter 53,554 wordsPublic domain

Bernie Lunzer, secrétaire-trésorier de la Newspaper Guild (États-Unis), insiste sur les batailles juridiques faisant rage autour des problèmes de propriété intellectuelle. Ces batailles visent notamment l'attitude des directeurs de publication, qui amènent les écrivains indépendants à signer des contrats particulièrement choquants cédant tous leurs droits au directeur de publication, avec une contrepartie financière ridicule.

Heinz-Uwe Rübenach, de l'Association allemande de directeurs de journaux (Bundesverband Deutscher Zeitungsverleger), insiste lui aussi sur la nécessité pour les entreprises de presse de gérer et de contrôler l'utilisation sur le web des articles de leurs journalistes, et d'obtenir une contrepartie financière leur permettant de continuer à investir dans les nouvelles technologies.

Un problème tout aussi préoccupant est celui de la pression constante exercée sur les journalistes des salles de rédaction, dont le travail doit être disponible à longueur de journée et non plus seulement en fin de journée. Ces tensions à répétition sont encore aggravées par un travail à l'écran pendant huit à dix heures d'affilée. Le rythme de travail et l'utilisation intensive de l'ordinateur entraînent des problèmes de sécurité au travail. Après quelques années de ce régime, des journalistes «craquent» à l'âge de 35 ou 40 ans.

Selon Carlos Alberto de Almeida, président de la Fédération nationale des journalistes au Brésil (FENAJ: Federação Nacional dos Jornalistas), les nouvelles technologies étaient censées rationaliser le travail et réduire sa durée afin de favoriser l'enrichissement intellectuel et les loisirs. En pratique, les professionnels des médias sont obligés d'effectuer un nombre d'heures de travail en constante augmentation. La journée légale de cinq heures est en fait une journée de dix à douze heures. Les heures supplémentaires ne sont pas payées, comme ne sont pas payées non plus celles effectuées le week-end par les journalistes censés être en période de repos.

La numérisation des documents et l'automatisation des méthodes de travail accélèrent le processus de production mais elles entraînent aussi une diminution de l'intervention humaine et donc un accroissement du chômage. Alors qu'auparavant le personnel de production devait retaper les textes du personnel de rédaction, la mise en page automatique permet de combiner les deux tâches de rédaction et de composition.

Etienne Reichel, directeur suppléant de Viscom (Visual Communication), association suisse pour la communication visuelle, démontre que le transfert de données via l'internet et la suppression de certaines phases de production réduisent le nombre d'emplois. Le travail de vingt typographes est maintenant assuré par six travailleurs qualifiés, alors que les entreprises de communication visuelle étaient auparavant génératrices d'emplois. Par contre, l'informatique permet à certains professionnels de s'installer à leur compte, comme c'est le cas pour 30% des salariés ayant perdu leur emploi suite à la restructuration de leur entreprise.

Professeur associé en sciences sociales à l'Université d'Utrecht (Pays- Bas), Peter Leisink précise lui aussi que la rédaction des textes et la correction des épreuves se font désormais à domicile, le plus souvent par des travailleurs ayant pris le statut d'indépendants à la suite de licenciements et de délocalisations ou fusions d'entreprises. «Or cette forme d'emploi tient plus du travail précaire que du travail indépendant», explique-t-il, «car ces personnes n'ont que peu d'autonomie et sont généralement tributaires d'une seule maison d'édition.»

A part quelques cas particuliers mis en avant par les organisations d'employeurs, la convergence multimédia entraîne des suppressions massives d'emplois.

Selon Michel Muller, secrétaire général de la FILPAC (Fédération des industries du livre, du papier et de la communication) en France, les industries graphiques françaises ont perdu 20.000 emplois en dix ans. Entre 1987 et 1996, les effectifs sont passés de de 110.000 à 90.000 salariés. Les entreprises mettent en place des plans sociaux coûteux pour favoriser le reclassement des personnes licenciées, en créant des emplois souvent artificiels, alors qu'il aurait été préférable de financer des études fiables sur la manière d'équilibrer créations et suppressions d'emplois lorsqu'il était encore temps.

Partout dans le monde, de nombreux postes à faible qualification technique sont remplacés par des postes exigeant des qualifications techniques élevées. Les personnes peu qualifiées sont licenciées. D'autres suivent une formation professionnelle complémentaire, parfois auto-financée et prise sur leur temps libre, et cette formation professionnelle ne garantit pas pour autant le réemploi.

Directeur de AT&T, géant des télécommunications aux États-Unis, Walter Durling insiste sur le fait que les nouvelles technologies ne changeront pas fondamentalement la situation des salariés au sein de l'entreprise. L'invention du film n'a pas tué le théâtre et celle de la télévision n'a pas fait disparaître le cinéma. Les entreprises devraient créer des emplois liés aux nouvelles technologies et les proposer à ceux qui sont obligés de quitter d'autres postes devenus obsolètes.

Des arguments bien théoriques alors que le problème est plutôt celui du pourcentage. Combien de créations de postes pour combien de licenciements?

De leur côté, les syndicats préconisent la création d'emplois par l'investissement, l'innovation, la formation aux nouvelles technologies, la reconversion des travailleurs dont les emplois sont supprimés, des conventions collectives équitables, la défense du droit d'auteur, une meilleure protection des travailleurs dans le secteur artistique, et enfin la défense des télétravailleurs en tant que travailleurs à part entière.

LA MUE DES BIBLIOTHÈQUES

[Résumé] «Qu'il me suffise, pour le moment, de redire la sentence classique: "La bibliothèque est une sphère dont le centre véritable est un hexagone quelconque, et dont la circonférence est inaccessible".» Cette citation de Jorge Luis Borges - issue de La bibliothèque de Babel (1941) - pourrait tout aussi bien définir la bibliothèque numérique. La numérisation du patrimoine mondial est en cours, d'abord pour le texte, et ensuite pour l'image et le son, avec la mise en ligne de centaines puis de milliers d'oeuvres du domaine public, de publications littéraires et scientifiques, d'articles, d'images, de bandes sonores et de films, gratuits ou payants selon les documents. De plus, certaines bibliothèques utilisent le web pour faire connaître les joyaux de leurs collections, pendant que d'autres créent des «cyberespaces» pour leurs usagers, avec des bibliothécaires devenus cyberthécaires pour les piloter dans leurs recherches et les orienter sur la toile.

= Des bibliothèques numériques

# De l'imprimé au numérique

La première bibliothèque traditionnelle présente sur le web est la bibliothèque municipale d'Helsinki (Finlande), qui inaugure son site en février 1994. Objectif poursuivi par des générations de bibliothécaires, la diffusion du livre devient enfin possible à vaste échelle.

Fondateur de la bibliothèque numérique Athena, Pierre Perroud insiste en février 1997 sur la complémentarité du texte électronique et du livre imprimé, dans un article de la revue Informatique-Informations (Genève). Selon lui, «les textes électroniques représentent un encouragement à la lecture et une participation conviviale à la diffusion de la culture», notamment pour l'étude de ces textes et la recherche textuelle. Ces textes électroniques «sont un bon complément du livre imprimé - celui-ci restant irremplaçable lorsqu'il s'agit de lire». Mais le livre imprimé reste «un compagnon mystérieusement sacré vers lequel convergent de profonds symboles: on le serre dans la main, on le porte contre soi, on le regarde avec admiration; sa petitesse nous rassure autant que son contenu nous impressionne; sa fragilité renferme une densité qui nous fascine; comme l'homme il craint l'eau et le feu, mais il a le pouvoir de mettre la pensée de celui-là à l'abri du Temps.»

Si certaines bibliothèques numériques naissent directement sur le web, la plupart émanent de bibliothèques traditionnelles. En 1996, la bibliothèque municipale de Lisieux (Normandie, France) lance la Bibliothèque électronique de Lisieux, qui offre les versions numériques d'oeuvres littéraires courtes choisies dans les collections municipales. En 1997, la Bibliothèque nationale de France (BnF) crée Gallica qui, dans un premier temps, propose des images et textes du 19e siècle francophone, à savoir une sélection de 3.000 livres complétée par un échantillon de la future iconothèque numérique. En 1998, la Bibliothèque municipale de Lyon met les enluminures de 200 manuscrits et incunables à la disposition de tous sur son site web. Trois exemples parmi tant d'autres.

# La numérisation des livres

Qui dit bibliothèque numérique dit numérisation, au moins les premiers temps, puisque les livres numériques émanent de livres imprimés. Pour pouvoir être consulté à l'écran, un livre peut être numérisé soit en mode texte soit en mode image.

La numérisation en mode texte consiste d'abord à patiemment saisir le livre sur un clavier, page après page, solution souvent adoptée lors de la constitution des premières bibliothèques numériques, ou alors quand les documents originaux manquent de clarté, pour les livres anciens par exemple. Les années passant, la numérisation en mode texte consiste surtout à scanner le livre en mode image, puis à le convertir en texte grâce à un logiciel OCR (Optical Character Recognition), avec relecture éventuelle à l'écran pour corriger le texte obtenu puisqu'un bon logiciel OCR serait fiable à 99%.

La version informatique du livre ne conserve pas la présentation originale du livre ou de la page. Le livre devient texte, à savoir un ensemble de caractères apparaissant en continu à l'écran. A cause du temps passé au traitement de chaque livre, ce mode de numérisation est assez long, et donc nettement plus coûteux que la numérisation en mode image. Dans de nombreux cas, il est toutefois très préférable, puisqu'il permet l'indexation, la recherche textuelle, l'analyse textuelle, une étude comparative entre plusieurs textes ou plusieurs versions du même texte, etc. C'est la méthode utilisée par exemple par le Projet Gutenberg, fondé dès 1971 et qui propose aujourd'hui la plus grande bibliothèque numérique au format texte, avec des livres relus et corrigés deux fois pour être fiables à 99,9% par rapport à la version imprimée.

La numérisation en mode image consiste à scanner le livre, et correspond donc à la photographie du livre page après page. La présentation originale étant conservée, on peut «feuilleter» le livre à l'écran. La version informatique est en quelque sorte le fac-similé numérique de la version imprimée. C'est la méthode employée pour les numérisations à grande échelle, par exemple pour le programme de numérisation de la Bibliothèque nationale de France (BnF) et la constitution de sa bibliothèque numérique Gallica. La numérisation en mode texte est utilisée en complément pour les tables des matières, les sommaires et les corpus de documents iconographiques, afin de faciliter la recherche textuelle.

Pourquoi ne pas tout numériser en mode texte? La BnF répond en 2000 sur le site de Gallica: «Le mode image conserve l'aspect initial de l'original y compris ses éléments non textuels. Si le mode texte autorise des recherches riches et précises dans un document et permet une réduction significative du volume des fichiers manipulés, sa réalisation, soit par saisie soit par OCR, implique des coûts de traitement environ dix fois supérieurs à la simple numérisation. Ces techniques, parfaitement envisageables pour des volumes limités, ne pouvaient ici être économiquement justifiables au vu des 50.000 documents (représentant presque 15 millions de pages) mis en ligne.» Dans les années qui suivent, Gallica convertit toutefois nombre de ses livres du mode image au mode texte pour permettre les recherches textuelles.

Concepteur de Mot@mot, logiciel de remise en page de fac-similés numériques, Pierre Schweitzer insiste sur l'utilité des deux modes de numérisation. «Le mode image permet d'avancer vite et à très faible coût», explique-t-il en janvier 2001. «C'est important car la tâche de numérisation du domaine public est immense. Il faut tenir compte aussi des différentes éditions: la numérisation du patrimoine a pour but de faciliter l'accès aux oeuvres, il serait paradoxal qu'elle aboutisse à se focaliser sur une édition et à abandonner l'accès aux autres. Chacun des deux modes de numérisation s'applique de préférence à un type de document, ancien et fragile ou plus récent, libre de droit ou non (pour l'auteur ou pour l'édition), abondamment illustré ou pas. Les deux modes ont aussi des statuts assez différents: en mode texte ça peut être une nouvelle édition d'une oeuvre, en mode image c'est une sorte d'"édition d'édition", grâce à un de ses exemplaires (qui fonctionne alors comme une fonte d'imprimerie pour du papier). En pratique, le choix dépend bien sûr de la nature du fonds à numériser, des moyens et des buts à atteindre. Difficile de se passer d'une des deux façons de faire.»

= Un exemple: Gallica

# Un laboratoire en ligne

Gallica - bibliothèque numérique de la BnF (Bibliothèque nationale de France) - est inauguré en octobre 1997 avec des textes et des images du 19e siècle francophone, «siècle de l'édition et de la presse moderne, siècle du roman mais aussi des grandes synthèses historiques et philosophiques, siècle scientifique et technique».

À l'époque, le serveur stocke 2.500 livres numérisés en mode image complétés par les 250 livres numérisés en mode texte de la base Frantext de l'INaLF (Institut national de la langue française, qui deviendra plus tard le laboratoire ATILF - Analyse et traitement informatique de la langue française).

Classés par discipline, ces livres sont complétés par une chronologie du 19e siècle et des synthèses sur les grands courants en histoire, sciences politiques, droit, économie, littérature, philosophie, sciences et histoire des sciences.

Le site propose aussi un échantillon de la future iconothèque numérique, à savoir le fonds du photographe Eugène Atget, une sélection de documents sur l'écrivain Pierre Loti, une collection d'images de l'École nationale des ponts et chaussées - ces images ayant trait aux grands travaux de la révolution industrielle en France -, et enfin un choix de livres illustrés de la bibliothèque du Musée de l'Homme.

Fin 1997, Gallica se considère moins comme une banque de données numérisées que comme un «laboratoire dont l'objet est d'évaluer les conditions d'accès et de consultation à distance des documents numériques». Le but est d'expérimenter la navigation dans ces collections, en permettant le libre parcours du chercheur ou du lecteur curieux.

Début 1998, Gallica annonce 100.000 volumes et 300.000 images pour la fin 1999, avec un accroissement rapide des collections ensuite. Sur les 100.000 volumes prévus, qui représenteraient 30 millions de pages numérisées, plus du tiers concernerait le 19e siècle. Quant aux 300.000 images fixes, la moitié viendrait des départements spécialisés de la BnF (Estampes et photographie, Manuscrits, Arts du spectacle, Monnaies et médailles, etc.), et l'autre moitié de collections d'établissements publics (musées et bibliothèques, Documentation française, École nationale des ponts et chaussées, Institut Pasteur, Observatoire de Paris, etc.) ou privés (agences de presse dont Magnum, l'Agence France- Presse, Sygma, Rapho, etc.).

En mai 1998, la BnF revoit ses espérances à la baisse et modifie quelque peu ses orientations premières. Jérôme Strazzulla, journaliste au quotidien Le Figaro, explique dans un article du 3 juin 1998 que la BnF est «passée d'une espérance universaliste, encyclopédique, à la nécessité de choix éditoriaux pointus».

Dans le même article, le président de la BnF, Jean-Pierre Angremy, rapporte la décision du comité éditorial de Gallica: «Nous avons décidé d'abandonner l'idée d'un vaste corpus encyclopédique de cent mille livres, auquel on pourrait sans cesse reprocher des trous. Nous nous orientons aujourd'hui vers des corpus thématiques, aussi complets que possibles, mais plus restreints. (...) Nous cherchons à répondre, en priorité, aux demandes des chercheurs et des lecteurs.»

Le premier corpus aura trait aux voyages en France, à savoir des textes, estampes et photographies du 16e siècle à 1920, avec mise en ligne prévue en 2000. Les corpus envisagés ensuite concerneront Paris, les voyages en Afrique des origines à 1920, les utopies et enfin les mémoires des Académies des sciences de province.

# Une consultation plus aisée

Professeur à l'École pratique des hautes études (EPHE, Paris-Sorbonne) et adepte depuis toujours de la lecture sur PDA (puis sur smartphone), Marie-Joseph Pierre raconte en novembre 2002: «Cela m'a pas mal servi pour mon travail, ou pour mes activités associatives. Je fais par exemple partie d'une petite société poétique locale, et nous faisons prochainement un récital poétique. J'ai voulu rechercher des textes de Victor Hugo, que j'ai maintenant pu lire et même charger à partir du site de la Bibliothèque nationale de France: c'est vraiment extra.»

En 2003, Gallica rassemble 70.000 ouvrages et 80.000 images allant du Moyen-Âge au début du 20e siècle, tous documents libres de droits. Mais, de l'avis de nombreux usagers, les fichiers des livres sont très lourds puisqu'ils sont numérisés en mode image, et l'accès en est très long.

Chose tout aussi problématique, la numérisation en mode image n'autorise pas la recherche textuelle alors que Gallica se trouve être la plus grande bibliothèque numérique francophone en nombre de titres disponibles en ligne. La recherche textuelle est toutefois possible dans les tables des matières, les sommaires et les légendes des corpus iconographiques, qui sont numérisés en mode texte. Mais seule une petite collection de livres (1.117 livres en février 2004) est intégralement numérisée en mode texte, celle de la base Frantext, intégrée à Gallica.

Tous problèmes auxquels la BnF remédie au fil des mois, avec une navigation plus aisée et la conversion progressive des livres du mode image au mode texte grâce à un logiciel OCR, avec possibilité donc de recherche textuelle.

En février 2005, Gallica compte 76.000 ouvrages. À la même date, la BnF annonce la mise en ligne prochaine (entre 2006 et 2009) de la presse française parue entre 1826 et 1944, à savoir 22 titres représentant 3,5 millions de pages.

Début 2006, les premiers journaux disponibles en ligne sont les quotidiens Le Figaro (fondé en 1826), La Croix (fondée en 1883), L'Humanité (fondée en 1904) et Le Temps (fondé en 1861 et disparu en 1942).

En décembre 2006, les collections comprennent 90.000 ouvrages numérisés (fascicules de presse compris), 80.000 images et des dizaines d'heures de ressources sonores.

# Une diffusion mondiale

En novembre 2007, la BnF annonce la numérisation de 300.000 ouvrages supplémentaires d'ici 2010, à savoir 45 millions de pages qui seront accessibles sur son nouveau site, simultanément en mode image et en mode texte.

Le site compte 3 millions de visites en 2008 et 4 millions de visites en 2009. On en prévoit le double pour 2010.

En mars 2010, Gallica franchit la barre du million de documents - livres, manuscrits, cartes, images, périodiques (presse et revues), fichiers sonores (paroles et musiques) et partitions musicales - dont la plupart sont accessibles gratuitement sur un site dont l'interface n'a cessé de s'améliorer au fil des ans.

Si les documents sont en langue française dans leur très grande majorité, on trouve aussi des documents en anglais, en italien, en allemand, en latin ou en grec selon les disciplines.

En octobre 2010, Gallica offre 1,2 million de documents, une interface quadrilingue (français, anglais, espagnol, portugais), la possibilité de créer un espace personnel, une vignette exportable pour consulter des images sur son site ou son blog et un lecteur exportable pour y consulter les livres.

Bruno Racine, président de la BnF, et Steve Balmer, PDG de Microsoft, signent le 7 avril 2010 un accord pour l'indexation des collections de Gallica dans Bing, le moteur de recherche de Microsoft, ce qui permettra une utilisation planétaire des collections et une meilleure représentation de la langue française et de ses richesses sur une toile multilingue.

= Du bibliothécaire au cyberthécaire

# En 1999

Piloter les usagers sur l'internet, filtrer et organiser l'information à leur intention, créer et gérer un site web, rechercher des documents dans des bases de données spécialisées, telles sont désormais les tâches de nombreux bibliothécaires. C'est le cas de Peter Raggett à l'OCDE (Organisation de coopération et de développement économiques) ou de Bruno Didier à l'Institut Pasteur.

Peter Raggett est sous-directeur (puis directeur) de la Bibliothèque centrale de l'OCDE, renommée ensuite Centre de documentation et d'information (CDI).

Située à Paris, l'OCDE regroupe trente pays membres. Au noyau d'origine, constitué des pays d'Europe de l'Ouest et d'Amérique du Nord, viennent s'ajouter le Japon, l'Australie, la Nouvelle-Zélande, la Finlande, le Mexique, la République tchèque, la Hongrie, la Pologne et la Corée.

Réservée aux fonctionnaires de l'organisation, la bibliothèque permet la consultation de 60.000 monographies et 2.500 périodiques imprimés. En ligne depuis 1996, les pages intranet deviennent une source d'information majeure pour le personnel.

«Je dois filtrer l'information pour les usagers de la bibliothèque, ce qui signifie que je dois bien connaître les sites et les liens qu'ils proposent», explique Peter Raggett en août 1999. «J'ai sélectionné plusieurs centaines de sites pour en favoriser l'accès à partir de l'intranet de l'OCDE. Cette sélection fait partie du bureau de référence virtuel proposé par la bibliothèque à l'ensemble du personnel. Outre de nombreux liens, ce bureau de référence contient des pages recensant les articles, monographies et sites web correspondant aux différents projets de recherche en cours à l'OCDE, l'accès en réseau aux CD-ROM et une liste mensuelle des nouveaux titres.»

Comment Peter voit-il l'avenir de la profession? «L'internet offre aux chercheurs un stock d'informations considérable. Le problème pour eux est de trouver ce qu'ils cherchent. Jamais auparavant on n'avait senti une telle surcharge d'informations, comme on la sent maintenant quand on tente de trouver un renseignement sur un sujet précis en utilisant les moteurs de recherche disponibles sur l'internet. A mon avis, les bibliothécaires auront un rôle important à jouer pour améliorer la recherche et l'organisation de l'information sur le réseau. Je prévois aussi une forte expansion de l'internet pour l'enseignement et la recherche. Les bibliothèques seront amenées à créer des bibliothèques numériques permettant à un étudiant de suivre un cours proposé par une institution à l'autre bout du monde. La tâche du bibliothécaire sera de filtrer les informations pour le public. Personnellement, je me vois de plus en plus devenir un bibliothécaire virtuel. Je n'aurai pas l'occasion de rencontrer les usagers, ils me contacteront plutôt par courriel, par téléphone ou par fax, j'effectuerai la recherche et je leur enverrai les résultats par voie électronique.»

En 1999, Bruno Didier est bibliothécaire à l'Institut Pasteur (Paris), une fondation privée dont le but est la prévention et le traitement des maladies infectieuses par la recherche, l'enseignement et des actions de santé publique.

Séduit par les perspectives qu'offre le réseau pour la recherche documentaire, Bruno Didier crée le site web de la bibliothèque en 1996 et devient son webmestre.