L'ebook a 40 ans (1971-2011)

Part 7

Chapter 73,619 wordsPublic domain

En mars 2010, Gallica franchit la barre du million de documents - livres, manuscrits, cartes, images, périodiques (presse et revues), fichiers sonores (paroles et musiques) et partitions musicales - dont la plupart sont accessibles gratuitement sur un site dont l'interface désormais quadrilingue (français, anglais, espagnol, portugais) n'a cessé de s'améliorer au fil des ans. Si les documents sont en langue française dans leur très grande majorité, on y trouve aussi des documents en anglais, en italien, en allemand, en latin ou en grec selon les disciplines.

1998 > DES LIVRES NUMÉRISÉS EN QUANTITÉ

[Résumé] En 1998, qui dit livre numérique dit numérisation, la majorité des livres existant seulement en version imprimée. Pour pouvoir être consulté à l'écran, un livre peut être numérisé soit en mode image soit en mode texte, les deux modes de numérisation étant complémentaires. La numérisation en mode image consiste à scanner le livre, et correspond donc à la photographie du livre page après page. La présentation originale étant conservée, on peut feuilleter le livre à l'écran. La version informatique est le fac-similé numérique de la version imprimée. Si elle est plus économique, cette méthode ne permet pas la recherche textuelle. La numérisation en mode texte consiste à scanner le livre en mode image, puis à le convertir en mode texte grâce à un logiciel OCR (Optical Character Recognition). La version informatique du livre ne conserve pas la présentation originale du livre ou de la page mais elle permet la recherche textuelle.

***

En 1998, qui dit livre numérique dit numérisation, la majorité des livres existant seulement en version imprimée.

Pour pouvoir être consulté à l'écran, un livre peut être numérisé soit en mode texte soit en mode image, les deux modes de numérisation étant complémentaires.

# La numérisation en mode texte

Les premiers temps, la numérisation en mode texte consiste à patiemment saisir le livre sur un clavier, page après page, solution souvent adoptée lors de la constitution des premières bibliothèques numériques, ou alors quand les documents originaux manquent de clarté, pour les livres anciens par exemple.

Les années passant, la numérisation en mode texte consiste surtout à scanner le livre en mode image, puis à le convertir en texte grâce à un logiciel OCR (Optical Character Recognition), avec relecture éventuelle à l'écran pour corriger le texte obtenu puisqu'un bon logiciel OCR serait fiable à 99%.

La version informatique du livre ne conserve pas la présentation originale du livre ou de la page. Le livre devient texte, à savoir un ensemble de caractères apparaissant en continu à l'écran. À cause du temps passé au traitement de chaque livre, ce mode de numérisation est assez long, et donc nettement plus coûteux que la numérisation en mode image. Dans de nombreux cas, il est toutefois préférable, puisqu'il permet l'indexation, la recherche textuelle, l'analyse textuelle, une étude comparative entre plusieurs textes ou plusieurs versions du même texte, etc.

C'est la méthode utilisée par exemple par le Projet Gutenberg, fondé dès 1971 et qui propose aujourd'hui la plus grande collection numérique au format texte, avec des livres relus et corrigés à deux reprises pour être fiables à 99,95% par rapport à la version imprimée.

# La numérisation en mode image

La numérisation en mode image consiste à scanner le livre, et correspond donc à la photographie du livre page après page. La présentation originale étant conservée, on peut feuilleter le livre à l'écran. La version informatique est le fac-similé numérique de la version imprimée.

C'est la méthode employée à la fin des années 1990 pour les programmes de numérisation à grande échelle, par exemple celui de la Bibliothèque nationale de France (BnF) pour alimenter sa bibliothèque numérique Gallica. Ne sont numérisés en mode texte que les tables des matières, les sommaires et les corpus de documents iconographiques, afin de faciliter la recherche textuelle.

Pourquoi ne pas tout numériser en mode texte? La BnF répond en 2000 sur le site de Gallica: «Le mode image conserve l'aspect initial de l'original y compris ses éléments non textuels. Si le mode texte autorise des recherches riches et précises dans un document et permet une réduction significative du volume des fichiers manipulés, sa réalisation, soit par saisie soit par OCR, implique des coûts de traitement environ dix fois supérieurs à la simple numérisation. Ces techniques, parfaitement envisageables pour des volumes limités, ne pouvaient ici être économiquement justifiables au vu des 50.000 documents (représentant presque 15 millions de pages) mis en ligne.»

Dans les années qui suivent, Gallica convertira toutefois nombre de ses livres du mode image au mode texte pour permettre les recherches textuelles.

# Chaque mode de numérisation a son utilité

Concepteur de Mot@mot, logiciel de remise en page des fac-similés numériques, Pierre Schweitzer insiste sur l'utilité des deux modes de numérisation. Il explique en janvier 2001: «Le mode image permet d'avancer vite et à très faible coût. C'est important car la tâche de numérisation du domaine public est immense. Il faut tenir compte aussi des différentes éditions: la numérisation du patrimoine a pour but de faciliter l'accès aux oeuvres, il serait paradoxal qu'elle aboutisse à se focaliser sur une édition et à abandonner l'accès aux autres. Chacun des deux modes de numérisation s'applique de préférence à un type de document, ancien et fragile ou plus récent, libre de droit ou non (pour l'auteur ou pour l'édition), abondamment illustré ou pas. Les deux modes ont aussi des statuts assez différents: en mode texte ça peut être une nouvelle édition d'une oeuvre, en mode image c'est une sorte d'"édition d'édition", grâce à un de ses exemplaires (qui fonctionne alors comme une fonte d'imprimerie pour du papier). En pratique, le choix dépend bien sûr de la nature du fonds à numériser, des moyens et des buts à atteindre. Difficile de se passer d'une des deux façons de faire.»

1998 > L'ENCYCLOPÉDIE DE DIDEROT EN LIGNE

[Résumé] Projet commun du Centre national de la recherche scientifique (CNRS, France) et de l'Université de Chicago (Illinois, États-Unis), le Projet ARTFL (American and French Research on the Treasury of the French Language) met en ligne en 1998 la base de données du premier volume (1751) de l'Encyclopédie de Diderot. Cette mise en ligne expérimentale est le prélude à une base de données exhaustive comprenant l'Encyclopédie (1751-1772) dans son entier, à savoir 17 volumes de texte et 11 volumes de planches. Destinée à rassembler puis divulguer les connaissances de l'époque, l'Encyclopédie porte la marque des courants intellectuels et sociaux du Siècle des Lumières. C'est grâce à elle que se propagent les idées nouvelles qui inspireront la Révolution française de 1789. L'ARTFL travaille également à d'autres projets, par exemple à une base de données exhaustive du «Dictionnaire de l'Académie française», dont les différentes éditions s'échelonnent entre 1694 et 1935.

***

En 1998, le Projet ARTFL met en ligne la base de données du premier volume (1751) de l'Encyclopédie de Diderot.

Cette mise en ligne expérimentale est le prélude à une base de données exhaustive comprenant l'Encyclopédie dans son entier, à savoir 17 volumes de texte et 11 volumes de planches.

L'ARTFL (American and French Research on the Treasury of the French Language) est un projet commun du CNRS (Centre national de la recherche scientifique) en France et de l'Université de Chicago dans l'Illinois (États-Unis).

Monumental ouvrage de référence pour les arts et les sciences, la première édition (1751-1772) de l'«Encyclopédie ou Dictionnaire raisonné des sciences, des métiers et des arts» de Diderot et d'Alembert comprend 72.000 articles rédigés par 140 collaborateurs, dont Voltaire, Rousseau, d'Alembert, Marmontel, d'Holbach, Turgot, etc.

Destinée à rassembler puis divulguer les connaissances de l'époque, l'Encyclopédie porte la marque des courants intellectuels et sociaux du Siècle des Lumières. C'est grâce à elle que se propagent les idées nouvelles qui inspireront la Révolution française de 1789. Les 17 volumes de texte représentent 18.000 pages et 21,7 millions de mots. Les 11 volumes de planches présentent des planches techniques de telle qualité que certaines font toujours référence en 2011.

Dans l'Encyclopédie, Diderot explique lui-même que «le but d'une encyclopédie est de rassembler les connaissances éparses sur la surface de la terre, d'en exposer le système général aux hommes avec qui nous vivons et de le transmettre aux hommes qui viendront après nous, afin (...) que nos neveux, devenant plus instruits, deviennent en même temps plus vertueux et plus heureux, et que ne mourions pas sans avoir bien mérité du genre humain.» Un beau texte qui figure aussi sur le mur de l'Allée de l'Encyclopédie, l'une des grandes artères de la Bibliothèque nationale de France (BnF).

La base de données correspondant au premier volume est accessible en ligne à titre expérimental en 1998. La recherche est possible par mot, portion de texte, auteur ou catégorie, ou en combinant ces critères entre eux. On dispose de renvois d'un article à l'autre par le biais de liens hypertextes permettant d'aller d'une planche au texte ou du texte au fac-similé des pages originales.

L'automatisation complète des procédures de saisie entraîne des erreurs typographiques et des erreurs d'identification qui sont corrigées au fil des mois. La recherche d'images est également possible dans un deuxième temps.

L'ARTFL travaille également à une base de données exhaustive du «Dictionnaire de l'Académie française», dont les différentes éditions s'échelonnent entre 1694 et 1935. La première édition (1694) et la cinquième édition (1798) du dictionnaire sont les premières à être disponibles en ligne, avec possibilité de recherche par mot puis par portion de texte. Les différentes éditions sont ensuite combinées dans une base de données unique, qui permet de juger de l'évolution d'un terme en consultant aussi bien une édition donnée que l'ensemble des éditions.

D'autres projets de l'ARTFL concernent par exemple le «Dictionnaire historique et critique» de Philippe Bayle dans son édition de 1740, le «Roget's Thesaurus» de 1911, le «Webster's Revised Unabridged Dictionary» de 1913, le «Thresor de la langue française» de Jean Nicot imprimé en 1606, ou encore un projet biblique multilingue comprenant entre autres «La Bible française» de Louis Segond, publiée en 1910. Il s'agit là encore de bases de données avec moteur de recherche. La technologie au service de la littérature, donc.

1998 > 00h00, ÉDITEUR EN LIGNE

[Résumé] Les éditions 00h00 («zéro heure») sont fondées en mai 1998 par Jean- Pierre Arbon et Bruno de Sa Moreira, en tant que premier éditeur «en ligne», à savoir un éditeur fabriquant des livres numériques et les vendant via l'internet. En 2000, le catalogue comprend 600 titres. Les versions numériques (au format PDF) représentent 85% des ventes, les 15% restants étant des versions imprimées à la demande du client, un service que l'éditeur procure en complément. Sur le site au très beau design, les internautes/lecteurs peuvent créer leur espace personnel pour y rédiger leurs commentaires, participer à des forums, s'abonner à la lettre d'information ou regarder les clips littéraires produits par l'éditeur pour présenter les nouveautés. En septembre 2000, 00h00 est racheté par Gemstar, société américaine de produits et services numériques pour les médias. Gemstar met fin à l'ensemble de ses activités eBook en juin 2003.

***

Les éditions 00h00 font leur apparition en mai 1998, un peu moins de deux ans après CyLibris, premier éditeur électronique commercial.

Le champ d'action de 00h00 est un peu différent de celui de CyLibris puisqu'il s'agit non seulement d'un éditeur électronique mais aussi d'un éditeur «en ligne». Son activité est en effet de fabriquer et vendre des livres numériques via l'internet, et non des livres imprimés comme CyLibris.

En 2000, les versions numériques (au format PDF) représentent 85% des ventes, les 15% restants étant des versions imprimées à la demande du client, un service que l'éditeur procure en complément.

# Les débuts

00h00 («zéro heure») est fondé par Jean-Pierre Arbon et Bruno de Sa Moreira, respectivement ancien directeur général de Flammarion et ancien directeur de Flammarion Multimédia.

Bruno de Sa Moreira explique en juillet 1998: «Aujourd'hui mon activité professionnelle est 100% basée sur internet. Le changement ne s'est pas fait radicalement, lui, mais progressivement (audiovisuel puis multimédia puis internet). (...) La gestation de 00h00 a duré un an: brainstorming, faisabilité, création de la société et montage financier, développement technique du site et informatique éditoriale, mise au point et production des textes et préparation du catalogue à l'ouverture. (...) Nous faisons un pari, mais l'internet me semble un média capable d'une très large popularisation, sans doute grâce à des terminaux plus faciles d'accès que le seul micro-ordinateur.»

# L'internet, «un lieu sans passé»

On lit sur le site web que «la création de 00h00 marque la véritable naissance de l'édition en ligne. C'est en effet la première fois au monde que la publication sur internet de textes au format numérique est envisagée dans le contexte d'un site commercial, et qu'une entreprise propose aux acteurs traditionnels de l'édition (auteurs et éditeurs) d'ouvrir avec elle sur le réseau une nouvelle fenêtre d'exploitation des droits. Les textes offerts par 00h00 sont soit des inédits, soit des textes du domaine public, soit des textes sous copyright dont les droits en ligne ont fait l'objet d'un accord avec leurs ayants droit. (...) Avec l'édition en ligne émerge probablement une première vision de l'édition au 21e siècle. C'est cette idée d'origine, de nouveau départ qui s'exprime dans le nom de marque, 00h00. (...)

Internet est un lieu sans passé, où ce que l'on fait ne s'évalue pas par rapport à une tradition. Il y faut inventer de nouvelles manières de faire les choses. (...) Le succès de l'édition en ligne ne dépendra pas seulement des choix éditoriaux: il dépendra aussi de la capacité à structurer des approches neuves, fondées sur les lecteurs autant que sur les textes, sur les lectures autant que sur l'écriture, et à rendre immédiatement perceptible qu'une aventure nouvelle a commencé.»

# Des collections diverses

Les collections sont diverses: inédits, théâtre classique français, contes et récits fantastiques, contes et récits philosophiques, souvenirs et mémoires, philosophie classique, réalisme et naturalisme, cyberculture, romans d'enfance, romans d'amour, nouvelles et romans d'aventure. Le recherche est possible par auteur, par titre et par genre. Pour chaque livre, on a un descriptif court, un descriptif détaillé, la table des matières et une courte présentation de l'auteur. S'y ajoutent ensuite les commentaires des lecteurs. Pas de stock, pas de contrainte physique de distribution, mais un lien direct avec le lecteur et entre les lecteurs. Sur le site, les internautes/lecteurs peuvent créer leur espace personnel pour y rédiger leurs commentaires, participer à des forums ou recommander des liens vers d'autres sites. Ils peuvent aussi s'abonner à la lettre d'information de 00h00 ou regarder les clips littéraires produits par l'éditeur pour présenter des nouveautés.

En 2000, le catalogue comprend 600 titres, à savoir une centaine d'oeuvres originales et des rééditions électroniques de livres publiés par d'autres éditeurs. Les oeuvres originales sont réparties en plusieurs rubriques: nouvelles écritures interactives et hypertextuelles, premiers romans, documents d'actualité, études sur les NTIC (nouvelles technologies de l'information et de la communication), co-éditions avec des éditeurs traditionnels ou de grandes institutions. Le paiement est fait en ligne grâce à un système sécurisé mis en place par la Banque populaire. Ceux que le paiement en ligne rebute peuvent régler leur commande par carte bancaire (envoi par fax) ou par chèque (envoi par courrier postal).

# Le rachat par Gemstar

En septembre 2000, 00h00 est racheté par Gemstar-TV Guide International, grande société américaine de produits et services numériques pour les médias. Quelques mois auparavant, en janvier 2000, Gemstar rachète les deux sociétés californiennes ayant lancé les premières tablettes de lecture, la société NuvoMedia, créatrice du Rocket eBook, et la société SoftBook Press, créatrice du SoftBook Reader.

Selon un communiqué de presse citant Henry Yuen, président de Gemstar, «les compétences éditoriales dont dispose 00h00 et ses capacités d'innovation et de créativité sont les atouts nécessaires pour faire de Gemstar un acteur majeur du nouvel âge de l'édition numérique qui s'ouvre en Europe.»

La communauté francophone ne voit pas ce rachat d'un très bon oeil, la mondialisation de l'édition semblant justement peu compatible avec l'innovation et la créativité. Moins de trois ans plus tard, en juin 2003, 00h00 cesse définitivement ses activités, tout comme la branche eBook de Gemstar.

Il reste le souvenir d'une belle aventure. En octobre 2006, Jean-Pierre Arbon, devenu chanteur, raconte sur son site: «J'avais fondé, avec Bruno de Sa Moreira, une maison d'édition d'un genre nouveau, la première au monde à tenter à grande échelle l'aventure de l'édition en ligne. Tout était à faire, à inventer. L'édition numérique était terra incognita: on explorait, on défrichait.»

1998 > UN PROLONGEMENT SUR LE WEB POUR LES LIVRES

[Résumé] Murray Suid est l'auteur de livres pédagogiques, de livres pour enfants, d'oeuvres multimédias et de scénarios. Dès septembre 1998, il préconise une solution adoptée depuis par de nombreux auteurs, à savoir compléter ses livres imprimés par une version web, pour pouvoir les actualiser sans attendre une nouvelle édition imprimée. En octobre 2000, l'intégralité de ses oeuvres multimédias, auparavant disponibles sur CD-Rom, est sur le réseau. Le matériel pédagogique auquel il contribue est conçu non plus pour diffusion sur CD-Rom, mais pour diffusion sur le web. D'entreprise multimédia, EDVantage Software, la société de logiciels éducatifs qui emploie Murray, est devenue une entreprise internet qui distribue toutes ses publications en ligne auprès des étudiants et des enseignants.

***

Murray Suid vit à Palo Alto, dans la Silicon Valley, en Californie. Il est l'auteur de livres pédagogiques, de livres pour enfants, d'oeuvres multimédias et de scénarios.

En septembre 1998, il préconise une solution choisie depuis par de nombreux auteurs: «Un livre peut avoir un prolongement sur le web - et donc vivre en partie dans le cyberespace. L'auteur peut ainsi aisément l'actualiser et le corriger, alors qu'auparavant il devait attendre longtemps, jusqu'à l'édition suivante, quand il y en avait une. (...)

Je ne sais pas si je publierai des livres sur le web, au lieu de les publier en version imprimée. J'utiliserai peut-être ce nouveau support si les livres deviennent multimédias. Pour le moment, je participe au développement de matériel pédagogique multimédia. C'est un nouveau type de matériel qui me plaît beaucoup et qui permet l'interactivité entre des textes, des films, des bandes sonores et des graphiques qui sont tous reliés les uns aux autres.»

Un an plus tard, en août 1999, il ajoute: «En plus des livres complétés par un site web, je suis en train d'adopter la même formule pour mes oeuvres multimédias - qui sont sur CD-ROM - afin de les actualiser et d'enrichir leur contenu.»

En octobre 2000, l'intégralité de ses oeuvres multimédias est sur le réseau. Le matériel pédagogique auquel il contribue est conçu non plus pour diffusion sur CD-Rom, mais pour diffusion sur le web. D'entreprise multimédia, EDVantage Software, la société de logiciels éducatifs qui emploie Murray, est devenue une entreprise internet qui distribue désormais toutes ses publications en ligne.

1998 > UN DURCISSEMENT DU COPYRIGHT

[Résumé] Aux États-Unis, un nouvel amendement de la loi sur le copyright réduit encore un peu plus le domaine public, au grand dam de tous ceux qui sont en train de constituer des bibliothèques numériques. Cet amendement est entériné le 27 octobre 1998 par le Congrès pour contrer le formidable véhicule de diffusion qu'est l'internet. Contradiction flagrante, les instances politiques n'ont de cesse de parler d'Âge de l'Information tout en durcissant la réglementation relative à la diffusion de l'information. Le copyright est passé d'une durée de 30 ans en moyenne en 1909 à une durée de 95 ans en moyenne en 1998. En 90 ans, de 1909 à 1998, le copyright a subi une extension de 65 ans qui affecte les trois quarts de la production du 20e siècle. Seul un livre publié avant 1923 peut désormais être considéré avec certitude comme appartenant au domaine public. Un durcissement similaire affecte ensuite l'Union Européenne.

***

En 1998, un nouvel amendement de la loi sur le copyright réduit encore un peu plus le domaine public aux États-Unis. Un durcissement similaire affecte ensuite l'Union européenne.

Cet amendement est entériné le 27 octobre 1998 par le Congrès pour contrer le formidable véhicule de diffusion qu'est l'internet, au grand dam de tous ceux qui sont en train de constituer des bibliothèques numériques.

Les instances politiques n'ont de cesse de parler d'Âge de l'Information tout en réduisant l'accès à cette information. La contradiction est flagrante. Le copyright est passé d'une durée de 30 ans en moyenne en 1909 à une durée de 95 ans en moyenne en 1998. En 90 ans, de 1909 à 1998, le copyright a subi une extension de 65 ans qui affecte les trois quarts de la production du 20e siècle. Seul un livre publié avant 1923 peut désormais être considéré avec certitude comme appartenant au domaine public.

# Une claque pour les bibliothèques numériques

De nombreuses oeuvres censées tomber dans le domaine public restent finalement sous copyright, au grand dam de Michael Hart, fondateur du Projet Gutenberg, de John Mark Ockerbloom, créateur de l'Online Books Page, et de bien d'autres. La législation de 1998 porte un coup très rude aux bibliothèques numériques, en plein essor avec le développement du web. Nombre de titres doivent être retirés des collections.

Pour ne prendre qu'un exemple, le classique mondial «Gone with the wind» (Autant en emporte le vent) de Margaret Mitchell, publié en 1939, aurait dû tomber dans le domaine public au bout de 56 ans, en 1995, conformément à la législation de l'époque, libérant ainsi les droits pour les adaptations en tous genres. Suite aux législations de 1976 et 1998, ce classique ne devrait désormais tomber dans le domaine public qu'en 2035.

Michael Hart explique en juillet 1999: «Le copyright a été augmenté de 20 ans. Auparavant on devait attendre 75 ans, on est maintenant passé à 95 ans. Bien avant, le copyright durait 28 ans (plus une extension de 28 ans si on la demandait avant l'expiration du délai) et, avant cela, le copyright durait 14 ans (plus une extension de 14 ans si on la demandait avant l'expiration du délai). Comme on le voit, on assiste à une dégradation régulière et constante du domaine public. (...) J'ai été le principal opposant aux extensions du copyright, mais Hollywood et les grands éditeurs ont fait en sorte que le Congrès ne mentionne pas mon action en public. Les débats actuels sont totalement irréalistes. Ils sont menés par "l'aristocratie terrienne de l'Âge de l'Information" et servent uniquement ses intérêts. Un Âge de l'Information? Et pour qui?»