Une histoire de l'eBook

Chapter 2

Chapter 23,605 wordsPublic domain

Distributed Proofreaders (DP), lancé en octobre 2000, comptabilise 52.000 volontaires en janvier 2008, avec un nombre total de 11.950 livres traités en sept ans et trois mois. Distributed Proofreaders Europe (DP Europe), lancé en décembre 2003, comptabilise 1.500 volontaires. Distributed Proofreaders Canada (DPC), lancé en décembre 2007, comptabilise 250 volontaires.

Le Projet Gutenberg franchit la barre des 25.000 livres en avril 2008. Le 25.000e livre est "English Book Collectors", de William Younger Fletcher (publié en 1902).

Le Projet Gutenberg comptabilise 32.500 ebooks le 1er mars 2009 pour l'ensemble de ses sites, avec 28.147 ebooks pour le Project Gutenberg USA, 1.750 ebooks pour le Project Gutenberg Australia, 600 ebooks pour le Project Gutenberg Europe et 250 ebooks pour le Project Gutenberg Canada, auxquels il convient d'ajouter les 2.020 ebooks de la section PrePrints. Le Project Gutenberg Consortia Center (PGCC) – qui rassemble des collections de livres numérisés par d'autres sources - comptabilise 75.000 ebooks à la même date.

= Du passé vers l'avenir

Le pari fait par Michael Hart en 1971 est donc réussi, avec une progression assez impressionnante si on pense au nombre de pages relues et corrigées: 10 livres en août 1989, 100 livres en janvier 1994, 1.000 livres en août 1997, 2.000 livres en mai 1999, 3.000 livres en décembre 2000, 4.000 livres en octobre 2001, 5.000 livres en avril 2002, 10.000 livres en octobre 2003, 15.000 livres en janvier 2005, 20.000 livres en décembre 2006 et 25.000 livres en avril 2008.

Mais les résultats du Projet Gutenberg ne se mesurent pas seulement à ces chiffres, qui restent assez modestes par rapport au nombre de livres imprimés appartenant au domaine public. Les résultats se mesurent également à l’influence du projet, qui est considérable. Premier site d’information sur l’internet et première bibliothèque numérique, le Projet Gutenberg a inspiré bien d’autres bibliothèques numériques au fil des ans, par exemple le Projekt Runeberg pour la littérature scandinave ou le Projekt Gutenberg-DE pour la littérature allemande, pour n’en citer que deux.

La structure administrative et financière du Projet Gutenberg se limite au strict minimum, avec une devise qui tient en trois mots: «Less is more.» Michael Hart insiste régulièrement sur la nécessité d’un cadre aussi souple que possible laissant toute initiative aux volontaires, et la porte grande ouverte aux idées nouvelles. Le but est d’assurer la pérennité du projet indépendamment des crédits, des coupures de crédits et des priorités culturelles, financières et politiques du moment. Pas de pression possible donc par le pouvoir et par l’argent. Et respect à l’égard des volontaires, qui sont assurés de voir leur travail utilisé pendant de nombreuses années, si ce n’est pour plusieurs générations, d’où l’intérêt d’un format numérique qui soit toujours valable dans quelques siècles. Le suivi régulier du projet est assuré grâce à une lettre d’information hebdomadaire et mensuelle, des forums de discussion, des wikis et des blogs.

Les dons servent à financer des ordinateurs et des scanners, et à envoyer des CD et DVD gratuits à tous ceux qui en font la demande. Suite au CD Best of Gutenberg disponible en août 2003 avec une sélection de 600 titres et à un premier DVD disponible en décembre 2003 avec 9.400 titres, un deuxième DVD est disponible en juillet 2006 avec 17.000 titres. A partir de 2005, CD et DVD sont disponibles sous forme d'images ISO sur le site de BitTorrent, ces images pouvant être téléchargées pour graver des CD et DVD sur place à titre personnel. En 2007, le Projet Gutenberg envoie 15 millions de livres par voie postale sous forme de CD et DVD.

Chose souvent passée sous silence, Michael Hart est le véritable inventeur de l’ebook. Si on considère l’ebook dans son sens étymologique, à savoir un livre numérisé pour diffusion sous forme de fichier électronique, celui-ci aurait bientôt quarante ans et serait né avec le Projet Gutenberg en juillet 1971. Une paternité beaucoup plus réconfortante que les divers lancements commerciaux dans un format propriétaire ayant émaillé le début des années 2000. Il n’y a aucune raison pour que la dénomination «ebook» ne désigne que l’ebook commercial et soit réservée aux Amazon, Barnes & Noble, 00h00, Gemstar et autres. L’ebook non commercial est un ebook à part entière - et non un parent pauvre - tout comme l’édition électronique non commerciale est une forme d’édition à part entière - et tout aussi valable que l’édition commerciale. En 2003, les etexts du Projet Gutenberg deviennent des ebooks, pour coller à la terminologie ambiante.

En juillet 1971, l’envoi d’un fichier de 5 Ko à cent personnes aurait fait sauter l’embryon de réseau disponible à l’époque. En novembre 2002, le Projet Gutenberg peut mettre en ligne les 75 fichiers du "Human Genome Project" (à savoir le séquençage du génome humain), chaque fichier se chiffrant en dizaines sinon en centaines de méga- octets. Ceci peu de temps après la parution initiale du Human Genome Project en février 2001, puisqu’il appartient d’emblée au domaine public.

En 2004, la capacité de stockage des disques durs est telle qu’il serait possible de faire tenir l’intégralité de la Library of Congress au format texte sur un support de stockage coûtant 140 dollars US. Et quelques années seulement nous sépareraient d’une clé USB (universal serial bus) permettant de stocker l’intégralité du patrimoine écrit de l’humanité.

Qu’en est-il des documents autres que l’écrit? En septembre 2003, le Projet Gutenberg se lance dans la diffusion de livres audio. En décembre 2006, on compte 367 livres lus par une synthèse vocale (Audio Book, computer-generated) et 132 livres lus par l’être humain (Audio Book, human-read). Le nombre de ces derniers devrait régulièrement augmenter. Par contre, les livres lus par une synthèse vocale ne seront plus être stockés dans une section spécifique, mais réalisés à la demande à partir des fichiers électroniques existant dans les collections générales. Les lecteurs aveugles ou malvoyants pourront à l'avenir utiliser une commande vocale pour demander le fichier de tel ou tel livre.

Lancée elle aussi en septembre 2003, la section "Sheet Music Subproject" est consacrée aux partitions musicales numérisées (Music, Sheet). Elle est complétée par une section d’enregistrements musicaux (Music, recorded). Des sections sont également disponibles pour les images fixes (Pictures, still) et animées (Pictures, moving). Ces collections devraient être développées dans les prochaines années.

Mais la numérisation des livres reste prioritaire. Et la demande est énorme. En témoigne le nombre de téléchargements, qui se comptent désormais en dizaines de milliers par jour. A la date du 31 juillet 2005, on compte 37.532 fichiers téléchargés dans la journée, 243.808 fichiers téléchargés dans la semaine et 1.154.765 fichiers téléchargés dans le mois. A la date du 6 mai 2007, on compte 89.841 fichiers téléchargés dans la journée, 697.818 fichiers téléchargés dans la semaine et 2.995.436 fichiers téléchargés dans le mois. Courant mai, ce nombre atteint les 3 millions. Ceci uniquement pour le principal site de téléchargement, ibiblio.org (basé à l’Université de Caroline du Nord, Etats-Unis), qui héberge aussi le site du Projet Gutenberg. Le deuxième site de téléchargement est l’Internet Archive, qui est le site de sauvegarde et qui met à la disposition du Projet Gutenberg une capacité de stockage illimitée.

Un Top 100 recense les cent titres et les cent auteurs les plus téléchargés dans la journée, dans la semaine et dans le mois.

Le Projet Gutenberg dispose de 40 sites miroirs répartis dans de nombreux pays, et il en cherche d’autres. La circulation des fichiers se fait aussi en mode P2P (peer-to-peer), qui permet d’échanger des fichiers directement d’un utilisateur à l’autre.

Les livres du Projet Gutenberg peuvent aider à combler la fracture numérique. Ils sont aisément téléchargeables sur PDA. Un ordinateur ou un PDA d’occasion ne coûte que quelques dollars ou quelques dizaines de dollars, en fonction du modèle. Certains PDA fonctionnent à l’énergie solaire, permettant la lecture dans les régions pauvres et reculées.

Plus tard, il sera peut-être possible d'envisager une traduction simultanée dans une centaine de langues, en utilisant un logiciel de traduction automatique qui aurait alors un taux de fiabilité de l’ordre de 99%, un pourcentage dont on est encore loin. Ce logiciel de traduction automatique serait relayé par des traducteurs (non pas des machines, mais des êtres humains), sur un modèle comparable à la technologie OCR relayée par des correcteurs (non pas des logiciels, mais des êtres humains) pour offrir un contenu de grande qualité.

38 ans après les débuts du Projet Gutenberg, Michael Hart se définit toujours comme un fou de travail dédiant toute sa vie à son projet, qu’il voit comme étant à l’origine d’une révolution néo-industrielle. Il se définit aussi comme altruiste, pragmatique et visionnaire. Après avoir été traité de toqué pendant de nombreuses années, il force maintenant le respect.

Au fil des ans, la mission du Projet Gutenberg reste la même, à savoir changer le monde par le biais de l’ebook gratuit indéfiniment utilisable et reproductible, et favoriser ainsi la lecture et la culture pour tous à moindres frais. Cette mission se résume en quelques mots: «encourager la création et la distribution d’ebooks», par autant de personnes que possible, et par tous les moyens. Tout en prenant les virages nécessaires pour intégrer de nouvelles idées, de nouvelles méthodes et de nouveaux supports.

1990: LE WEB BOOSTE L'INTERNET

= [Résumé]

Vinton Cerf est souvent appelé le père de l’internet parce qu’il crée en 1974 (avec Bob Kahn) le protocole TCP/IP (transmission control protocol/internet protocol), à la base de tout échange de données. L'internet se développe à partir de 1983. Le web est conçu en 1989-90 par Tim Berners-Lee, alors chercheur au CERN (Centre européen pour la recherche nucléaire) à Genève. En 1989, Tim Berners-Lee met en réseau des documents utilisant l'hypertexte. En 1990, il met au point le premier serveur HTTP (hypertext transfert protocol) et le premier navigateur web. En 1991, le web est opérationnel et change radicalement l'utilisation de l'internet. Le web prend son essor en novembre 1993 grâce à Mosaic, premier navigateur à destination du grand public. Quinze ans après la création du web, le magazine Wired constate dans son numéro d'août 2005 que «moins de la moitié du web est commercial, le reste fonctionne avec la passion». Quant à l'internet, quelque trente ans après ses débuts, «ses trois pouvoirs - l'ubiquité, la variété et l'interactivité - rendent son potentiel d'usages quasi infini» (Le Monde, 19 août 2005).

= L'internet et le web

Apparu en 1974, l’internet est d’abord un phénomène expérimental enthousiasmant quelques «branchés». A partir de 1983, il relie les centres de recherche et les universités. Suite à l’apparition du web en 1990 et du premier navigateur en 1993, il envahit notre vie quotidienne. Les signes cabalistiques des adresses web fleurissent sur les livres, les journaux, les affiches et les publicités.

La presse s’enflamme pour ce nouveau médium. L'internet est défini comme un ensemble de réseaux commerciaux, réseaux publics, réseaux privés, réseaux d'enseignement, réseaux de services, etc., qui opèrent à l'échelle planétaire pour offrir d'énormes ressources en information et en communication. On nous promet l'internet dans tous les foyers. On parle de mariage de l'ordinateur et de la télévision avec écrans interchangeables ou intégrés, et d'accès à l'internet par le même biais que la télévision câblée.

La majuscule d’origine d’Internet s’estompe. Internet devient l’internet, avec un «i» minuscule. De nom propre il devient nom commun, au même titre que l’ordinateur, le téléphone, le fax et le minitel. La même remarque vaut pour le World Wide Web, qui devient tout simplement le web.

Une définition officielle de l'internet est entérinée en octobre 1995 aux Etats-Unis par une résolution du Federal Networking Council (FNC), en consultation avec les différentes communautés d'internautes et les organismes défendant la propriété intellectuelle. L'internet est défini comme un système d'information global obéissant aux trois caractéristiques suivantes: (a) des adresses d'un type unique basées sur le protocole IP (internet protocol) ou ses extensions, (b) des communications utilisant le TCP/IP (transmission control protocol/internet protocol), ses extensions ou des protocoles compatibles, (c) la mise à disposition de services publics ou privés à partir de ces infrastructures.

C'est le web qui rend l'internet très populaire et qui permet sa gigantesque progression. Directeur de l'Internet Activities Board (IAB), Christian Huitema explique que le World Wide Web «repose sur trois idées principales, la navigation par "hypertexte", le support du multimédia, et l'intégration des services préexistants».

Plus communément appelé web, Web, WWW ou W3, le World Wide Web est créé par Tim Berners-Lee en 1989-1990 au CERN (Centre européen pour la recherche nucléaire) à Genève, en Suisse. Le web révolutionne la consultation de l'internet en permettant la publication de documents au moyen du système hypertexte, à savoir un ensemble de liens hypertextes permettant de passer d'un document textuel ou visuel à l'autre au moyen d'un simple clic de souris. Devenue véritablement interactive, l'information devient soudain beaucoup plus attractive.

Un site web est le plus souvent formé d'un ensemble de pages-écran reliées entre elles par des liens hypertextes, qui sont en général soulignés et d'une couleur différente de celle du texte. Grâce à un simple clic, l'utilisateur est renvoyé soit à une autre partie du document, soit à un autre document du site, soit à un autre site. Cette interactivité est ensuite encore accrue par la possibilité de liens hypermédia permettant de lier des textes et des images avec des graphiques, vidéos ou bandes sonores.

Comme on le voit, le web est très postérieur à l'internet, réseau informatique global mis sur pied en 1974 et connectant universités et centres de recherche depuis 1983. Et même si, improprement, on les considère souvent comme synonymes, le web n'est qu'un des aspects de l'internet, qui englobe plusieurs autres services: courriel, gopher, telnet (terminal network protocol), FTP (file transfer protocol), IRC (internet relay chat), forums de discussion, messagerie instantanée, visioconférence, téléphonie sur IP (internet protocol), etc.

Le web bénéficie logiquement de l'infrastructure internet, particulièrement aux Etats-Unis et au Canada. A la question posée en décembre 1997 par Pierre Ruetschi, journaliste à la Tribune de Genève, un quotidien suisse: «Pourquoi l'Europe a-t-elle accumulé un tel retard sur les Etats-Unis en matière de présence et de développement sur l'internet?», Tim Berners-Lee répond en expliquant l'avance des Etats- Unis par les énormes investissements faits par l'État. Il insiste aussi sur l'avance technologique de l'Europe dans plusieurs domaines: minitel, cartes à puce, téléphones cellulaires, etc.

On se plaint souvent de l'hégémonie américaine alors que il s'agit surtout d'une avance technique. Malgré tous les efforts des «dynosaures» politiques et commerciaux, il est impossible à quelque pays ou à quelque communauté que ce soit de «mettre la main» sur le web, ou du moins de le contrôler totalement.

Développé par le NSCA (National Center for Supercomputing Applications) à l'Université d'Illinois et distribué gratuitement à partir de novembre 1993, Mosaic est le premier logiciel de navigation destiné au grand public et contribue largement au développement rapide du web. Début 1994, une partie de l'équipe de Mosaic émigre dans la Netscape Communications Corporation pour commercialiser son logiciel sous le nom de Nescape Navigator. En 1995, pour concurrencer le Netscape Navigator, Microsoft crée l'Internet Explorer. Viennent ensuite d'autres navigateurs, comme Opera ou Safari.

Deux étudiants de l'Université de Stanford (Californie), Jerry Lang et David Filo, lancent en janvier 1994 l'annuaire Yahoo! pour recenser les sites web et les classer par thèmes. L'annuaire est un succès, avec un classement plus pointu que celui de moteurs de recherche comme AltaVista, où ces tâches sont entièrement automatisées. Divisé en 63 grandes catégories (en 1998), Yahoo! offre une interface en plusieurs langues: anglais, allemand, coréen, français, japonais, norvégien et suédois. Yahoo! travaille d'ailleurs de concert avec AltaVista. Quand une recherche ne donne pas de résultat dans l'un, elle est automatiquement aiguillée sur l'autre.

En décembre 1997, AltaVista propose AltaVista Translation, un service de traduction automatisée de l'anglais vers les langues suivantes: allemand, espagnol, français, italien et portugais, et vice versa. Bien qu'ayant ses limites, avec une traduction de trois pages maximum et un texte traduit très approximatif, ce service est immédiatement très apprécié. De plus, il ouvre la voie à d'autres services du même genre et contribue grandement au plurilinguisme du web.

= Quelques concepts

L'internet est bien plus qu'une invention purement technique. Sur le site de l'Internet Society, organisme professionnel international fondé en 1992 pour coordonner et promouvoir le développement de l'internet, le document "The Brief History of Internet" propose de l'internet une triple définition. L'internet est: (a) un instrument de diffusion internationale, (b) un mécanisme de diffusion de l'information, (c) un moyen de collaboration et d'interaction entre les individus et les ordinateurs, indépendamment de leur situation géographique.

Selon ce document, bien plus que toute autre invention (télégraphe, téléphone, radio ou ordinateur), l'internet révolutionne de fond en comble le monde des communications. Il représente l'un des exemples les plus réussis d'interaction entre un investissement soutenu dans la recherche et le développement d'une infrastructure de l'information, tous deux l'objet d'un réel partenariat entre les gouvernements, les universités et les entreprises.

Sur le site du World Wide Web Consortium (W3C), fondé en octobre 1994 pour développer les protocoles communs nécessaires au web, l'écrivain Bruce Sterling décrit le développement spectaculaire de l'internet dans le document "Short History of the Internet". L'internet se développe plus vite que les téléphones cellulaires ou les télécopieurs. En 1996, sa croissance est de 20% par mois. Le nombre des machines ayant une connexion directe TCP/IP a doublé depuis 1988. D'abord présent dans l'armée et les instituts de recherche, l'internet déferle dans les écoles, les universités et les bibliothèques, et il est également pris d'assaut par le secteur commercial.

Bruce Sterling s'intéresse aussi aux raisons pour lesquelles on se connecte à l'internet. Une des raisons essentielles lui semble être la liberté. L'internet est un exemple d'«anarchie réelle, moderne et fonctionnelle». Il n'y a pas de censeurs officiels (tout au moins les premières années, NDLR), de patrons, de comités de direction ou d'actionnaires. Toute personne peut parler d'égale à égale avec une autre, du moment qu'elle se conforme aux protocoles TCP/IP, des procotoles qui ne sont pas sociaux ou politiques mais strictement techniques.

Bruce Sterling indique enfin que l'internet est aussi une bonne affaire commerciale. Contrairement à la téléphonie traditionnelle (de l'époque, NDLR), il n'y a pas de frais longue distance. Et, contrairement aux réseaux informatiques commerciaux, il n'y pas de frais d'accès. En fait, l'internet, qui n'existe même pas officiellement en tant qu'entité, n'a pas de facturation propre. Chaque groupe ayant accès à l'internet est responsable de ses propres machines et de ses propres connexions.

L'internet concurrence-t-il la télévision et de la lecture? se demandent avec inquiétude les médias traditionnels. Au Québec, où 30,7% de la population est connectée à l'internet en mars 1998, un sondage réalisé par l'institut Som pour le magazine en ligne Branchez-vous! indique que 28,8% des Québécois connectés regardent moins la télévision qu'avant. Par contre, seuls 12,1% lisent moins, ce qui, d'après le quotidien en ligne Multimédium, est «plutôt encourageant pour le ministère de la Culture et des Communications qui a la double tâche de favoriser l'essor de l'inforoute et celui... de la lecture!»

En France, lors d'un entretien avec Annick Rivoire publié dans le quotidien Libération du 16 janvier 1998, le philosophe Pierre Lévy explique que l'internet va contribuer à la fin des monopoles: «Le réseau désenclave, donne plus de chance aux petits. On crie "ah! le monopole de Microsoft", mais on oublie de dire que l'internet sonne la fin du monopole de la presse, de la radio et de la télévision, et de tous les intermédiaires.» Pierre Lévy définit aussi ce qu'il appelle «l'intelligence collective»: «Les réseaux permettent de mettre en commun nos mémoires, nos compétences, nos imaginations, nos projets, nos idées, et de faire en sorte que toutes les différences, les singularités se relancent les unes les autres, entrent en complémentarité, en synergie.»

Le philosophe Timothy Leary constate en 1994 dans son livre "Chaos et cyberculture": «Jamais l'individu n'a eu à sa portée un tel pouvoir. Mais, à l'âge de l'information, il faut saisir les signaux. Populariser signifie "rendre accessible au peuple". Aujourd'hui, le rôle du philosophe est de personnaliser, de populariser et d'humaniser les concepts informatiques, de façon à ce que personne ne se sente exclu.»

Il nous faut cependant garder la tête froide. Pour contrer à la fois ceux qui mettent les technologies sur un piédestal et ceux qui y sont systématiquement hostiles, un mouvement appelé Technorealism est lancé sur le web en mars 1998 aux Etats-Unis. Les idées émises dans "Technorealism Overview" sont ensuite reprises au Québec dans le "Manifeste pour un technoréalisme". Ce manifeste s'appuie sur les huit principes suivants: (1) les technologies ne sont pas neutres, (2) l'internet est un média révolutionnaire, mais ce n'est pas une utopie, (3) le gouvernement a un rôle important à jouer dans le cyberespace, (4) l'information n'est pas un gage de connaissance, (5) brancher les écoles n'assurera pas une éducation de meilleure qualité, (6) l'information doit être protégée (en relation avec le droit d'auteur, NDLR), (7) les ondes sont du domaine public et c'est le public qui devrait en tirer les bénéfices, (8) une bonne compréhension des technologies devrait constituer un des fondements de la citoyenneté.

Selon ce manifeste, «plus le cyberespace devient populaire, plus il ressemble à la société réelle dans toute sa complexité. Chacun des côtés positifs ou habilitants de la vie en ligne est accompagné de dimensions malicieuses, perverses. (...) Contrairement à ce que certains prétendent, le cyberespace n'est pas un lieu distinct qui serait régi par des règles distinctes de celles de la société civile. Les gouvernements doivent respecter les règles et coutumes nées avec le cyberespace, mais cela ne veut pas dire pour autant que le public n'a aucun droit sur un citoyen qui déraille ou une entreprise qui commet une fraude. En tant que représentant du peuple et gardien des valeurs démocratiques, l'État a le droit et la responsabilité d'aider à intégrer le cyberespace à la société civile. (...) Peu importe la puissance de nos ordinateurs, nous ne devrions jamais nous en servir pour pallier la lucidité, le raisonnement et le jugement.»