Le Projet Gutenberg (1971-2008)
Chapter 2
Le Projet Gutenberg franchit la barre des 25.000 livres en avril 2008. Le 25.000e livre est English Book Collectors, de William Younger Fletcher (publié en 1902). A la date du 21 avril 2008, sur un nombre total de 25.004 livres, les langues les plus représentées sont l'anglais (21.475 livres), le français (1.168 livres), l'allemand (530 livres), le finnois (433 livres), le hollandais (326 livres), le portugais (217 livres), le chinois (196 livres), l'espagnol (180 livres), l'italien (128 livres), le latin (55 livres) et le tagalogue (54 livres). Viennent ensuite l'espéranto (45 livres), le suédois (40 livres), le danois (20 livres), le catalan (19 livres), l'irlandais (10 livres), le norvégien (10 livres), le russe (7 livres), l'islandais (7 livres), le hongrois (7 livres), l'anglais ancien (6 livres), le grec (6 livres) et le bulgare (6 livres).
3. LA METHODE ADOPTEE
Qu'ils aient été numérisés il y a des années ou qu'ils soient numérisés maintenant, tous les livres sont numérisés en mode texte, en utilisant l'ASCII original. Présent dès les débuts de l'informatique et dénommé Plain Vanilla ASCII, cet ASCII sur sept bits traite 128 caractères, dont 97 caractères imprimables correspondant aux touches du clavier anglais ou américain (A-Z, a-z, chiffres, ponctuation et quelques symboles). Dans le cas de langues autres que l'anglais, on utilise des extensions de l'ASCII (appelées ISO-8859 ou ISO-Latin) prenant en compte les caractères accentués. Mais, même dans ce cas, le Projet Gutenberg propose systématiquement en complément une version ASCII sur sept bits sans accents. Sauf, bien entendu, dans le cas de langues non traduisibles en ASCII, comme le chinois, qui est encodé au format Big-5.
Dénommé à juste titre le plus petit dénominateur commun, l'ASCII sur sept bits est le seul format compatible avec 99% des machines et des logiciels, et pouvant être converti dans d'autres formats. Il sera toujours utilisé quand d'autres formats auront disparu, à commencer par les formats éphémères liés aux tablettes de lecture commercialisées depuis 1999 et déjà disparues du marché. Il est l'assurance que les collections ne deviendront jamais obsolètes, et survivront aux changements technologiques des prochaines décennies ou même des prochains siècles. Il n'existe pas d'autre standard aussi largement utilisé pour le moment, y compris l'Unicode, système d'encodage universel créé en 1991.
Le Projet Gutenberg propose toutefois certains livres dans d'autres formats, notamment dans les trois formats répandus que sont les formats HTML, XML et RTF. Des fichiers Unicode sont également présents. De plus, tout format proposé par tel ou tel volontaire - PDF, LIT, TeX et beaucoup d'autres - est généralement accepté, dans la mesure où un fichier ASCII est également présent.
Pour une conversion à grande échelle dans un format donné, le relais est passé à d'autres organismes. Par exemple Blackmask Online, qui puise dans les collections du Projet Gutenberg pour proposer des milliers de livres gratuits dans huit formats différents, tous issus du format Open eBook (OeB). Ou encore Manybooks.net, qui convertit les collections du Projet Gutenberg dans des formats lisibles sur PDA. Ou encore GutenMark, un outil permettant de reformater les livres aux formats HTML et LaTEX pour une lecture plus attractive ou bien de les reformater au format PDF pour une impression à la demande. Ou encore MobileBooks, qui propose 5.000 livres en Java pour lecture sur l'écran d'un téléphone portable. Ou encore Wattpad, un service gratuit permettant un accès immédiat aux livres du Projet Gutenberg sur son téléphone portable.
En quoi consiste exactement le travail des volontaires, une fois reçue la confirmation que le livre est bien du domaine public? Il consiste à scanner le livre page après page, ce qui donne des fichiers numérisés en mode image, puis à utiliser un logiciel OCR (optical character recognition), qui permet de convertir chaque fichier image en un fichier texte. Il consiste ensuite à relire le contenu du fichier texte au regard de l'original (image scannée ou livre imprimé) en corrigeant les erreurs, à savoir dix erreurs par page en moyenne quand le logiciel OCR est de qualité.
Le livre est relu et corrigé à deux reprises par deux personnes différentes. Les livres anciens sont parfois saisis ligne après ligne si le texte original manque de clarté. Certains volontaires préfèrent taper eux-mêmes des textes courts ou des oeuvres qu'ils aiment particulièrement. Mais les livres sont le plus souvent scannés et OCRisés, puis relus et corrigés.
Contrairement à la numérisation en mode image, qui s'arrête à l'étape du scanner, la numérisation en mode texte permet la copie du texte, l'indexation, la recherche plein texte, l'analyse textuelle, une étude comparative entre plusieurs textes, etc. On peut aussi lancer une recherche à partir de la fonction "chercher" proposée par n'importe quel programme, sans logiciel de recherche intermédiaire.
Les avantages de la numérisation en mode texte sont multiples. Les fichiers prennent peu de place et circulent d'autant plus facilement. Contrairement à d'autres formats, le téléchargement d'un livre au format texte ne requiert pas de bande passante large. Le fichier texte peut être copié à l'infini, et constituer la base de centaines de nouvelles versions numériques et imprimées, pour un coût pratiquement nul. A tout moment, on peut corriger les erreurs typographiques qui auraient pu subsister. Les lecteurs peuvent changer à volonté la taille et la police des caractères, ainsi que les marges ou le nombre de lignes par page. Le lecteur malvoyant peut grossir la taille des polices et le lecteur aveugle utiliser un logiciel de reconnaissance vocale. Tout ceci est nettement plus difficile, sinon impossible, avec nombre d'autres formats.
Si la correction par deux personnes différentes permet de mettre en ligne un texte fiable à 99,9%, le but n'est pas pour autant de créer des éditions faisant autorité, ou d'épiloguer sans fin avec un lecteur pointilleux sur le bien-fondé ou non d'un signe de ponctuation tel que deux points à la place d'un point virgule entre deux propositions.
Le Projet Gutenberg insiste régulièrement sur la nécessité de la relecture, qu'il juge essentielle. Utiliser directement des livres scannés puis convertis au format texte par un logiciel OCR, sans relecture, donne un résultat de bien moindre qualité, avec une fiabilité de 99% dans le meilleur des cas. L'étape de la relecture avec correction permet d'atteindre une fiabilité de 99,95%, un pourcentage élevé qui est aussi le standard de la Library of Congress.
Le Projet Gutenberg s'inscrit donc dans une perspective assez différente de la bibliothèque de l'Internet Archive (qui héberge également les collections du Projet Gutenberg, en tant que deuxième site de distribution et site de sauvegarde). Dans le cas de l'Internet Archive, les livres sont scannés puis OCRisés, mais ils ne sont pas relus par des correcteurs s'attachant à traquer les erreurs. Plus rapide et moins fiable quant au résultat, la numérisation des livres sans relecture est aussi la méthode adoptée par Google, Microsoft et bien d'autres pour leurs propres bibliothèques numériques.
Le Projet Gutenberg dispose d'un moteur de recherche pour l'ensemble de ses collections, grâce à un partenariat avec Google, avec mise à jour mensuelle. Tout comme une recherche sur les métadonnées (auteur, titre, descriptif, mots-clés) grâce à un partenariat avec Yahoo!, avec mise à jour hebdomadaire. Pour la recherche avancée (Advanced Search), la recherche multicritères (auteur, titre, sujet, langue, catégorie, classification, format, numéro) inclut désormais un critère supplémentaire de recherche plein texte (Full Text), à titre expérimental.
Disponible sur le site du Projet Gutenberg, le File Recode Service permet de convertir les fichiers d'un système d'encodage (ASCII, ISO-8859, Unicode, etc.) à un autre. A l'avenir, un logiciel de conversion beaucoup plus puissant devrait permettre la conversion automatique dans bien d'autres formats (XML, HTML, PDF, TeX, RTF, BRF, etc.). Il sera également possible de choisir d'emblée la taille et la police des caractères, ainsi que le fonds d'écran. Une autre conversion très attendue est la conversion d'une langue à une autre par le biais d'un logiciel de traduction automatique. Une telle conversion pourrait être possible dans quelques années, quand ce type de logiciel aura gagné en qualité.
4. LA CORRECTION PARTAGEE
La croissance rapide des collections depuis 2001 est due à l'activité de Distributed Proofreaders, site lancé en octobre 2000 par Charles Franks pour gérer la correction partagée entre les volontaires. A l'origine, il s'agit seulement d'intensifier la production de livres du Projet Gutenberg. Mais le succès est tel que le site devient la principale source des collections. En 2002, Distributed Proofreaders est officiellement affilié au Projet Gutenberg. En mai 2006, Distributed Proofreaders devient une entité indépendante tout en poursuivant une collaboration étroite avec le Projet Gutenberg.
Les volontaires n'ont aucun quota à respecter. A titre indicatif, il est suggéré de relire une page par jour, si possible. Cela semble peu, mais une page multipliée par des centaines de volontaires représente un chiffre considérable. La progression est rapide. En 2003, une moyenne de 250 à 300 relecteurs quotidiens permet de produire entre 2.500 et 3.000 pages par jour, ce qui représente deux pages par minute. En 2004, la moyenne est de 300 à 400 relecteurs quotidiens produisant entre 4.000 et 7.000 pages par jour, à savoir quatre pages par minute. Distributed Proofreaders comptabilise un total de 3.000 livres en février 2004, 5.000 livres en octobre 2004, 7.000 livres en mai 2005, 8.000 livres en février 2006 et 10.000 livres en mars 2007, avec une production de cinq livres par jour et 52.000 volontaires en décembre 2007.
Le 3 août 2005, le site recense 7.639 livres versés dans le Projet Gutenberg, 1.250 livres prêts à y être versés (en cours de dernière relecture et assemblage) et 831 livres en cours de correction. Le 1er mai 2008, le site recense 13.039 livres versés dans le Projet Gutenberg, 1.840 livres prêts à y être versés (en cours de dernière relecture et assemblage) et 1.000 livres en cours de correction.
Le site a pour but de permettre à plusieurs correcteurs de travailler simultanément au même livre, sur des pages différentes. Le volontaire commence par s'inscrire. Il reçoit des directives détaillées. Ces directives concernent par exemple les parties en gras, en italique et soulignées, ou les notes, qui sont toutes traitées de la même manière. Un forum permet de poser des questions et de demander de l'aide si nécessaire. Quand le volontaire se connecte au site, il sélectionne le livre de son choix à partir d'une liste donnée. Une page du livre choisi apparaît simultanément en deux versions: d'une part l'image scannée, d'autre part le texte issu de cette image, produit par un logiciel OCR. Le relecteur compare les deux versions et corrige les différences. Un logiciel OCR étant fiable à 99%, ceci représente une moyenne de dix erreurs à corriger par page. La page est ensuite sauvegardée. Le relecteur peut soit cesser le travail, soit opter pour la correction d'une autre page. Tous les livres sont relus et corrigés deux fois de suite et, la deuxième fois, uniquement par des correcteurs expérimentés. Les pages corrigées sont ensuite formatées selon des règles précises et assemblées par d'autres volontaires pour obtenir un livre numérique. Durant tout le processus, un livre donné est suivi par un responsable (project manager) qui s'assure du bon déroulement des opérations. Après la mise en forme suit la mise en ligne, avec indexation (titre, sous-titre, numéro de l'ebook et format) puis catalogage (dates de naissance et de décès de l'auteur, classification de la Library of Congress, etc.).
Les volontaires peuvent aussi travailler de manière indépendante, en s'adressant directement au Projet Gutenberg. Ils peuvent saisir leur livre préféré de bout en bout sur le traitement de texte de leur choix. Ils peuvent aussi scanner eux-mêmes un livre, le convertir en texte par le biais d'un logiciel OCR et faire les corrections nécessaires en comparant le résultat à l'original. Dans les deux cas, une deuxième relecture est faite par une autre personne. Toute participation est bienvenue, quelle que soit la méthode adoptée. Il est tout à fait possible d'envoyer des fichiers dans d'autres formats en complément du fichier ASCII.
Aussi bien pour Distributed Proofreaders (DP) que pour Distributed Proofreaders Europe (DP Europe), de nouveaux volontaires sont bienvenus, y compris pour les livres en français. La tâche est immense. Comme indiqué sur les deux sites, "DP ne s'attend pas à un engagement inconditionnel de votre part. Corrigez des textes aussi souvent que vous le voulez, et le nombre de pages que vous voulez. Nous encourageons les gens à corriger une page par jour, mais vous êtes tout à fait libre de faire ce qui vous plaît. Nous espérons que vous vous joindrez à notre mission de préserver 'la littérature mondiale dans un format gratuit et disponible pour tous'."
5. DES COLLECTIONS MULTILINGUES
Qu'en est-il exactement des langues? Le Projet Gutenberg est d'abord essentiellement anglophone, puisqu'il est basé aux Etats-Unis et qu'il sert en priorité la communauté anglophone nationale et internationale. Sa vocation multilingue débute en 1997.
En octobre 1997, Michael Hart annonce son intention de produire des livres dans d'autres langues que l'anglais. Début 1998, le catalogue comprend quelques oeuvres en allemand, en espagnol, en français (dix titres), en italien et en latin. En juillet 1999, Michael Hart écrit: "J'introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible."
Si 25 langues seulement sont représentées début 2004, 42 langues sont représentées en juillet 2005, dont l'iroquois, le sanscrit et les langues mayas. Outre l'anglais, six langues disposent de plus de cinquante livres: le français, l'allemand, le finnois, le hollandais, l'espagnol et le chinois. 50 langues sont représentées en décembre 2006. Les langues comprenant plus de 50 livres incluent désormais l'italien, le portugais et le tagalogue. 55 langues sont représentées en avril 2008. Le latin s'ajoute aux langues ayant plus de 50 livres. L'espéranto est en bonne place avec 45 livres, tout comme le suédois avant 40 livres.
Le français se trouve être la deuxième langue du Projet Gutenberg, après l'anglais. Le 13 février 2004, on compte seulement 181 livres en français (sur un total de 11.340 livres). Le 16 mai 2005, on compte 547 livres en français (sur un total de 15.505 livres). Soit trois fois plus en quinze mois. Le 27 juillet 2005, on compte 577 livres en français (sur un total de 16.800 livres). Le 16 décembre 2006, on compte 966 livres en français (sur un total de 19.996 livres), soit un peu moins du double en dix-huit mois. Le 21 avril 2008, on compte 1.168 livres en français (sur un total de 25.004 livres). Le mouvement devrait sensiblement s'accélérer dans quelques années, quand le Projet Gutenberg Europe tournera à plein régime.
Les premiers titres disponibles dans la langue de Molière sont six romans de Stendhal et deux romans de Jules Verne, tous mis en ligne au début de 1997. Les six romans de Stendhal sont L'Abbesse de Castro, Les Cenci, La Chartreuse de Parme, La Duchesse de Palliano, Le Rouge et le Noir et Vittoria Accoramboni, et les deux romans de Jules Verne De la terre à la lune et Le tour du monde en quatre-vingts jours. A la même date, si aucun titre de Stendhal n'est disponible en anglais, trois romans de Jules Verne le sont: 20,000 Leagues Under the Seas (Vingt mille lieues sous les mers, mis en ligne en septembre 1994), Around the World in 80 Days (Le tour du monde en quatre-vingts jours, mis en ligne en janvier 1994) et From the Earth to the Moon (De la terre à la lune, mis en ligne en septembre 1993). Stendhal et Jules Verne sont suivis par Edmond Rostand, avec Cyrano de Bergerac, mis en ligne en mars 1998.
A la fin de 1999, le Top 20, à savoir la liste des vingt auteurs les plus lus, mentionne Jules Verne à la onzième place, et Emile Zola à la seizième place. Ils sont toujours en bonne position dans le Top 100 actuel.
A titre anecdotique, le premier document illustré disponible toutes langues confondues est French Cave Paintings (Peintures des cavernes en France), mis en ligne dès avril 1995, avec une version XHTML ajoutée en novembre 2000. Il s'agit de quatre photos de peintures paléolithiques retrouvées dans une grotte de l'Ardèche (département de la région Rhône-Alpes). Ces photos sous droits ont été mises à la disposition du Projet Gutenberg par Jean Clottes, conservateur général du patrimoine, pour être largement diffusées.
En 2004, le multilinguisme devient l'une des priorités du Projet Gutenberg, tout comme l'internationalisation. Michael Hart prend son bâton de pèlerin vers l'Europe, avec des étapes à Bruxelles, Paris et Belgrade. Le 12 février 2004, il donne une conférence au siège de l'UNESCO (Organisation des Nations Unies pour l'éducation, la science et la culture) à Paris. Le lendemain, toujours à Paris, il anime un débat à l'Assemblée nationale. La semaine suivante, il s'adresse au Parlement européen à Bruxelles. Puis il rend visite à l'équipe du Projet Rastko à Belgrade, pour soutenir la création du Projet Gutenberg Europe et de Distributed Proofreaders Europe.
Le lancement de Distributed Proofreaders Europe par le Projet Rastko en décembre 2003 représente une étape importante. Le site est calqué sur le site original de Distributed Proofreaders, pour gérer la relecture partagée du Projet Gutenberg Europe. Dès ses débuts, il s'agit d'un site multilingue, qui prend en compte les principales langues nationales. Grâce à des traducteurs volontaires, le site est disponible en douze langues en avril 2004 et vingt-deux langues en mai 2008. L'objectif à moyen terme est soixante langues - et donc soixante équipes linguistiques - avec prise en compte de toutes les langues européennes.
Quand il aura atteint sa vitesse de croisière, Distributed Proofreaders Europe devrait alimenter plusieurs bibliothèques numériques nationales et/ou linguistiques, par exemple le Projet Gutenberg France pour la France. Le but étant que chaque pays ou région ait son propre accès réseau autorisé (respectant la législation en vigueur dans le pays donné), qui sera un accès local au sein d'un réseau continental (dans le cas de la France, le réseau européen) et d'un réseau global (à l'échelle de la planète).
Quelques mots maintenant sur le Projet Rastko, qui s'est porté volontaire pour un pari aussi fou, catalysant du même coup les bonnes volontés européennes à l'est comme à l'ouest. Fondé en 1997, le Projet Rastko est une initiative non gouvernementale à vocation culturelle et pédagogique. L'un de ses objectifs est la mise en ligne de la culture serbe. Il fait partie de la Balkans Cultural Network Initiative, un réseau culturel régional couvrant la péninsule des Balkans, située au sud-est de l'Europe.
En mai 2005, Distributed Proofreaders Europe compte cent livres numérisés par ses soins, avec mise en ligne de ces cent livres le mois suivant sur le site du Projet Gutenberg Europe. En décembre 2006, DP Europe comptabilise 400 livres numérisés. La règle utilisée pour définir le domaine public est l'équation "décès de l'auteur + 50 ans", qui correspond à la législation en vigueur en Serbie. DP Europe utilise l'Unicode pour pouvoir traiter des livres dans un grand nombre de langues. Créé en 1991 et largement répandu à partir de 1998, l'Unicode est un système d'encodage qui attribue un code unique à chaque caractère pour être en mesure de traiter toutes les langues, contrairement à l'ASCII qui ne peut traiter que l'anglais et quelques langues européennes.
Le 3 août 2005, le site recense 135 livres versés dans le Projet Gutenberg Europe, 418 livres prêts à y être versés (en cours de dernière relecture et assemblage) et 125 livres en cours de correction. Le 10 mai 2008, le site recense 496 livres versés dans le Projet Gutenberg Europe, 653 livres prêts à y être versés (en cours de dernière relecture et assemblage) et 91 livres en cours de correction.
6. DOMAINE PUBLIC VERSUS COPYRIGHT
Chose inquiétante à l'heure d'une société dite de l'information, le domaine public se réduit comme peau de chagrin. A une époque qui n'est pas si lointaine, 50% des oeuvres appartenaient au domaine public, et pouvaient donc être librement utilisées par tous. Mais le domaine public se dégrade régulièrement au fil des siècles, particulièrement au 20e siècle. D'ici 2100, 99% des oeuvres devraient être régies par le droit d'auteur, avec un maigre 1% laissé au domaine public. Un problème épineux pour tous ceux qui gèrent des bibliothèques numériques. La tâche du Projet Gutenberg ne se trouve donc guère facilitée par les coups de boutoir portés au domaine public. Michael Hart se penche sur la question depuis quelque trente ans, avec l'aide d'un groupe d'avocats spécialisés dans le droit d'auteur.
Dans la section Copyright HowTo, le Projet Gutenberg détaille les calculs à faire pour déterminer si un titre publié aux Etats-Unis appartient ou non au domaine public. Les oeuvres publiées avant 1923 sont soumises au droit d'auteur pendant 75 ans à partir de leur date de publication (elles sont donc maintenant du domaine public). Les oeuvres publiées entre 1923 et 1977 sont soumises au droit d'auteur pendant 95 ans à partir de leur date de publication (rien ne tombera dans le domaine public avant 2019). Une oeuvre publiée en 1998 et les années suivantes est soumise au droit d'auteur pendant 70 ans à partir de la date du décès de l'auteur s'il s'agit d'un auteur personnel (rien dans le domaine public avant 2049), ou alors pendant 95 ans à partir de la date de publication - ou 120 ans à partir de la date de création - s'il s'agit d'un auteur collectif (rien dans le domaine public avant 2074). Tout ceci dans les grandes lignes. D'autres règles viennent s'ajouter à ces règles de base, et la loi sur le copyright est retouchée onze fois au cours des quarante dernières années.
Nettement plus contraignante que la précédente, la législation actuelle est entérinée par le Congrès le 27 octobre 1998 pour contrer le formidable véhicule de diffusion qu'est l'internet. "Le copyright a été augmenté de 20 ans, explique Michael Hart en juillet 1999. Auparavant on devait attendre 75 ans, on est maintenant passé à 95 ans. Bien avant, le copyright durait 28 ans (plus une extension de 28 ans si on la demandait avant l'expiration du délai) et, avant cela, le copyright durait 14 ans (plus une extension de 14 ans si on la demandait avant l'expiration du délai). Comme on le voit, on assiste à une dégradation régulière et constante du domaine public."
Au fil des siècles, chaque avancée technique est accompagnée d'un durcissement du copyright, qui semble être la réponse des éditeurs à un accès plus facile au savoir, et la peur afférente de perdre des royalties. Ce fut le cas pour l'apparition des nouvelles presses à vapeur, puis l'apparition des nouvelles presses électriques, puis l'apparition de la photocopieuse lancée par Xerox, et enfin l'apparition des technologies numériques permettant la diffusion de centaines de milliers d'oeuvres désormais disponibles sur CD et DVD et sur le web, gratuitement ou à un prix très bas.