Le Projet Gutenberg (1971-2005)
Chapter 2
En effet. Les instances politiques ne cessent de parler d'âge de l'information alors que, en parallèle, elles durcissent la réglementation relative à la mise à disposition de cette information. La contradiction est flagrante. Un durcissement similaire a touché l'Australie (ce qui a obligé le Project Gutenberg of Australia à retirer des dizaines de livres de ses collections) et plusieurs pays d'Europe. La règle générale est désormais un copyright de 70 ans après le décès de l'auteur, alors qu'il était auparavant de 50 ans. Ceci suite aux pressions exercées par les éditeurs de contenu, sous le prétexte d'"harmoniser" les lois nationales relatives au copyright pour répondre à la "mondialisation du marché".
Donc, pour résumer ces considérations quelque peu austères mais combien utiles si on veut voir son livre favori mis en ligne, tout volontaire est requis de choisir de préférence un livre imprimé paru avant 1923. Il est également requis d'envoyer à Michael une photocopie des pages de titre du livre (recto et verso, y compris si la page verso est blanche), ces pages étant précieusement conservées au fil des ans pour justifier, si besoin, que le livre est bien du domaine public. Cette démarche initiale est obligatoire et elle est dénommée Copyright Clearance. La photocopie est désormais remplacée par l'envoi des pages scannées par le biais d'un logiciel présent sur le site. La réponse est envoyée par courriel quelques jours après. Il reste possible d'envoyer des photocopies par voie postale si on n'a vraiment pas d'autre solution.
Une lueur d'espoir existe toutefois pour les livres parus après 1923. D'après Greg Newby, directeur du PGLAF (Project Gutenberg Literary Archive Foundation), un million de livres publiés aux Etats-Unis entre 1923 et 1964 appartiendrait en fait au domaine public, puisque seuls 10% des copyrights sont effectivement renouvelés. Le Projet Gutenberg s'est donné pour tâche de tenter de localiser ces livres. En avril 2004, grâce aux centaines de volontaires de Distributed Proofreaders, on dispose d'une liste pour tous les livres publiés entre 1950 et 1977 dont le copyright a été renouvelé. Si un livre publié pendant cette période ne figure pas sur cette liste, cela signifie qu'il est tombé dans le domaine public et qu'on peut donc le traiter.
4. LA METHODE ADOPTEE PAR LE PROJET GUTENBERG
Qu'ils aient été numérisés il y a des années ou qu'ils soient numérisés maintenant, tous les livres sont numérisés en mode texte, en utilisant l'ASCII (American Standard Code for Information Interchange) original. Utilisé dès les débuts de l'informatique et dénommé Plain Vanilla ASCII, cet ASCII sur sept bits correspond aux touches du clavier anglais ou américain (A-Z, a-z, chiffres, ponctuation et quelques symboles). Dans le cas de langues autres que l'anglais, on utilise l'ASCII sur huit bits (appelé également ISO-8859 ou ISO-Latin) pour prendre en compte les caractères accentués. Mais, même dans ce cas, le Projet Gutenberg propose aussi systématiquement en complément une version ASCII sur sept bits sans accents. Sauf, bien entendu, dans le cas de langues non "traduisibles" en ASCII, comme le chinois, qui est encodé au format Big-5.
Dénommé à juste raison "le plus petit dénominateur commun", l'ASCII sur sept bits est le seul format compatible avec 99% des machines et des logiciels, et pouvant être converti dans de nombreux autres formats. Il sera toujours utilisé quand d'autres formats auront disparu, à commencer par les formats éphémères liés à quelques appareils de lecture lancés entre 1999 et 2003 et déjà disparus du marché. Il est l'assurance que les collections ne deviendront jamais obsolètes, et survivront aux changements technologiques des prochaines décennies ou même des prochains siècles. Il n'existe pas d'autre standard aussi largement utilisé pour le moment, y compris l'Unicode, un système d'encodage "universel" créé en 1991.
Le Projet Gutenberg propose toutefois certains livres dans d'autres formats, notamment dans les trois formats répandus que sont les formats HTML, XML et RTF. Des fichiers Unicode sont également présents. De plus, tout format proposé par tel ou tel volontaire est généralement accepté (PDF, LIT, TeX et beaucoup d'autres), dans la mesure où un fichier ASCII est également présent.
Mais, pour une conversion à grande échelle, le relais est passé à d'autres organismes. Par exemple Blackmask Online, qui puise dans les collections du Projet Gutenberg pour proposer des milliers de livres gratuits dans huit formats différents, tous issus du format Open eBook (OeB). Ou encore Manybooks.net, qui convertit les collections du Projet Gutenberg dans des formats lisibles sur PDA. Ou encore Bookshare.org, la grande bibliothèque numérique destinée aux personnes aveugles et malvoyantes résidant aux Etats-Unis. Outre la mise en ligne des nouveautés, Bookshare.org utilise les collections du Project Gutenberg pour offrir les classiques du domaine public au format braille et au format DAISY (Digital Audio Information System).
En quoi consiste exactement le travail, une fois reçue la confirmation que le livre est bien du domaine public? Il consiste à scanner le livre page après page, ce qui donne des fichiers numérisés en mode image, puis à utiliser un logiciel OCR (Optical Character Recognition), qui permet de convertir chaque fichier "image" en un fichier texte. Il consiste ensuite à relire le contenu du fichier texte au regard de l'original (image scannée ou livre imprimé) en corrigeant les erreurs, à savoir dix erreurs par page en moyenne quand le logiciel OCR est de qualité.
Le livre est relu et corrigé à deux reprises, par deux personnes différentes. Les livres anciens sont parfois saisis ligne après ligne, à cause du manque de clarté du texte original. Certains volontaires préfèrent également taper eux-mêmes des textes courts, ou des oeuvres qu'ils aiment particulièrement. Mais les livres sont le plus souvent scannés et "OCRisés", puis relus et corrigés.
Contrairement à la numérisation en mode image (n'utilisant que l'étape du scanner), la numérisation en mode texte permet la copie du texte, l'indexation, la recherche plein texte, l'analyse textuelle, une étude comparative entre plusieurs textes, etc. On peut aussi lancer une recherche à partir de la fonction "recherche" proposée par n'importe quel programme, sans logiciel de recherche intermédiaire.
De plus, le Projet Gutenberg propose une fonction "recherche" sur l'ensemble de ses collections, grâce à un partenariat avec Google, avec mise à jour mensuelle. Ainsi qu'une recherche sur les métadonnées (auteur, titre, descriptif, mots-clefs) grâce à un partenariat avec Yahoo!, avec mise à jour hebdomadaire (voir l'Online Book Catalog en déroulant la page jusqu'en bas). Pour la recherche avancée (Advanced Search), la recherche multicritères (auteur, titre, sujet, langue, catégorie, classification, format, numéro) inclut désormais un critère supplémentaire de recherche plein texte (Full Text, situé en dernière ligne du menu de l'Advanced Search), à titre expérimental.
Les avantages de la numérisation en mode texte sont multiples. Les fichiers prennent peu de place et circulent d'autant plus facilement. Contrairement à d'autres formats, le téléchargement d'un livre au format texte ne requiert pas de bande passante large. Le fichier texte peut être copié à l'infini, et constituer la base de centaines de nouvelles versions numériques et imprimées, pour un coût pratiquement nul. A tout moment, on peut corriger les erreurs de typographie qui auraient pu subsister. Les lecteurs peuvent changer à volonté la police et la taille des caractères, ainsi que les marges ou le nombre de lignes par page. Le lecteur malvoyant peut grossir la taille des polices et le lecteur aveugle utiliser un logiciel de reconnaissance vocale. Tout ceci est nettement plus difficile, sinon impossible, avec de nombreux autres formats.
Si la correction par deux personnes différentes permet de mettre en ligne un texte fiable à 99,9%, le but n'est pas pour autant de créer des éditions faisant autorité, ou d'épiloguer sans fin avec un lecteur pointilleux sur le bien-fondé ou non d'un signe de ponctuation tel qu'un "deux points" à la place d'un "point virgule" entre deux propositions.
Le Projet Gutenberg insiste régulièrement sur la nécessité de la relecture, qu'il juge essentielle. Utiliser directement des livres scannés puis convertis au format texte par un logiciel OCR, sans relecture, donne un résultat de bien moindre qualité, avec une fiabilité de 99% dans le meilleur des cas. L'étape de la relecture et de la correction permet d'atteindre une fiabilité de 99,95% (ce pourcentage élevé est aussi le standard de la Library of Congress).
Le Projet Gutenberg s'inscrit donc dans une perspective assez différente du Million Book Project, autre initiative lancée par plusieurs professeurs de la Carnegie Mellon University et dont les collections (10.611 livres le 1er juin 2005) sont hébergées par l'Internet Archive (qui héberge également les collections du Projet Gutenberg, en tant que deuxième site de distribution et site de sauvegarde). Dans le cas du Million Book Project, les livres sont scannés puis "OCRisés", mais ils ne sont pas relus par des correcteurs s'attachant à traquer les erreurs. Les livres sont généralement disponibles aux formats XML, TIF et DjVu.
Disponible sur le site du Projet Gutenberg, le File Recode Service permet de convertir les fichiers d'un système d'encodage (ASCII, ISO-8859, Unicode, Big-5, etc.) à un autre. A l'avenir, un logiciel de conversion beaucoup plus puissant devrait permettre la conversion automatique dans bien d'autres formats (XML, HTML, PDF, TeX, RTF, braille, audio, etc.). Il sera également possible de choisir d'emblée la taille et la police des caractères, ainsi que le fonds d'écran. Une autre conversion très attendue est la conversion d'une langue à une autre par le biais d'un logiciel de traduction automatique. Une telle conversion devrait être possible dans quelques années, quand ce type de logiciel aura gagné en qualité.
5. DISTRIBUTED PROOFREADERS, OU LA CORRECTION PARTAGEE
Le "bond en avant" récent du Projet Gutenberg est dû à l'activité de Distributed Proofreaders.
Distributed Proofreaders est conçu en 2000 par Charles Franks pour gérer la correction partagée entre les volontaires. A l'origine, le site est censé intensifier la production de livres du Projet Gutenberg. Il en devient la principale source. En 2002, Distributed Proofreaders est officiellement affilié au Projet Gutenberg. La progression est rapide. Distributed Proofreaders comptabilise un total de 3.000 livres numérisés et corrigés en février 2004, 5.000 livres en octobre 2004 et 7.000 livres en mai 2005. Le 3 août 2005, le site recense 7.639 livres versés dans les collections du Projet Gutenberg, 1.250 livres prêts à être versés dans les collections (en cours de dernière relecture et assemblage) et 831 livres en cours de correction.
Le site a pour but de permettre à plusieurs correcteurs de travailler simultanément au même livre, sur des pages différentes. Le volontaire commence par s'inscrire. Il reçoit des directives détaillées. Ces directives concernent par exemple les parties en gras, en italique et soulignées, ou les notes, qui sont toutes traitées de la même manière. Un forum permet de poser des questions et de demander de l'aide si nécessaire. Quand le volontaire se connecte au site, il sélectionne le livre de son choix à partir d'une liste donnée. Une page du livre choisi apparaît simultanément dans deux versions: d'une part l'image scannée, d'autre part le texte issu de cette image, produit par un logiciel OCR. Le relecteur compare les deux versions et corrige les différences. Un logiciel OCR étant fiable à 99%, cela représente une moyenne de dix erreurs à corriger par page. La page est ensuite sauvegardée. Le relecteur peut soit cesser le travail, soit opter pour la correction d'une autre page. Tous les livres sont relus et corrigés deux fois de suite, et, pour la deuxième fois, uniquement par des correcteurs expérimentés. Les pages corrigées sont ensuite formatées selon des règles précises et assemblées par d'autres volontaires pour obtenir un eBook. Durant la totalité du processus, un livre donné est suivi par un "project manager", qui s'assure du bon déroulement des opérations. Après la mise en forme suit la mise en ligne, avec indexation rapide (titre, sous-titre, numéro de l'eBook et format) puis catalogage détaillé (dates de naissance et de mort de l'auteur, classification de la Library of Congress, etc.).
Les volontaires n'ont aucun quota à respecter. A titre indicatif, il est suggéré de relire une page par jour, si possible. Cela semble peu, mais une page multipliée par des centaines de volontaires représente un chiffre considérable. En 2003, une moyenne de 250 à 300 relecteurs quotidiens répartis dans le monde entier a permis de produire entre 2.500 et 3.000 pages par jour, ce qui représentait deux pages par minute. En 2004, la moyenne était de 300 à 400 relecteurs quotidiens produisant entre 4.000 et 7.000 pages par jour, à savoir quatre pages par minute.
Les volontaires peuvent également travailler de manière indépendante, en s'adressant directement au Projet Gutenberg. Ils peuvent saisir leur livre préféré de bout en bout sur le traitement de texte de leur choix. Ils peuvent aussi scanner eux-mêmes un livre, le convertir en texte par le biais d'un logiciel OCR et faire les corrections nécessaires en comparant le résultat à l'original. Dans les deux cas, une deuxième relecture est effectuée par une autre personne. Toute participation est bienvenue, quelle que soit la méthode adoptée. Il est tout à fait possible de joindre d'autres formats en complément du fichier ASCII.
Aussi bien pour Distributed Proofreaders (DP-INT) que pour Distributed Proofreaders Europe (DP Europe), de nouveaux volontaires sont bienvenus, y compris pour les livres en français. Tout le monde est bienvenu. Et la tâche est immense. Comme indiqué sur les deux sites, "DP ne s'attend pas à un engagement inconditionnel de votre part. Corrigez des textes aussi souvent que vous le voulez, et le nombre de pages que vous voulez. Nous encourageons les gens à corriger une page par jour, mais vous êtes tout à fait libre de faire ce qui vous plaît. Nous espérons que vous vous joindrez à notre mission de 'préserver la littérature mondiale dans un format gratuit et disponible pour tous'."
6. BIENTOT DES COLLECTIONS MULTILINGUES
Qu'en est-il exactement des langues?
Dans un premier temps, le Projet Gutenberg est essentiellement anglophone, puisqu'il est basé aux Etats-Unis et qu'il sert en priorité la communauté anglophone nationale et internationale.
En octobre 1997, Michael Hart annonce son intention d'intensifier la production de livres dans des langues autres que l'anglais. Début 1998, le catalogue comprend quelques oeuvres en allemand, en espagnol, en français (dix titres), en italien et en latin. En juillet 1999, Michael écrit: "J'introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible."
Début 2004, 25 langues sont représentées. En juillet 2005, 42 langues sont représentées, dont l'iroquois, le sanscrit et les langues mayas. Outre l'anglais (14.548 livres le 27 juillet 2005), six langues disposent de plus de cinquante titres: le français (577 livres), l'allemand (349 livres), le finnois (218 livres), le hollandais (130 livres), l'espagnol (103 livres) et le chinois (69 livres).
La quantité de livres progresse rapidement pour chaque langue. Pour le français par exemple, sur 11.340 livres disponibles le 13 février 2004, on comptait seulement 181 livres en français. Sur 15.505 livres disponibles le 16 mai 2005, on compte 547 livres en français. Soit trois fois plus en quinze mois. Le mouvement devrait sensiblement s'accélérer ces prochaines années avec la mise en ligne du Projet Gutenberg Europe en juin 2005.
Quels furent les premiers titres dans la langue de Molière? Ce furent six romans de Stendhal et deux romans de Jules Verne, tous mis en ligne au début de 1997. Les six romans de Stendhal sont L'Abbesse de Castro, Les Cenci, La Chartreuse de Parme, La Duchesse de Palliano, Le Rouge et le Noir et Vittoria Accoramboni, et les deux romans de Jules Verne De la terre à la lune et Le tour du monde en quatre-vingts jours. A la même date, si aucun titre de Stendhal n'est disponible en anglais, trois romans de Jules Verne le sont: 20,000 Leagues Under the Seas (Vingt mille lieues sous les mers, mis en ligne en septembre 1994), Around the World in 80 Days (Le tour du monde en quatre-vingts jours, mis en ligne en janvier 1994) et From the Earth to the Moon (De la terre à la lune, mis en ligne en septembre 1993). Stendhal et Jules Verne sont suivis par Edmond Rostand avec Cyrano de Bergerac, mis en ligne en mars 1998.
A la fin de 1999, le "Top 20", à savoir la liste des vingt auteurs les plus lus, mentionne Jules Verne à la onzième place, et Emile Zola à la seizième place. Ils sont toujours en bonne position dans le "Top 100" actuel.
Pour l'image, à titre anecdotique, le premier document disponible toutes langues confondues est French Cave Paintings (Peintures des cavernes en France), mis en ligne dès avril 1995, avec une version XHTML ajoutée en novembre 2000. Il s'agit de quatre photos de peintures paléolithiques retrouvées dans une grotte de l'Ardèche (un département du sud-ouest de la France, dans la région Rhône-Alpes). Ces photos, sous copyright, ont été mises à la disposition du Projet Gutenberg par Jean Clottes, conservateur général du patrimoine, pour que tout le monde en profite.
En 2004, le multilinguisme est devenu l'une des priorités du Projet Gutenberg, tout comme l'internationalisation. Michael Hart prend son bâton de pèlerin vers l'Europe, avec des étapes à Bruxelles, Paris et Belgrade. Le 12 février 2004, il donne une conférence au siège de l'UNESCO (Organisation des Nations Unies pour l'éducation, la science et la culture), à Paris. Le lendemain, toujours à Paris, il anime un débat à l'Assemblée nationale. La semaine suivante, il s'adresse au Parlement européen, à Bruxelles. Puis il rend visite à l'équipe du Projet Rastko, à Belgrade. Le tout pour mieux faire connaître le Projet Gutenberg et pour soutenir la création de Distributed Proofreaders Europe (lancé en janvier 2004) et du Project Gutenberg Europe (conçu à la même date, et mis en ligne en juin 2005).
Le lancement de Distributed Proofreaders Europe (DP Europe) par le Projet Rastko en janvier 2004 représente une étape très importante. DP Europe est calqué sur le site original de Distributed Proofreaders, pour gérer la relecture partagée du Projet Gutenberg Europe. Dès ses débuts, DP Europe est un site multilingue, qui prend en compte les principales langues nationales. En avril 2004, grâce à des traducteurs volontaires, le site de DP Europe est disponible en douze langues. L'objectif à moyen terme est soixante langues, et donc soixante équipes linguistiques, avec prise en compte de toutes les langues européennes. Quand il aura atteint sa vitesse de croisière, DP Europe devrait alimenter plusieurs bibliothèques numériques nationales et/ou linguistiques, par exemple le Projet Gutenberg France pour la France. Le but étant que chaque pays ou région ait son propre accès réseau autorisé (respectant la législation en vigueur dans le pays donné), qui sera un accès local au sein d'un réseau continental (dans le cas de la France, le réseau européen) et d'un réseau global (à l'échelle de la planète).
Quelques mots maintenant sur le Projet Rastko, qui s'est porté volontaire pour un pari aussi fou, catalysant du même coup les bonnes volontés européennes à l'est comme à l'ouest (et partout ailleurs: l'internet n'ayant pas de frontières, il n'est pas utile d'habiter l'Europe pour s'inscrire). Fondé en 1997, le Projet Rastko est une initiative non gouvernementale à vocation culturelle et pédagogique, un de ses objectifs étant la mise en ligne de la culture serbe. Il fait partie de la Balkans Cultural Network Initiative, un réseau culturel régional couvrant la péninsule des Balkans (située au sud-est de l'Europe).
En mai 2005, Distributed Proofreaders Europe fête son centième livre numérisé par ses soins. En juin 2005, le Projet Gutenberg Europe débute sur le web avec la mise en ligne des cent premiers livres. La "norme" utilisée pour définir le domaine public est l'équation "décès de l'auteur + 50 ans". Le 3 août 2005, Distributed Proofreaders Europe recense 137 livres versés dans les collections du Projet Gutenberg Europe, 418 livres prêts à être versés dans les collections (en cours de dernière relecture et assemblage) et 125 livres en cours de correction. DP Europe utilise l'Unicode, pour pouvoir traiter des livres dans un grand nombre de langues. L'Unicode (créé en 1991) est un système d'encodage qui attribue un code unique à chaque caractère, pour la totalité des langues de la planète.
7. DU PASSE... VERS L'AVENIR
10 livres en août 1989, 100 livres en janvier 1994, 1.000 livres en août 1997, 2.000 livres en mai 1999, 3.000 livres en décembre 2000, 4.000 livres en octobre 2001, 5.000 livres en avril 2002, 10.000 livres en octobre 2003, 15.000 livres en janvier 2005. Et une prévision d'un million de livres d'ici 2015.
Mais les résultats du Projet Gutenberg ne se mesurent pas seulement à ces chiffres, qui restent encore assez modestes par rapport à la production imprimée. Les résultats se mesurent également à l'influence du projet, qui est considérable. Premier site d'information sur l'internet et première bibliothèque numérique, le Projet Gutenberg a inspiré bien d'autres bibliothèques numériques, par exemple le Projekt Gutenberg-DE pour la littérature allemande ou le Projekt Runeberg pour la littérature scandinave, pour n'en citer que deux.
La structure administrative et financière du Projet Gutenberg se limite au strict minimum, avec une devise qui tient en trois mots: "Less is more". Michael insiste régulièrement sur la nécessité d'un cadre aussi souple que possible laissant toute initiative aux volontaires, et la porte grande ouverte aux idées nouvelles. Le but est d'assurer la pérennité du projet indépendamment des crédits, des coupures de crédits et des priorités politiques et culturelles du moment. Pas de pression possible donc par le pouvoir et par l'argent. Et respect à l'égard des volontaires, qui sont assurés de voir leur travail utilisé pendant de nombreuses années, si ce n'est pour plusieurs générations (d'où l'intérêt d'un format qui soit toujours valable dans quelques siècles). Les volontaires disposent d'un suivi régulier grâce à une lettre d'information (quotidienne et mensuelle) et des forums de discussion. Les donations servent essentiellement à l'achat de matériel, surtout des ordinateurs et des scanners. Créé en 2000, le PGLAF ( Project Gutenberg Literary Archive Foundation) emploie en tout et pour tout trois personnes à temps partiel.
Chose souvent passée sous silence, Michael Hart est le véritable inventeur de l'eBook. Si on considère l'eBook dans son sens étymologique, à savoir un livre numérisé pour diffusion sous forme de fichier électronique, celui-ci aurait maintenant 34 ans et serait né avec le Projet Gutenberg en juillet 1971. Une paternité beaucoup plus réconfortante que les divers lancements commerciaux dans un format propriétaire ayant émaillé le début des années 2000. Il n'y a aucune raison pour que la dénomination "eBook" ne désigne que l'eBook commercial et soit réservée aux Amazon, Barnes & Noble, Gemstar et autres. L'eBook non commercial est un eBook à part entière, et non un parent pauvre, tout comme l'édition électronique non commerciale est une forme d'édition à part entière, et tout aussi valable que l'édition commerciale. En 2003, les "eTexts" du Projet Gutenberg deviennent des "eBooks", pour coller à la terminologie ambiante.