Le Projet Gutenberg (1971-2008)
Chapter 3
Pour ne prendre qu'un exemple, le classique mondial Autant en emporte le vent (Gone With the Wind), publié en 1939, aurait dû tomber dans le domaine public au bout de 56 ans, en 1995, conformément à la législation de l'époque, libérant ainsi les droits pour les adaptations en tous genres. Suite aux législations de 1976 et 1998, ce classique ne devrait désormais tomber dans le domaine public qu'en 2035.
La législation de 1998 porte un coup très rude aux bibliothèques numériques, en plein essor avec le développement du web, et scandalisent ceux qui les gèrent, à commencer par Michael Hart, fondateur du Projet Gutenberg en 1971, et John Mark Ockerbloom, fondateur de l'Online Books Page en 1993. Nombre de titres doivent être retirés des collections.
Mais comment faire le poids vis-à-vis des majors de l'édition? Michael Hart raconte en juillet 1999: "J'ai été le principal opposant aux extensions du copyright, mais Hollywood et les grands éditeurs ont fait en sorte que le Congrès ne mentionne pas mon action en public. Les débats actuels sont totalement irréalistes. Ils sont menés par 'l'aristocratie terrienne de l'âge de l'information' et servent uniquement ses intérêts. Un âge de l'information? Et pour qui?"
John Mark Ockerbloom ajoute en août 1999: "Il est important que les internautes comprennent que le copyright est un contrat social conçu pour le bien public - incluant à la fois les auteurs et les lecteurs. Ceci signifie que les auteurs devraient avoir le droit d'utiliser de manière exclusive et pour un temps limité les oeuvres qu'ils ont créées, comme ceci est spécifié dans la loi actuelle sur le copyright. Mais ceci signifie également que leurs lecteurs ont le droit de copier et de réutiliser ce travail autant qu'ils le veulent à l'expiration de ce copyright. Aux Etats-Unis, on voit maintenant diverses tentatives visant à retirer ces droits aux lecteurs, en limitant les règles relatives à l'utilisation de ces oeuvres, en prolongeant la durée du copyright (y compris avec certaines propositions visant à le rendre permanent) et en étendant la propriété intellectuelle à des travaux distincts des oeuvres de création (comme on en trouve dans les propositions de copyright pour les bases de données). Il existe même des propositions visant à entièrement remplacer la loi sur le copyright par une loi instituant un contrat beaucoup plus lourd."
Les instances politiques ne cessent de parler d'âge de l'information alors que, en parallèle, elles durcissent la réglementation relative à la mise à disposition de cette information. La contradiction est flagrante. Le copyright est passé d'une durée de 30 ans en moyenne en 1909 à une durée de 95 ans en moyenne en 1998, explique Michael Hart sur son blog. En 89 ans, de 1909 à 1998, le copyright a subi une extension de 65 ans qui affecte les trois quarts de la production du 20e siècle. Seul un livre publié avant 1923 peut être considéré avec certitude comme du domaine public. Un durcissement similaire touche les pays de l'Union européenne. La règle générale est désormais un copyright de 70 ans après le décès de l'auteur, alors qu'il était auparavant de 50 ans. Ceci suite aux pressions exercées par les éditeurs de contenu, sous le prétexte d'harmoniser les lois nationales relatives au copyright pour répondre à la mondialisation du marché.
Pour éviter les poursuites judiciaires, le Projet Gutenberg se lance régulièrement dans des recherches pouvant durer des années pour déterminer si tel ou tel livre est du domaine public ou non. A ce jour, il peut s'enorgueillir d'un résultat exact à 99,9% pour l'ensemble de ses collections, ce pourcentage signifiant que 20 livres seulement sur les 20.000 livres que comptent les collections (en décembre 2006) pourraient poser problème. Sur le site du Project Gutenberg Consortia Center (PGCC), Michael Hart raconte que la version originale en tchèque de Universal Robots de Rossum lui a demandé des années de recherches dans le monde entier pour avoir l'assurance que cette version était du domaine public aux Etats-Unis. Quant au discours I Have a Dream de Martin Luther King, tombé pendant un temps court dans le domaine public, il a dû être retiré des collections suite à une législation plus contraignante sur le copyright.
Une lueur d'espoir existe toutefois pour les livres parus après 1923. D'après Greg Newby, directeur de la PFLAF (Project Gutenberg Literary Archive Foundation), un million de livres publiés aux Etats-Unis entre 1923 et 1963 appartiendrait en fait au domaine public, puisque seuls 10% des copyrights sont effectivement renouvelés - avec renouvellement demandé entre 1950 et 1993. Les livres dont le copyright n'a pas été renouvelé peuvent donc légalement intégrer les collections du Projet Gutenberg. Pourquoi la période 1923-1963? Parce que les livres parus avant le 1er janvier 1923 sont du domaine public et que les livres parus à compter du 1er janvier 1964 ont vu leur copyright automatiquement renouvelé suite à l'adoption du 1976 Copyright Act.
Pour un titre donné, comment savoir si le copyright a été renouvelé ou non? Pour les livres aux copyrights renouvelés en 1978 et après, on dispose de la base de données en ligne du US Copyright Office. Pour les livres aux copyrights renouvelés entre 1950 et 1977, on ne disposait que des publications imprimées bisannuelles (deux fois par an) du même Copyright Office. En 2004, ces listes sont numérisées par Distributed Proofreaders et mises en ligne sur le site du Projet Gutenberg. Si un livre publié entre 1923 et 1963 ne figure sur aucune de ces listes, cela signifie que son copyright n'a pas été renouvelé, qu'il est tombé dans le domaine public et qu'on peut donc le traiter. En avril 2007, l'Université de Stanford (Californie) convertit les listes numérisées du Projet Gutenberg en base de données - la Copyright Renewal Database - avec recherche possible par titre, auteur, date du copyright et date de renouvellement du copyright.
7. DU PASSE VERS L'AVENIR
Le pari fait par Michael Hart en 1971 est donc réussi. Le Projet Gutenberg compte 10 livres en août 1989, 100 livres en janvier 1994, 1.000 livres en août 1997, 2.000 livres en mai 1999, 3.000 livres en décembre 2000, 4.000 livres en octobre 2001, 5.000 livres en avril 2002, 10.000 livres en octobre 2003, 15.000 livres en janvier 2005, 20.000 livres en décembre 2006 et 25.000 livres en avril 2008.
Mais les résultats du Projet Gutenberg ne se mesurent pas seulement à ces chiffres, qui restent assez modestes par rapport à la production imprimée. Les résultats se mesurent également à l'influence du projet, qui est considérable. Premier site d'information sur l'internet et première bibliothèque numérique, le Projet Gutenberg a inspiré bien d'autres bibliothèques numériques depuis, par exemple le Projekt Runeberg pour la littérature scandinave ou le Projekt Gutenberg-DE pour la littérature allemande, pour n'en citer que deux. Fondé en décembre 1992 par Lysator, un club informatique d'étudiants, en collaboration avec la Linköping University Library (Suède), le Projekt Runeberg regroupe 200 oeuvres appartenant à la littérature nordique. Créé en 1994, le Projekt Gutenberg-DE - désormais hébergé sur le site de l'hebdomadaire Der Spiegel - comprend 200 titres de littérature allemande et de littérature étrangère en allemand.
La structure administrative et financière du Projet Gutenberg se limite au strict minimum, avec une devise qui tient en trois mots: «Less is more.» Michael Hart insiste régulièrement sur la nécessité d'un cadre aussi souple que possible laissant toute initiative aux volontaires, et la porte grande ouverte aux idées nouvelles. Le but est d'assurer la pérennité du projet indépendamment des crédits, des coupures de crédits et des priorités politiques et culturelles du moment. Pas de pression possible donc par le pouvoir et par l'argent. Et respect à l'égard des volontaires, qui sont assurés de voir leur travail utilisé pendant de nombreuses années, si ce n'est pour plusieurs générations, d'où l'intérêt d'un format numérique qui soit toujours valable dans quelques siècles. Le suivi régulier du projet est assuré grâce à une lettre d'information hebdomadaire et mensuelle, des forums de discussion, des wikis et des blogs.
Les dons servent à financer des ordinateurs et des scanners, et à envoyer des CD et DVD gratuits à ceux qui en font la demande. Suite au CD Best of Gutenberg disponible en août 2003 avec une sélection de 600 titres et à un premier DVD disponible en décembre 2003 avec 9.400 titres (sur les 10.000 titres que comprennent les collections), un deuxième DVD est disponible en juillet 2006 avec 17.000 titres (sur les 19.000 titres que comprennent désormais les collections). En 2005, CD et DVD sont disponibles sous forme d'images ISO sur le site de BitTorrent, ces images pouvant être téléchargées pour graver des CD et DVD sur place à titre personnel. En 2007, le Projet Gutenberg envoie 15 millions de livres par voie postale sous forme de CD et DVD.
Chose souvent passée sous silence, Michael Hart est le véritable inventeur de l'ebook. Si on considère l'ebook dans son sens étymologique, à savoir un livre numérisé pour diffusion sous forme de fichier électronique, celui-ci aurait 37 ans et serait né avec le Projet Gutenberg en juillet 1971. Une paternité beaucoup plus réconfortante que les divers lancements commerciaux dans un format propriétaire ayant émaillé le début des années 2000. Il n'y a aucune raison pour que la dénomination "ebook" ne désigne que l'ebook commercial et soit réservée aux Amazon, Barnes & Noble, et autres. L'ebook non commercial est un ebook à part entière, et non un parent pauvre, tout comme l'édition électronique non commerciale est une forme d'édition à part entière, et tout aussi valable que l'édition commerciale. En 2003, les etexts du Projet Gutenberg deviennent des ebooks, pour coller à la terminologie ambiante.
En juillet 1971, l'envoi d'un fichier de 5 Ko (kilo-octets) à cent personnes aurait fait sauter l'embryon de réseau disponible à l'époque. En novembre 2002, le Projet Gutenberg peut mettre en ligne les 75 fichiers du Human Genome Project (Le séquençage du génome humain), chaque fichier se chiffrant en dizaines sinon en centaines de mégaoctets. Ceci peu de temps après sa parution initiale en février 2001, puisqu'il appartient d'emblée au domaine public. En 2004, la capacité de stockage des disques durs est telle qu'il serait possible de faire tenir l'intégralité de la Library of Congress sur un support de stockage coûtant 140 dollars US. Et quelques années seulement nous sépareraient d'une clé USB permettant de stocker l'intégralité du patrimoine écrit de l'humanité.
Qu'en est-il des documents autres que l'écrit? En septembre 2003, le Projet Gutenberg se lance dans la diffusion de livres audio. En décembre 2006, on compte 367 livres lus par une synthèse vocale (Audio Book, computer-generated) et 132 livres lus par l'être humain (Audio Book, human-read). Le nombre de ces derniers devrait fortement augmenter dans un proche avenir. Ils sont au nombre de 412 en mai 2008. Par contre, les livres lus par une synthèse vocale ne sont plus être stockés dans une section spécifique, mais réalisés à la demande à partir des fichiers électroniques existant dans les collections générales. Les lecteurs aveugles ou malvoyants pourront utiliser une commande vocale pour demander le texte de tel ou tel livre.
Lancée à la même époque, la section The Sheet Music Subproject est consacrée aux partitions musicales numérisées (Music, Sheet). Elle est complétée par une section d'enregistrements musicaux (Music, recorded). Des sections sont également disponibles pour les images fixes (Pictures, still) et animées (Pictures, moving). Ces nouvelles collections devraient être développées dans les prochaines années.
Mais la numérisation des livres reste prioritaire. Et la demande est énorme. En témoigne le nombre de téléchargements, qui se comptent désormais en dizaines de milliers par jour. A la date du 31 juillet 2005, on compte 37.532 fichiers téléchargés dans la journée, 243.808 fichiers téléchargés dans la semaine et 1.154.765 fichiers téléchargés dans le mois. A la date du 6 mai 2007, on compte 89.841 fichiers téléchargés dans la journée, 697.818 fichiers téléchargés dans la semaine et 2.995.436 fichiers téléchargés dans le mois. Courant mai, ce nombre atteint les 3 millions. A la date du 8 mai 2008, on compte 115.138 fichiers téléchargés dans la journée, 714.323 fichiers téléchargés dans la semaine et 3.055.327 fichiers téléchargés dans le mois. Ceci uniquement pour le principal site de téléchargement, ibiblio.org (basé à l'Université de Caroline du Nord, Chapel Hill, Etats-Unis), qui héberge aussi le site du Projet Gutenberg. Le deuxième site de téléchargement est l'Internet Archive, qui est aussi le site de sauvegarde et qui met à la disposition du Projet Gutenberg une capacité de stockage illimitée.
Le Projet Gutenberg dispose de 40 sites miroirs répartis dans de nombreux pays, et il en cherche d'autres. La circulation des fichiers se fait aussi en mode P2P (peer-to-peer), qui permet d'échanger des fichiers directement d'un utilisateur à l'autre.
Un Top 100 recense les cent titres et les cent auteurs les plus téléchargés dans la journée, dans la semaine et dans le mois.
Les livres du Projet Gutenberg peuvent aider à combler la fracture numérique. Ils sont aisément téléchargeables sur PDA. Un ordinateur ou un PDA d'occasion ne coûte que quelques dollars ou quelques dizaines de dollars, en fonction du modèle. Certains PDA fonctionnent à l'énergie solaire, permettant la lecture dans les régions reculées et les pays en développement.
Plus tard, il sera peut-être possible d'envisager une traduction simultanée dans une centaine de langues. En utilisant la traduction automatique qui, d'ici là, pourrait avoir atteint un taux de fiabilité de l'ordre de 99%, un pourcentage dont on est encore loin. En 2004, le Projet Gutenberg était en lien avec un projet européen envisageant un logiciel de traduction automatique relayé par des traducteurs (non pas des machines, mais des êtres humains), sur un modèle comparable à la technologie OCR relayée par des correcteurs (non pas des logiciels, mais des êtres humains) pour offrir un contenu de grande qualité.
37 ans après les débuts du Projet Gutenberg, Michael Hart se définit toujours comme un fou de travail dédiant toute sa vie à son projet, qu'il voit comme étant à l'origine d'une révolution néo-industrielle. Il se définit aussi comme altruiste, pragmatique et visionnaire. Après avoir été traité de toqué pendant de nombreuses années, il force maintenant le respect. Au fil des ans, la mission du Projet Gutenberg reste la même, à savoir changer le monde par le biais de l'ebook gratuit indéfiniment utilisable et reproductible. L'objectif reste lui aussi le même, à savoir la lecture et la culture pour tous à moindres frais. Quant à la mission, elle se résume en quelques mots: "encourager la création et la distribution d'ebooks", par autant de personnes que possible, et par tous les moyens. Tout en prenant les virages nécessaires pour intégrer de nouvelles idées, de nouvelles méthodes et de nouveaux supports.
D'après Michael Hart, le patrimoine écrit de l'humanité représenterait 25 millions de livres appartenant au domaine public, qui pourraient être collectés auprès des grandes bibliothèques nationales et régionales, à raison d'un exemplaire par livre, sans tenir compte des nombreuses éditions annotées et commentées. Si Gutenberg a permis à chacun d'avoir des livres grâce à l'invention de l'imprimerie, le Projet Gutenberg permet à chacun d'avoir une bibliothèque de livres grâce au stockage de ceux-ci sur un support numérique tenant dans un sac sinon dans une poche. En avril 2008, le Projet Gutenberg permet d'ores et déjà à chacun d'avoir une bibliothèque numérique de 25.000 livres au contenu parfaitement fiable.
Laissons le mot de la fin à Michael Hart, à qui je demandais en août 1998 quel était son meilleur souvenir. A l'époque, il répondait: "Le courrier que je reçois me montre combien les gens apprécient que j'aie passé ma vie à mettre des livres sur l'internet. Certaines lettres sont vraiment émouvantes, et elles me rendent heureux pour toute la journée." Dix ans après, il confirme que sa réponse serait toujours la même.
8. CHRONOLOGIE
[*1971/07 = année/mois]
1971/07: Saisie par Michael Hart de The United States Declaration of Independence (ebook #1) et diffusion d'un message auprès des cent premiers usagers du réseau. Le Projet Gutenberg est né.
1972: Saisie de The United States Bill of Rights (eBook #2).
1973: Saisie de The United States Constitution (eBook #5).
1974-88: Saisie de la Bible et de plusieurs pièces de Shakespeare.
1989/08: The King James Bible (eBook #10).
1991/01: Alice's Adventures in Wonderland (eBook #11).
1991/06: Peter Pan (eBook #16).
1991: Numérisation d'un livre par mois.
1992: Numérisation de deux livres par mois.
1993: Numérisation de quatre livres par mois.
1993/12: Constitution de trois grands secteurs: Light Literature, Heavy Literature, Reference Literature.
1994: Numérisation de huit livres par mois.
1994/01: The Complete Works of William Shakespeare (eBook #100).
1995: Numérisation de 16 livres par mois.
1996-97: Numérisation de 32 livres par mois.
1997/08: La Divina Commedia di Dante, en italien (eBook #1000).
1997: Lancement du Project Gutenberg Consortia Center (PGCC).
1998-2000: Numérisation de 36 livres par mois.
1999/05: Don Quijote, de Cervantès, en espagnol (eBook #2000).
2000: Création de la Project Gutenberg Literary Archive Foundation (PGLAF).
2000/10: Lancement de Distributed Proofreaders par Charles Franks pour permettre la correction partagée.
2000/12: A l'ombre des jeunes filles en fleurs (vol. 3), de Proust, en français (eBook #3000).
2001/08: Création du Project Gutenberg of Australia.
2001/10: The French Immortals Series, en anglais (eBook #4000).
2001: Numérisation de 104 livres par mois.
2002: Affiliation officielle de Distributed Proofreaders au Projet Gutenberg.
2002/04: The Notebooks of Leonardo da Vinci, en anglais (eBook #5000).
2002: Numérisation de 203 livres par mois.
2003/08: Edition d'un CD «Best of Gutenberg» contenant 600 livres.
2003/09: Lancement de la section Project Gutenberg Audio eBooks.
2003/10: Les collections doublent en dix-huit mois, passant de 5.000 à 10.000 livres.
2003/10: The Magna Carta (eBook # 10000).
2003/12: Edition du premier DVD, qui contient 9.400 livres.
2003: Numérisation de 348 livres par mois.
2003: Affiliation officielle du Project Gutenberg Consortia Center (PGCC) au Projet Gutenberg.
2003/12: Lancement de Distributed Proofreaders Europe (DP-EU) par le Projet Rastko.
2004/01: Lancement du Projet Gutenberg Europe par le Projet Rastko.
2004/02: Voyage de Michael Hart en Europe (Paris, Bruxelles, Belgrade).
2004/02: Conférence de Michael Hart au siège de l'UNESCO, à Paris.
2004/02: Visite de Michael Hart au Parlement européen, à Bruxelles.
2004/10: 5.000 livres produits par Distributed Proofreaders.
2004: Numérisation de 338 livres par mois.
2005/01: The Life of Reason, par George Santayana (eBook #15000).
2005/05: 7.000 livres produits par Distributed Proofreaders.
2005/05: 100 premiers livres produits par Distributed Proofreaders Europe.
2005/06: Le Projet Gutenberg compte 16.000 livres.
2005/06: Le Projet Gutenberg Europe compte 100 livres.
2005/07: Le Project Gutenberg of Australia compte 500 livres.
2005/10: 5e anniversaire de Distributed Proofreaders.
2005: Numérisation de 252 livres par mois.
2006/01: Lancement de la section Project Gutenberg PrePrints.
2006/02: 8.000 livres produits par Distributed Proofreaders.
2006/05: Création de la Distributed Proofreaders Foundation.
2006/07: 35e anniversaire du Projet Gutenberg.
2006/07: Edition d'un nouveau DVD, qui contient 17.000 livres.
2006/11: Lancement du site Project Gutenberg News.
2006/12: Le Projet Gutenberg compte 20.000 livres.
2006/12: Twenty Thousand Leagues Under the Sea, par Jules Verne, audiobook en anglais (eBook #20000).
2006/12: 400 livres produits par Distributed Proofreaders Europe.
2006: Numérisation de 345 livres par mois.
2007/03: 10.000 livres produits par Distributed Proofreaders.
2007/04: Le Project Gutenberg of Australia compte 1.500 livres.
2007/07: Création de Project Gutenberg Canada (PGC).
2007/12: Lancement de Distributed Proofreaders Canada (DPC).
2007: Numérisation de 338 livres par mois.
2008/03: Le Project Gutenberg of Canada compte 100 livres.
2008/04: Le Projet Gutenberg compte 25.000 livres.
2008/04: English Book Collectors, par William Younger Fletcher (eBook #25000).
2008/05: Le Projet Gutenberg Europe compte 500 livres.
9. STATISTIQUES
*Ces statistiques concernent uniquement le site original du Projet Gutenberg. Des statistiques relatives aux autres sites du Projet Gutenberg (Australie, Europe, Canada) sont disponibles dans Project Gutenberg News.
= Quelques chiffres
1.000 livres en août 1997.
2.000 livres en mai 1999.
3.000 livres en décembre 2000.
4.000 livres en octobre 2001.
5.000 livres en avril 2002.
10.000 livres en octobre 2003.
15.000 livres en janvier 2005.
20.000 livres en décembre 2006.
25.000 livres en avril 2008.
= Nouveaux livres: moyennes annuelles
2001: 1.244 livres par an.
2002: 2.432 livres par an.
2003: 4.176 livres par an.
2004: 4.058 livres par an.
2005: 3.019 livres par an.
2006: 4.141 livres par an.
2007: 4.049 livres par an.
= Nouveaux livres: moyennes mensuelles
2001: 104 livres par mois.
2002: 203 livres par mois.
2003: 348 livres par mois.
2004: 338 livres par mois.
2005: 252 livres par mois.
2006: 345 livres par mois.
2007: 338 livres par mois.
= Nouveaux livres: moyennes hebdomadaires
2001: 24 livres par semaine.
2002: 47 livres par semaine.
2003: 79 livres par semaine.
2004: 78 livres par semaine.
2005: 58 livres par semaine.
2006: 80 livres par semaine.
2007: 78 livres par semaine.
= Quelques eBooks
eBook #1: The United States Declaration of Independence (1776) [en ligne en juillet 1971].
eBook #2: The United States Bill of Rights (1789) [en ligne en 1972].
eBook #5: The United States Constitution (1787) [en ligne en 1973].
eBook #10: The King James Bible (1769) [en ligne en août 1989].
eBook #11: Alice's Adventures in Wonderland, de Lewis Caroll (1865) [en ligne en janvier 1991].
eBook #16: Peter Pan, de James Barrie (1904) [en ligne en juin 1991].
eBook #100: The Complete Works of William Shakespeare (1590-1613) [en ligne en janvier 1994].
eBook #1000: La Divina Commedia di Dante (1321, en italien) [en ligne en août 1997].
eBook #2000: Don Quichote, de Cervantès (1605, en espagnol) [en ligne en mai 1999].
eBook #3000: A l'ombre des jeunes filles en fleurs, vol. 3, de Marcel Proust (1919) [en ligne en décembre 2000].
eBook #4000: The French Immortals Series (1905) [en ligne en octobre 2001].
eBook #5000: The Notebooks of Leonardo da Vinci (début 16e s.) [en ligne en avril 2002].
eBook #10000: The Magna Carta (début 13e s.) [en ligne en octobre 2003].
eBook #15000: The Life of Reason, de George Santayana (1906) [en ligne en janvier 2005].
eBook #20000: Twenty Thousand Leagues Under the Sea, de Jules Verne (1869), livre audio [en ligne en décembre 2006].
eBook #25000: English Book Collectors, de William Younger Fletcher (1902) [en ligne en avril 2008].
= Nombre de langues avec 50+ livres
Janvier 2004: 25 langues.
Juillet 2005: 42 langues.
Décembre 2006: 50 langues.
Avril 2008: 55 langues.
= Langues majeures
Juillet 2005: anglais, français, allemand, finnois, hollandais, espagnol, chinois. [Sur un total de 16.800 livres le 27 juillet 2005, 14.548 livres sont en anglais, 577 livres en français, 349 livres en allemand, 218 livres en finnois, 130 livres en hollandais, 103 livres en espagnol et 69 livres en chinois.]