Le web, une encyclopédie multilingue
Part 5
Bakayoko Bourahima est responsable de la bibliothèque de l’ENSEA (École nationale supérieure de statistique et d’économie appliquée) d'Abidjan, en Côte d’Ivoire. Il écrit en juillet 2000: «Pour nous les Africains francophones, le diktat de l’anglais sur la toile représente pour la masse un double handicap d’accès aux ressources du réseau. Il y a d’abord le problème de l’alphabétisation qui est loin d’être résolu et que l’internet va poser avec beaucoup plus d’acuité, ensuite se pose le problème de la maîtrise d’une seconde langue étrangère et son adéquation à l’environnement culturel. (…) Nos systèmes éducatifs ont déjà beaucoup de mal à optimiser leurs performances, en raison, selon certains spécialistes, des contraintes de l’utilisation du français comme langue de formation de base. Il est donc de plus en plus question de recourir aux langues vernaculaires pour les formations de base, pour "désenclaver" l’école en Afrique et l’impliquer au mieux dans la valorisation des ressources humaines. Comment faire? Je pense qu’il n’y a pas de chance pour nous de faire prévaloir une quelconque exception culturelle sur la toile, ce qui serait de nature tout à fait grégaire. Il faut donc que les différents blocs linguistiques s’investissent beaucoup plus dans la promotion de leur accès à la toile, sans oublier leurs différentes spécificités internes.»
Bruno Didier, webmestre de la bibliothèque de l’Institut Pasteur, écrit en août 1999: «Internet n’est une propriété ni nationale, ni linguistique. C’est un vecteur de culture, et le premier support de la culture, c’est la langue. Plus il y a de langues représentées dans leur diversité, plus il y aura de cultures sur internet. Je ne pense pas qu’il faille justement céder à la tentation systématique de traduire ses pages dans une langue plus ou moins universelle. Les échanges culturels passent par la volonté de se mettre à la portée de celui vers qui on souhaite aller. Et cet effort passe par l’appréhension de sa langue. Bien entendu c’est très utopique comme propos. Concrètement, lorsque je fais de la veille, je peste dès que je rencontre des sites norvégiens ou brésiliens sans un minimum d’anglais.»
Alain Bron, consultant en systèmes d’information et écrivain, explique en novembre 1999: «Il y aura encore pendant longtemps l'usage de langues différentes et tant mieux pour le droit à la différence. Le risque est bien entendu l'envahissement d'une langue au détriment des autres, donc l'aplanissement culturel. Je pense que des services en ligne vont petit à petit se créer pour pallier cette difficulté. Tout d'abord, des traducteurs pourront traduire et commenter des textes à la demande, et surtout les sites de grande fréquentation vont investir dans des versions en langues différentes, comme le fait l'industrie audiovisuelle.»
Luc dall'Armellina, co-auteur et webmestre d’oVosite, un espace d’écriture hypermédia, écrit en juin 2000: «L'anglais s'impose sans doute parce qu'il est devenu la langue commerciale d'échange généralisée; il semble important que toutes les langues puissent continuer à être représentées parce que chacune d'elle est porteuse d'une vision "singulière" du monde. La traduction simultanée (proposée par AltaVista par exemple) ou les versions multilingues d'un même contenu me semblent aujourd'hui les meilleures réponses au danger de pensée unique que représenterait une seule langue d'échange. Peut-être appartient-il aux éditeurs des systèmes d'exploitation (ou de navigateurs?) de proposer des solutions de traduction partielle, avec toutes les limites connues des systèmes automatiques de traduction...»
En été 2000, 50% des usagers de l'internet sont non anglophones. Le cap des 50% étant désormais franchi, il reste à diversifier les langues sur une toile dont 78% des pages sont encore en anglais.
2000 > ENCYCLOPÉDIES ET DICTIONNAIRES EN LIGNE
[Résumé] Les premières encyclopédies de référence disponibles sur le web émanent de versions imprimées. C’est aussi le cas des dictionnaires en ligne. WebEncyclo est mis en ligne par les éditions Atlas en décembre 1999 avec accès libre et gratuit, tout comme l’Encyclopaedia Universalis, mais avec accès payant. Le site Britannica.com est lui aussi mis en ligne à la même date pour proposer le contenu des 32 volumes de l’Encyclopaedia Britannica, d’abord en accès libre puis en accès payant. Les premiers dictionnaires de référence en ligne émanent eux aussi de versions imprimées. Le Dictionnaire universel francophone en ligne des éditions Hachette est disponible en accès libre dès 1997. Les 20 volumes de l'Oxford English Dictionary (OED) sont mis en ligne en mars 2000 avec accès payant. Conçu directement pour le web, le Grand dictionnaire terminologique (GDT) est mis en ligne en septembre 2000 avec accès libre et gratuit.
***
Les premières encyclopédies de référence disponibles sur le web émanent de versions imprimées. C’est aussi le cas des dictionnaires en ligne.
# Les encyclopédies
WebEncyclo (aujourd'hui disparu), publié par les éditions Atlas, est la première grande encyclopédie francophone en accès libre, avec mise en ligne en décembre 1999. La recherche est possible par mots-clés, thèmes, médias (à savoir les cartes, liens internet, photos et illustrations) et idées. Un appel à contribution incite les spécialistes d'un sujet donné à envoyer des articles, qui sont regroupés dans la section «WebEncyclo contributif». Après avoir été libre, l'accès est ensuite soumis à une inscription préalable gratuite.
La version web de l'Encyclopaedia Universalis est elle aussi mise en ligne en décembre 1999, ce qui représente un ensemble de 28.000 articles signés de 4.000 auteurs. Si la consultation est payante sur la base d'un abonnement annuel, de nombreux articles sont également en accès libre.
Le site Britannica.com est mis en ligne à la même date, en tant que première grande encyclopédie anglophone en accès libre. Le site propose l'équivalent numérique des 32 volumes de l'Encyclopaedia Britannica (15e édition), en complément de la version imprimée et de la version CD-Rom, toutes deux payantes. Le site web offre aussi une sélection d'articles issus de 70 magazines, un guide des meilleurs sites, un choix de livres, etc., le tout étant accessible à partir d'un moteur de recherche unique. En septembre 2000, le site fait partie des cent sites les plus visités du web. En juillet 2001, la consultation devient payante sur la base d'un abonnement annuel ou mensuel. Beaucoup plus tard, en 2009, Britannica.com ouvre son site à des contributeurs externes, avec inscription obligatoire pour écrire et modifier des articles.
# Les dictionnaires
Le premier grand dictionnaire de langue française en accès libre est le Dictionnaire universel francophone en ligne, qui répertorie 45.000 mots et 116.000 définitions tout en présentant «sur un pied d'égalité, le français dit "standard" et les mots et expressions en français tel qu'on le parle sur les cinq continents». Issu de la collaboration entre Hachette et l'AUPELF-UREF (devenu depuis l'AUF - Agence universitaire de la Francophonie), il est mis en ligne dès 1997 et correspond à la partie «noms communs» du dictionnaire imprimé disponible chez Hachette.
L'équivalent pour la langue anglaise est le site Merriam-Webster OnLine, qui donne librement accès au Collegiate Dictionary, au Collegiate Thesaurus et à d’autres outils linguistiques.
En mars 2000, les 20 volumes de l'Oxford English Dictionary (OED) sont mis en ligne par l'Oxford University Press (OUP). La consultation du site est payante. Le dictionnaire bénéficie d'une mise à jour trimestrielle d'environ 1.000 entrées nouvelles ou révisées.
En mars 2002, deux ans après cette première expérience, l'Oxford University Press lance l'Oxford Reference Online (ORO), une vaste encyclopédie conçue cette fois directement pour le web et consultable elle aussi sur abonnement payant. Avec 60.000 pages et un million d'entrées, elle représente l'équivalent d'une centaine d'ouvrages de référence.
# Un dictionnaire bilingue
Conçu lui aussi directement pour le web, avec accès libre et gratuit, le Grand dictionnaire terminologique (GDT) est un dictionnaire bilingue français-anglais de trois millions de termes appartenant au vocabulaire industriel, scientifique et commercial. Sa mise en ligne en septembre 2000 est le résultat d'un partenariat entre l'Office québécois de la langue française (OQLF), auteur du dictionnaire, et Semantix, société spécialisée dans les solutions logicielles linguistiques.
Dès le premier mois, le GDT est consulté par 1,3 million de personnes, avec 60.000 requêtes par jour. La gestion du GDT est ensuite assurée par Convera Canada, avec 3,5 millions de requêtes mensuelles en février 2003. Une nouvelle version du GDT est mise en ligne en mars 2003. La gestion du dictionnaire est désormais assurée par l'OQLF lui-même, et non plus par une société prestataire, avec l’ajout du latin comme troisième langue.
2000 > LE PORTAIL YOURDICTIONARY.COM
[Résumé] Robert Beard, professeur de langues à l'Université Bucknell (États-Unis), crée d'abord en 1995 le site «A Web of Online Dictionaries» (800 liens en septembre 1998), qui est un répertoire de dictionnaires en ligne dans diverses langues, auquel s'ajoutent d'autres sections: dictionnaires multilingues, dictionnaires anglophones spécialisés, thesaurus, vocabulaires, grammaires, glossaires et méthodes de langues. Une section appelée Linguistic Fun propose des outils linguistiques pour non spécialistes. Robert Beard cofonde ensuite le portail yourDictionary.com en y intégrant son site précédent, avec mise en ligne en février 2000. Le portail répertorie 1.800 dictionnaires dans 250 langues en septembre 2003, et 2.500 dictionnaires dans 300 langues en avril 2007. Soucieux de servir toutes les langues sans exception, le portail propose aussi l'Endangered Language Repository, une section spécifique consacrée aux langues menacées.
***
Professeur de langues à la Bucknell University (États-Unis), Robert Beard cofonde en février 2000 le portail yourDictionary.com, un portail pour toutes les langues sans exception qui intègre son premier site, «A Web of Online Dictionaries», créé en 1995.
«A Web of Online Dictionaries» est un répertoire de dictionnaires en ligne dans diverses langues, auquel s'ajoutent d'autres sections: dictionnaires multilingues, dictionnaires anglophones spécialisés, thesaurus, vocabulaires, grammaires, glossaires et méthodes de langues, sans oublier une section proposant des outils linguistiques pour non spécialistes, sous le nom de Linguistic Fun.
Robert Beard écrit en septembre 1998: «On a d'abord craint que le web représente un danger pour le multilinguisme, étant donné que le langage HTML et d'autres langages de programmation sont basés sur l'anglais et qu'on trouve tout simplement plus de sites web en anglais que dans toute autre langue. Cependant, le site web que je gère montre que le multilinguisme est très présent et que le web peut en fait permettre de préserver des langues menacées de disparition. Je propose maintenant des liens vers des dictionnaires dans 150 langues différentes et des grammaires dans 65 langues différentes. De plus, comme les concepteurs de logiciels de navigation manifestent une attention nouvelle pour la diversité des langues dans le monde, ceci va encourager la présence de davantage encore de sites web dans différentes langues.»
Cinq ans après le lancement de son premier site, Robert Beard cofonde le portail yourDictionary.com, qui intègre son site précédent, avec mise en ligne du portail en février 2000. Il explique en janvier 2000 : «Nos nouvelles idées sont nombreuses. Nous projetons de travailler avec l'Endangered Language Fund aux États-Unis et en Grande-Bretagne pour rassembler des fonds pour cette fondation et nous publierons les résultats sur notre site. Nous aurons des groupes de discussion et des bulletins d'information sur les langues. Il y aura des jeux de langue destinés à se distraire et à apprendre les bases de la linguistique. La page Linguistic Fun deviendra un journal en ligne avec des extraits courts, intéressants et même amusants dans différentes langues, choisis par des experts du monde entier.»
Soucieux de servir toutes les langues sans exception, le portail propose l'Endangered Language Repository, une section spécifique consacrée aux langues menacées. «Les langues menacées sont essentiellement des langues non écrites, explique Robert Beard à la même date. Un tiers seulement des quelque 6.000 langues existant dans le monde sont à la fois écrites et parlées. Je ne pense pourtant pas que le web va contribuer à la perte de l’identité des langues et j’ai même le sentiment que, à long terme, il va renforcer cette identité. Par exemple, de plus en plus d’Indiens d’Amérique contactent des linguistes pour leur demander d’écrire la grammaire de leur langue et de les aider à élaborer des dictionnaires. Pour eux, le web est un instrument à la fois accessible et très précieux d’expression culturelle.»
En septembre 2003, yourDictionary.com répertorie 1.800 dictionnaires dans 250 langues, ainsi que d’autres outils linguistiques: vocabulaires, grammaires, glossaires, méthodes de langues, etc. En avril 2007, 2.500 dictionnaires et grammaires sont disponibles dans 300 langues.
Robert Beard écrivait de manière prémonitoire dès septembre 1998: «Le web sera une encyclopédie du monde faite par le monde pour le monde. Il n'y aura plus d'informations ni de connaissances utiles qui ne soient pas disponibles, si bien que l'obstacle principal à la compréhension internationale et interpersonnelle et au développement personnel et institutionnel sera levé. Il faudrait une imagination plus débordante que la mienne pour prédire l'effet de ce développement sur l'humanité.»
2000 > LE PROJET GUTENBERG ET LES LANGUES
[Résumé] Le Projet Gutenberg est un projet visionnaire lancé en juillet 1971 par Michael Hart pour créer des versions électroniques gratuites d'oeuvres littéraires et les diffuser dans le monde entier. En 2010, le Projet Gutenberg compte plus de 33.000 ebooks de grande qualité ainsi que des dizaines de milliers de téléchargements par jour. Il dispose de sites web aux États-Unis, en Australie, en Europe et au Canada, avec 40 sites miroirs répartis sur toute la planète. Les livres numériques sont surtout en anglais, mais le multilinguisme est l'une des priorités du projet depuis la fin des années 1990. Le français est la deuxième langue. Soixante langues sont représentées en décembre 2010, grâce au patient travail de Distributed Proofreaders, un site web lancé en 2000 pour partager la relecture des livres entre des centaines de volontaires dans de nombreux pays.
***
Le Projet Gutenberg est un projet visionnaire lancé en juillet 1971 par Michael Hart pour créer des versions électroniques gratuites d'oeuvres littéraires et les diffuser dans le monde entier. Au 15e siècle, Gutenberg avait permis à chacun d'avoir des livres imprimés pour un prix relativement modique. Au 21e siècle, le Projet Gutenberg permettrait à chacun d'avoir une bibliothèque numérique gratuite.
Michael travaille depuis l’Illinois (États-Unis), dactylographiant des livres du domaine public, par exemple la Bible et les œuvres complètes de Shakespeare, d’abord seul puis avec l’aide de quelques volontaires.
Son projet trouve un nouveau souffle et un rayonnement international avec l'apparition du web en 1990. Comme 95% des usagers de l’internet sont anglophones au début des années 1990, les livres numériques sont surtout en anglais.
Le Projet Gutenberg inspire aussi d’autres bibliothèques numériques en Europe. Le Projekt Runeberg voit le jour en Suède en 1992 dans l’optique de numériser la littérature nordique (scandinave) classique. Le Projekt Gutenberg-DE voit le jour en Allemagne en 1994 dans l’optique de numériser la littérature classique allemande.
Le français fut la deuxième langue du Projet Gutenberg, et c'est toujours le cas en 2010. Les premiers livres disponibles en français sont six oeuvres de Stendhal et deux oeuvres de Jules Verne, toutes mises en ligne début 1997.
Les deux romans de Jules Verne sont «De la terre à la lune» (publié en 1865) et «Le tour du monde en quatre-vingts jours» (publié en 1873). À cette date, les versions anglaises de ces romans sont déjà disponibles en version numérique depuis trois ans, tout comme la version anglaise de «Vingt mille lieues sous les mers» (publié en 1869-1870). Depuis 1994, Jules Verne a toujours fait partie des auteurs les plus téléchargés.
En octobre 1997, Michael Hart annonce son intention d'intensifier la production de livres dans d’autres langues que l'anglais. Début 1998, outre dix titres en français, le catalogue comprend quelques oeuvres en allemand, espagnol, italien et latin. Disponible en mai 1999, l'eBook #2000 est «Don Quijote» (1605) de Cervantès, en espagnol, sa langue originale. En juillet 1999, Michael écrit lors d'un entretien par courriel: «J'introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible.»
Le Project Gutenberg trouve un second souffle avec le lancement de Distributed Proofreaders, un site lancé en octobre 2000 par Charles Franks pour partager la relecture des livres entre des centaines de volontaires dans de nombreux pays.
Disponible en décembre 2000, l'eBook #3000 est le volume 3 (1919) de «À l'ombre des jeunes filles en fleurs» de Marcel Proust, en français.
Disponible en octobre 2001, l'eBook #4000 est «The French Immortals Series» (Recueil de textes d'Immortels français, 1905), en anglais. Cette anthologie regroupe des oeuvres de fiction courtes de plusieurs membres de l'Académie française: Émile Souvestre, Pierre Loti, Hector Malot, Charles de Bernard, Alphonse Daudet et d'autres.
Disponible en avril 2002, l'eBook #5000 est «The Notebooks of Leonardo da Vinci» (Les carnets de Léonard de Vinci), un version anglaise de ces carnets datant du 16e siècle. Ce livre est depuis régulièrement présent dans le «Top 100» des livres téléchargés.
On trouve des livres en 25 langues début 2004, en 42 langues en juillet 2005, y compris le sanscrit et les langues mayas, et en 60 langues en novembre 2010. Les dix langues principales sont l'anglais (avec 28.666 ebooks le 6 novembre 2010), le français (1.672 ebooks), l'allemand (715 ebooks), le finnois (542 ebooks), le néerlandais (498 ebooks), le portugais (474 ebooks), le chinois (405 ebooks), l'espagnol (297 ebooks), l'italien (253 ebooks) et le grec (107 ebooks). Ces langues sont suivies du latin, de l'espéranto, du suédois et du tagalog.
Lorsque la traduction automatique aura atteint un taux de fiabilité de 99%, nous pourrons peut-être bénéficier un jour de la traduction immédiate de ces œuvres littéraires dans un vaste choix de langues. Les livres traduits par le biais d'un logiciel de traduction automatique ne rivaliseront certainement pas avec le travail des traducteurs littéraires et leurs efforts talentueux pendant des jours et des mois sinon des années. Mais ils permettraient au lecteur une première approche d'oeuvres littéraires jamais traduites jusqu'ici, ou traduites seulement dans quelques langues pour des raisons commerciales.
Le texte d'un livre traduit (issu d'un logiciel de traduction) pourrait ensuite être corrigé par des traducteurs (des êtres humains, pas des logiciels), en utilisant une interface semblable à celle utilisée actuellement pour la correction du texte d'un livre (issu d'un logiciel OCR) par les volontaires de Distributed Proofreaders. Nous verrons peut-être un jour un Distributed Translators permettant de partager la révision des traductions, en tant qu’organisme partenaire de Distributed Proofreaders et du Projet Gutenberg.
2001 > WIKIPÉDIA, ENCYCLOPÉDIE COLLABORATIVE
[Résumé] Fondée en janvier 2001 à l'initiative de Jimmy Wales et Larry Sanger (Larry quitte plus tard l'équipe), Wikipédia est une encyclopédie gratuite en ligne écrite collectivement et dont le contenu est librement réutilisable. Sans publicité et financée par des dons, elle est rédigée par des milliers de volontaires, avec possibilité pour tout un chacun d’écrire, corriger ou compléter les articles, aussi bien les siens que ceux d’autres contributeurs. Les articles restent la propriété de leurs auteurs et leur libre utilisation est régie par la licence GFDL (GNU Free Documentation License) ou la licence Creative Commons. En décembre 2006, Wikipédia est l’un des dix sites les plus visités du web, avec 6 millions d'articles dans 250 langues. En 2009, Wikipédia est l'un des cinq sites les plus visités du web, le français étant la troisième langue de l’encyclopédie, après l’anglais et l’allemand. En janvier 2011, Wikipédia fête ses dix ans d’existence avec 17 millions d’articles dans 270 langues et 400 millions de visiteurs par mois pour l’ensemble de ses sites.
***
Lancée en janvier 2001, Wikipédia est une encyclopédie gratuite en ligne écrite collectivement et dont le contenu est librement réutilisable.
Qu’est-ce qu’un wiki? Un wiki (terme hawaïen signifiant «vite») est un site web permettant à plusieurs utilisateurs de collaborer simultanément en ligne, en rédigeant le contenu du wiki, en le modifiant et en l'enrichissant en permanence. Le wiki est utilisé par exemple pour créer et gérer des sites d’information, des dictionnaires et des encyclopédies. Le programme présent derrière l'interface d'un wiki est plus ou moins élaboré. Un programme simple gère des textes et des hyperliens. Un programme élaboré permet d'inclure des images, des graphiques, des tableaux, etc.
Fondée à l’initiative de Jimmy Wales et Larry Sanger (Larry Sanger quitte plus tard l'équipe), Wikipédia est immédiatement très populaire. Sans publicité et financée par des dons, elle est rédigée par des milliers de volontaires - qui s'inscrivent sous un pseudonyme - avec possibilité pour tout un chacun d’écrire, corriger et compléter les articles, aussi bien les siens que ceux d'autres contributeurs. Les articles restent la propriété de leurs auteurs et leur libre utilisation est régie par la licence Creative Commons ou la licence GFDL (GNU Free Documentation License).
Créée en juin 2003, la Wikimedia Foundation gère non seulement Wikipédia mais aussi Wiktionary, un dictionnaire et thésaurus multilingue lancé en décembre 2002, Wikibooks (livres et manuels en cours de rédaction) lancé en juin 2003, auxquels s'ajoutent ensuite Wikiquote (répertoire de citations), Wikisource (textes appartenant au domaine public), Wikimedia Commons (sources multimédia), Wikispecies (répertoire d'espèces animales et végétales), Wikinews (site d'actualités) et enfin Wikiversity (matériel d'enseignement), lancé en août 2006.
En décembre 2004, Wikipédia compte 1,3 million d’articles rédigés par 13.000 contributeurs dans une centaine de langues. En décembre 2006, Wikipédia compte 6 millions d’articles dans 250 langues et devient l'un de dix sites les plus visités du web. En mai 2007, 7 millions d'articles sont disponibles dans 192 langues, dont 1,8 million d’articles en anglais, 589.000 articles en allemand, 500.000 articles en français, 260.000 articles en portugais et 236.000 articles en espagnol. En 2009, l’encyclopédie est l’un des cinq sites les plus visités du web. En septembre 2010, Wikipédia compte 14 millions d'articles dans 272 langues, dont 3,4 millions d’articles en anglais, 1,1 million d’articles en allemand et 1 million d’articles en français, qui est toujours la troisième langue de l'encyclopédie.
Wikipédia fête ses dix ans en janvier 2011 avec 17 millions d’articles dans 270 langues et 400 millions de visiteurs par mois pour l’ensemble de ses sites.