Le web, une encyclopédie multilingue
Part 1
LE WEB, UNE ENCYCLOPÉDIE MULTILINGUE
MARIE LEBERT, 2012
TABLE DES MATIÈRES
1974 > Les débuts de l’internet 1986 > Des extensions pour l’ASCII 1990 > Le web booste l’internet 1990 > La LINGUIST List 1991 > L’Unicode, système d’encodage universel 1994 > Travlang, des langues pour voyager 1995 > L’Internet Dictionary Project 1995 > NetGlos, glossaire de l’internet 1995 > Plusieurs langues sur notre écran 1995 > Global Reach, pour localiser les sites web 1995 > OneLook Dictionaries, point d’accès commun 1997 > Un web anglophone à 82,3% 1997 > Une liste de langues européennes minoritaires 1997 > Une base terminologique européenne 1997 > Babel Fish, logiciel de traduction gratuit 1997 > Les outils de la société de traduction Logos 1997 > Des bases terminologiques spécialisées 1998 > La nécessité d’une «démocratie linguistique» 1999 > Les dictionnaires bilingues de WordReference.com 1999 > L’internet, outil indispensable pour les traducteurs 1999 > La nécessité d’une information bilingue 2000 > Encyclopédies et dictionnaires en ligne 2000 > Le portail yourDictionary.com 2000 > Le Projet Gutenberg et les langues 2001 > Wikipédia, encyclopédie collaborative 2001 > L’UNL, projet de métalangage numérique 2001 > Un marché pour les logiciels de traduction 2004 > Le web 2.0, communauté et partage 2007 > La norme ISO 639-3 pour identifier les langues 2007 > Google Traduction 2009 > 6.909 langues vivantes dans l’Ethnologue 2010 > Un atlas de l’UNESCO pour les langues menacées
INTRODUCTION
«Le web sera une encyclopédie du monde faite par le monde pour le monde. Il n'y aura plus d'informations ni de connaissances utiles qui ne soient pas disponibles, si bien que l'obstacle principal à la compréhension internationale et interpersonnelle et au développement personnel et institutionnel sera levé. Il faudrait une imagination plus débordante que la mienne pour prédire l'effet de ce développement sur l'humanité.» (Robert Beard, créateur du site A Web of Online Dictionaries, septembre 1998)
Ce livre se présente sous la forme d’une chronologie en 32 chapitres de 1974 à 2010. Merci à toutes les personnes qui sont citées ici, pour leur temps et pour leur amitié. Sauf indication contraire, les citations proviennent des Entretiens du NEF (Net des études françaises), menés par l’auteure au fil des ans.
1974 > LES DÉBUTS DE L'INTERNET
[Résumé] L'internet naît en 1974, quinze ans avant le web. Vinton Cerf est souvent appelé le père de l'internet parce qu'il est le co-auteur en 1974 avec Bob Kahn du protocole TCP/IP (Transmission Control Protocol / Internet Protocol) nécessaire au bon fonctionnement du réseau. L’internet est d’abord mis en place aux États-Unis pour relier les agences gouvernementales, les universités et les centres de recherche, avant de débuter sa progression mondiale en 1983. L’internet trouve ensuite un nouveau souffle avec l'invention du web par Tim Berners-Lee en 1990 puis le lancement du premier navigateur Mosaic en 1993. Vinton Cerf fonde l'Internet Society (ISOC) en 1992 pour promouvoir le développement du réseau. Interviewé en janvier 1998 par le quotidien Libération, il explique: «Le réseau fait deux choses (...): comme les livres, il permet d'accumuler de la connaissance. Mais, surtout, il la présente sous une forme qui la met en relation avec d'autres informations. Alors que, dans un livre, l'information est maintenue isolée.»
***
L'internet naît en 1974 suite à la création du protocole TCP/IP (Transmission Control Protocol / Internet Protocol) par Vinton Cerf et Bob Kahn pour les échanges de données sur le réseau, quinze ans avant l’invention du web.
# Les premiers pas
Vinton Cerf est souvent appelé le père de l'internet parce qu'il est le co-auteur en 1974 avec Bob Kahn du protocole TCP/IP (Transmission Control Protocol / Internet Protocol) nécessaire au bon fonctionnement du réseau.
L’internet est d’abord mis en place aux États-Unis pour relier les agences gouvernementales, les universités et les centre de recherche, avant de débuter sa progression mondiale en 1983. Il trouve ensuite un nouveau souffle avec l'invention du web par Tim Berners-Lee en 1990 puis le lancement du premier navigateur Mosaic en 1993.
Vinton Cerf fonde l'Internet Society (ISOC) en 1992 pour promouvoir le développement du réseau. Interviewé en janvier 1998 par le quotidien Libération, il explique: «Le réseau fait deux choses (...): comme les livres, il permet d'accumuler de la connaissance. Mais, surtout, il la présente sous une forme qui la met en relation avec d'autres informations. Alors que, dans un livre, l'information est maintenue isolée.»
Le web étant facile d’utilisation grâce aux liens hypertextes reliant les documents entre eux, l’internet peut enfin être utilisé par le grand public dans les années 1990, et pas seulement par les usagers versés dans l’informatique. On compte 100 millions d’usagers en décembre 1997, avec un million de nouveaux usagers par mois, et 300 millions d’usagers en décembre 2000.
# La situation en Europe
En ce qui concerne la connexion à l’internet, les choses sont moins faciles en Europe qu’en Amérique du Nord. La connexion est d'abord tarifée à la durée, avec un tarif de jour très élevé et un tarif de nuit plus intéressant, d’où l’obligation de travailler la nuit pour éviter les factures trop élevées. Des mouvements de grève sont lancés fin 1998 et début 1999 en France, en Italie et en Allemagne dans le but de faire pression sur les sociétés prestataires pour qu'elles baissent leurs prix et qu'elles proposent des forfaits internet, avec gain de cause les mois suivants.
Quelques années plus tard, le haut débit se généralise. Jean-Paul, webmestre du site hypermédia cotres.net, résume la situation en janvier 2007: «J’ai l’impression que nous vivons une période "flottante", entre les temps héroïques, où il s’agissait d’avancer en attendant que la technologie nous rattrape, et le futur, où le très haut débit va libérer les forces qui commencent à bouger, pour l’instant dans les seuls jeux.»
# L’internet du futur
L’internet du futur pourrait être un réseau pervasif permettant de se connecter en tout lieu et à tout moment sur tout type d’appareil à travers un réseau unique et omniprésent.
Le concept de réseau pervasif est développé par Rafi Haladjian, fondateur de la société Ozone. Comme expliqué sur le site web en 2007, «la nouvelle vague touchera notre monde physique, notre environnement réel, notre vie quotidienne dans tous les instants. Nous n’accéderons plus au réseau, nous l’habiterons. Les composantes futures de ce réseau (parties filiaires, parties non filiaires, opérateurs) seront transparentes à l’utilisateur final. Il sera toujours ouvert, assurant une permanence de la connexion en tout lieu. Il sera également agnostique en terme d’application(s), puisque fondé sur les protocoles mêmes de l’internet.» Nous attendons cela avec impatience.
Quant au contenu de l’internet, Timothy Leary, philosophe visionnaire, le décrit ainsi dans son livre «Chaos et cyberculture?», publié en 1994: «Toute l’information du monde est à l’intérieur. Et grâce au cyberespace, tout le monde peut y avoir accès. Tous les signaux humains contenus jusque-là dans les livres ont été numérisés. Ils sont enregistrés et disponibles dans ces banques de données, sans compter tous les tableaux, tous les films, toutes les émissions de télé, tout, absolument tout.» En 2011, nous n’en sommes pas encore là, mais les choses sont en bonne voie.
1986 > DES EXTENSIONS POUR L'ASCII
[Résumé] Avec le développement de l’internet hors de la sphère anglophone, communiquer uniquement en anglais devient insuffisant, d’où la nécessité de prendre en compte les caractères accentués d’autres langues européennes. Publié par l'American National Standards Institute (ANSI) en 1963, l'ASCII (American Standard Code for Information Interchange) est le premier système d'encodage. Il s'agit d'un code standard de 128 caractères traduits en langage binaire sur sept bits (A est traduit par «1000001», B est traduit par «1000010», etc.). L'ASCII permet uniquement la lecture de l'anglais (et du latin). Des variantes de l'ASCII sur huit bits sont publiées à partir de 1986 pour prendre en compte les caractères accentués de quelques langues européennes. La variante pour le français, l’espagnol et l’allemand (entre autres) est la norme ISO 8859-1 (Latin-1). Mais les problèmes sont loin d’être résolus. Pour cela, il faudra attendre l’Unicode, nouveau système d’encodage universel dont la première version est publiée en janvier 1991.
***
Avec le développement de l’internet hors de la sphère anglophone, communiquer uniquement en anglais devient insuffisant, d’où la nécessité de prendre en compte les caractères accentués de plusieurs langues européennes.
# L’ASCII sur 7 bits
Le premier système d'encodage informatique est l’ASCII (American Standard Code for Information Interchange). Publié en 1963 aux États-Unis par l’American National Standards Institute (ANSI), l'ASCII est un code standard de 128 caractères traduits en langage binaire sur sept bits (A est traduit par «1000001», B est traduit par «1000010», etc.). Les 128 caractères comprennent 33 caractères de contrôle (qui ne représentent donc pas de symbole écrit) et 95 caractères imprimables: les 26 lettres sans accent en majuscules (A-Z) et minuscules (a-z), les chiffres, les signes de ponctuation et quelques caractères spéciaux, le tout correspondant aux touches du clavier anglophone.
# L’ASCII sur 8 bits
L'ASCII permet uniquement la lecture de l’anglais (et du latin). L’ASCII ne permet donc pas de prendre en compte les lettres accentuées présentes dans bon nombre de langues européennes (français, espagnol, allemand, etc.), tout comme les langues disposant d’autres alphabets (arabe, grec, russe, etc.) et à plus forte raison les langues non alphabétiques (chinois, coréen, japonais, etc.). Ceci ne pose pas de problème majeur les premières années, tant que l’échange de fichiers électroniques se limite surtout à l’Amérique du Nord. Mais le multilinguisme devient bientôt une nécessité vitale. Des variantes de l’ASCII sur huit bits sont publiées à partir de 1986 pour prendre en compte les caractères accentués de quelques langues européennes. La variante pour le français, l’espagnol et l’allemand (entre autres) est la norme ISO 8859-1 (ISO Latin-1).
# Un véritable casse-tête
Avec le développement de l’internet, l’échange des données s’internationalise encore davantage. Même avec des variantes de l’ASCII, on ne peut décidément plus se limiter à l’utilisation d’un système d’encodage datant des débuts de l’informatique. De plus, le passage de l’ASCII original à ses différentes variantes devient vite un véritable casse-tête, y compris au sein de l’Union européenne, les problèmes étant entre autres la multiplication des variantes, la corruption des données dans les échanges informatiques ou encore l’incompatibilité des systèmes, les pages ne pouvant être affichées que dans une seule langue à la fois.
Olivier Gainon, fondateur de CyLibris et pionnier de l’édition électronique littéraire, écrit à ce sujet en décembre 2000: «Il faut que le réseau respecte les lettres accentuées, les lettres spécifiques, etc. Je crois très important que les futurs protocoles permettent une transmission parfaite de ces aspects - ce qui n’est pas forcément simple (dans les futures évolutions de l’HTML ou des protocoles IP, etc.). Donc il faut que chacun puisse se sentir à l’aise avec l’internet et que ce ne soit pas simplement réservé à des (plus ou moins) anglophones. Il est anormal aujourd’hui que la transmission d’accents puisse poser problème dans les courriers électroniques. La première démarche me semble donc une démarche technique. Si on arrive à faire cela, le reste en découle: la représentation des langues se fera en fonction du nombre de connectés, et il faudra envisager à terme des moteurs de recherche multilingues.»
# L’Unicode
Publié pour la première fois en janvier 1991, l’Unicode est un système d'encodage universel sur 16 bits spécifiant un nombre unique pour chaque caractère. Ce nombre est lisible quels que soient la plateforme, le logiciel et la langue utilisés. L’Unicode peut traiter 65.000 caractères uniques et prendre en compte tous les systèmes d’écriture de la planète. L’Unicode est progressivement adopté à partir de 1998. Un énorme travail est en effet nécessaire pour sa prise en compte par tous les logiciels et navigateurs web. Il faudra attendre décembre 2007 pour que l’Unicode supplante l’ASCII sur l’internet.
1990 > LE WEB BOOSTE L’INTERNET
[Résumé] Le World Wide Web est inventé en 1990 par Tim Berners-Lee, alors chercheur au CERN (Centre européen pour la recherche nucléaire) à Genève, en Suisse. En 1989, il met au point l'hypertexte pour relier des documents entre eux. En 1990, il met au point le premier serveur HTTP (HyperText Transfer Protocol) et le premier navigateur web. En 1991, le web est opérationnel et rend l'internet (qui existe depuis 1974) accessible à tous et pas seulement aux usagers versés dans l’informatique. Des liens hypertextes permettent désormais de passer d'un document textuel ou visuel à un autre au moyen d'un simple clic de souris. Plus tard, cette interactivité est encore accrue avec la possibilité de liens hypermédias permettant de lier des textes et des images à des vidéos ou bandes sonores. Le World Wide Web Consortium (W3C) est fondé en octobre 1994 pour développer les protocoles communs du web.
***
Le World Wide Web est inventé en 1990 par Tim Berners-Lee, chercheur au CERN (Centre européen pour la recherche nucléaire) à Genève, en Suisse. Le web rend l’internet accessible à tous et lui permet une progression exponentielle.
# Les débuts du web
En 1989, Tim Berners-Lee met au point l’hypertexte pour relier des documents entre eux. En 1990, il met au point le premier serveur HTTP (HyperText Transfer Protocol) et le premier navigateur web. En 1991, le World Wide Web est opérationnel et rend l'internet (qui existe depuis 1974) accessible à tous et pas seulement aux usagers versés dans l’informatique. Des liens hypertextes permettent désormais de passer d'un document textuel à un autre au moyen d'un clic de souris. Plus tard, cette interactivité est encore accrue avec la possibilité de liens hypermédias permettant de lier textes et images fixes à des vidéos ou bandes sonores.
Mosaic est le premier navigateur destiné au grand public. Développé par le NSCA (National Center for Supercomputing Applications) à l'Université de l'Illinois (États-Unis) et distribué gratuitement en novembre 1993, il contribue largement au développement rapide du web. Début 1994, une partie de l'équipe de Mosaic émigre dans la Netscape Communications Corporation pour développer un nouveau logiciel sous le nom de Netscape Navigator. En 1995, Microsoft lance son propre navigateur, l'Internet Explorer. Viennent ensuite d'autres navigateurs, comme Opera ou Safari, le navigateur d'Apple.
Un consortium industriel international est fondé en octobre 1994 pour développer les protocoles communs du web, sous le nom de World Wide Consortium (W3C) et sous l’égide de Tim Berners-Lee. En 1997, une section Internationalization / Localization regroupe les protocoles utilisés pour créer un site web multilingue: HTML (HyperText Markup Language), jeux (de base) de caractères, nouveaux attributs, HTTP (HyperText Transfer Protocol), négociation de la langue, URL (Uniform Resource Locator) et autres identificateurs incluant des caractères non ASCII, conseils divers.
# Le rêve de Tim Berners-Lee
À la question de Pierre Ruetschi, journaliste à la Tribune de Genève, quotidien suisse: «Sept ans plus tard, êtes-vous satisfait de la façon dont le web a évolué?», Tim Berners-Lee répond en décembre 1997 que, s’il est heureux de la richesse et de la variété de l’information disponible, le web n’a pas encore la puissance prévue dans sa conception d’origine. Il aimerait «que le web soit plus interactif, que les gens puissent créer de l’information ensemble», et pas seulement consommer celle qui leur est proposée. Le web doit devenir «un média de collaboration, un monde de connaissance que nous partageons».
Dans un essai publié en avril 1998 sur sa propre page web (sur le site du World Wide Web Consortium), Tim Berners-Lee explique que «le rêve derrière le web est un espace d'information commun dans lequel nous communiquons en partageant l'information. Son universalité est essentielle, à savoir le fait qu'un lien hypertexte puisse pointer sur quoi que ce soit, quelque chose de personnel, de local ou de global, aussi bien une ébauche qu'une réalisation très sophistiquée. Deuxième partie de ce rêve, le web deviendrait d'une utilisation tellement courante qu'il serait un miroir réaliste (sinon la principale incarnation) de la manière dont nous travaillons, jouons et nouons des relations sociales. Une fois que ces interactions seraient en ligne, nous pourrions utiliser nos ordinateurs pour nous aider à les analyser, donner un sens à ce que nous faisons, et voir comment chacun trouve sa place et comment nous pouvons mieux travailler ensemble.» (extrait de «The World Wide Web: a very short personal history»)
# Le web 2.0
Selon Netcraft, société spécialisée dans les mesures d’audience, le nombre de sites web passe d’un million de sites (avril 1997) à dix millions de sites (février 2000), 20 millions de sites (septembre 2000), 30 millions de sites (juillet 2001), 40 millions de sites (avril 2003), 50 millions de sites (mai 2004), 60 millions de sites (mars 2005), 70 millions de sites (août 2005), 80 millions de sites (avril 2006), 90 millions de sites (août 2006) et 100 millions de sites (novembre 2006), une augmentation rapide favorisée par l’explosion des sites personnels et des blogs.
Le web 2.0, terme lancé en 2004 par Tim O’Reilly, éditeur de livres informatiques, apporte peut-être un début de réponse au rêve de Tim Berners-Lee puisqu’il est basé sur les notions de communauté et de partage.
Quinze ans après la création du web, le magazine Wired constate dans son numéro d'août 2005 que «moins de la moitié du web est commercial, le reste fonctionne avec la passion». Quant à l'internet, d'après le quotidien Le Monde du 19 août 2005, «ses trois pouvoirs - l'ubiquité, la variété et l'interactivité - rendent son potentiel d'usages quasi infini».
Robert Beard, professeur de langues et créateur du site A Web of Online Dictionaries en 1995, écrivait de manière prémonitoire dès septembre 1998: «Le web sera une encyclopédie du monde faite par le monde pour le monde. Il n'y aura plus d'informations ni de connaissances utiles qui ne soient pas disponibles, si bien que l'obstacle principal à la compréhension internationale et interpersonnelle et au développement personnel et institutionnel sera levé. Il faudrait une imagination plus débordante que la mienne pour prédire l'effet de ce développement sur l'humanité.»
1990 > LA LINGUIST LIST
[Résumé] Liste de diffusion à destination des linguistes, la LINGUIST List est créée par Anthony Rodrigues Aristar en 1990 au sein de l’University of Western Australia. Avec 60 inscrits, la liste déménage vers la Texas A&M University (États-Unis) en 1991, l'Eastern Michigan University étant le principal éditeur. En 1997, la LINGUIST List dispose de son propre site web. Les messages reçus sont classés dans diverses rubriques: profession (conférences, associations linguistiques, programmes), recherche et soutien à la recherche (articles, résumés de mémoires, projets, bibliographies, sujets, textes), publications, pédagogie, ressources linguistiques (langues, familles linguistiques, dictionnaires, informations régionales) et soutien informatique (polices de caractères et logiciels). La LINGUIST List est une composante de la WWW Virtual Library pour la linguistique.
***
Liste de diffusion à destination des linguistes, la LINGUIST List est créée par Anthony Rodrigues Aristar en 1990 au sein de l’University of Western Australia.
Avec 60 inscrits, la liste déménage vers la Texas A&M University (États-Unis) en 1991, l'Eastern Michigan University étant le principal éditeur.
En 1997, la LINGUIST List dispose de son propre site web. Les messages reçus sont classés dans diverses rubriques: profession (conférences, associations linguistiques, programmes), recherche et soutien à la recherche (articles, résumés de mémoires, projets, bibliographies, sujets, textes), publications, pédagogie, ressources linguistiques (langues, familles linguistiques, dictionnaires, informations régionales) et soutien informatique (polices de caractères et logiciels). La LINGUIST List est une composante de la WWW Virtual Library pour la linguistique.
Helen Dry, co-modératrice de la LINGUIST List depuis 1991, explique en août 1998: «La LINGUIST List, que je modère, a pour politique d'accepter les informations dans toutes les langues, puisque c'est une liste pour linguistes. Nous ne souhaitons cependant pas que le message soit publié dans plusieurs langues, tout simplement à cause de la charge de travail que cela représenterait pour notre personnel de rédaction. (Nous ne sommes pas une liste fourre-tout, mais une liste modérée. De ce fait, avant d'être publié, chaque message est classé par nos étudiants- rédacteurs dans une section comprenant des messages du même type.) Notre expérience nous montre que pratiquement tout le monde choisit de publier en anglais. Mais nous relions ces informations à un système de traduction présentant nos pages dans cinq langues différentes. Ainsi un abonné ne lit LINGUIST en anglais que s'il le souhaite. Nous essayons aussi d'avoir au moins un étudiant- éditeur qui soit réellement multilingue, afin que les lecteurs puissent correspondre avec nous dans d'autres langues que l'anglais.»
Helen Dry ajoute en juillet 1999: «Nous commençons maintenant à rassembler un grand nombre de données. Par exemple, nous avons des bases de données avec moteur de recherche pour les résumés de thèses de linguistique, pour les informations sur les programmes universitaires de linguistique et pour les données professionnelles de linguistes individuels. À ma connaissance, le fichier des résumés de thèses est la seule compilation électronique qui soit disponible gratuitement sur l’internet.»
1991 > L'UNICODE, SYSTÈME D'ENCODAGE UNIVERSEL
[Résumé] L’ASCII, premier système d’encodage datant des débuts de l’informatique, n’est plus suffisant avec l’internationalisation de l’internet, d’où l’intérêt de l’Unicode, nouveau système d’encodage universel, dont la première version est publiée en janvier 1991. L'Unicode spécifie un nombre sur 16 bits unique à chaque caractère (ou idéogramme) et lisible quels que soient la plateforme, le logiciel et la langue utilisés. L'Unicode peut traiter 65.000 caractères et prendre en compte tous les systèmes d'écriture de la planète. Il devient une composante des spécifications du World Wide Web Consortium (W3C), l'organisme international chargé du développement du web. L’utilisation de l’Unicode se généralise à partir de 1998, par exemple pour les fichiers texte sous plateforme Windows (Windows NT, Windows 2000, Windows XP et versions suivantes), qui étaient jusque-là en ASCII. L’Unicode supplante définitivement l’ASCII en décembre 2007.
***
L’ASCII n’est plus suffisant avec l’internationalisation de l’internet, d’où l’intérêt de l’Unicode, nouveau système d’encodage universel, dont la première version est publiée en janvier 1991.
Contrairement à l’ASCII conçu pour l’anglais (et le latin), avec des variantes pour quelques langues supplémentaires, l’Unicode prend en compte toutes les langues de la planète.
# De l’ASCII à l’Unicode