L'Internet et les langues

Chapter 3

Chapter 33,551 wordsPublic domain

Yoshi écrit en décembre 1998: "Ma langue maternelle est le japonais. Comme j'ai suivi mes études de troisième cycle aux États-Unis et que j'ai travaillé dans l'informatique, je suis devenu bilingue japonais/anglais américain. J'ai toujours été intéressé par différentes langues et cultures, aussi j'ai appris le russe, le français et le chinois dans la foulée. A la fin de 1995, j'ai créé sur le web 'The Languages of the World by Computers and the Internet' et j'ai tenté de donner - en anglais et en japonais - un bref historique de toutes ces langues, ainsi que les caractéristiques propres à chaque langue et à sa phonétique. Suite à l'expérience acquise, j'ai invité mes deux associés à écrire un livre sur la conception, la création et la présentation de pages web multilingues, livre qui fut publié en août 1997 dans son édition japonaise, le premier livre au monde sur un tel sujet."

Comment voit-il l'évolution vers un web multilingue? "Il y a des milliers d'années de cela, en Égypte, en Chine et ailleurs, les gens étaient plus sensibles au fait de communiquer leurs lois et leurs réflexions non seulement dans une langue mais dans plusieurs. Dans notre monde moderne, chaque État a le plus souvent adopté une seule langue de communication. A mon avis, l'internet verra l'utilisation plus grande de langues différentes et de pages multilingues - et pas seulement une gravitation autour de l'anglais américain - et un usage plus créatif de la traduction informatique multilingue. 99% des sites web créés au Japon sont en japonais!"

= Unicode

Avec le développement du web, l’échange des données s’internationalise de plus en plus. On ne peut plus se limiter à l’utilisation de l’anglais et de quelques langues européennes, traduites par un système d’encodage datant de 1968. De plus, le passage de l’ASCII original à ses différentes extensions devient vite un véritable casse-tête, y compris au sein de l’Union européenne, les problèmes étant entre autres la multiplication des variantes, la corruption des données dans les échanges informatiques ou encore l’incompatibilité des systèmes, les pages ne pouvant être affichées que dans une seule langue à la fois.

Publié pour la première fois en janvier 1991, l’Unicode est un système d'encodage "universel" sur 16 bits spécifiant un nombre unique pour chaque caractère. Ce nombre est lisible quels que soient la plateforme, le logiciel et la langue utilisés. L’Unicode peut traiter 65.000 caractères uniques et prendre en compte tous les systèmes d’écriture de la planète. A la grande satisfaction des linguistes, il remplace progressivement l’ASCII. L’Unicode dispose de plusieurs variantes en fonction des besoins, par exemple UTF-8, UTF-16 et UTF-32 (UTF: Unicode transformation format). Il devient une composante des spécifications du World Wide Web Consortium (W3C), l'organisme international chargé du développement du web.

L’utilisation de l’Unicode se généralise en 1998, par exemple pour les fichiers texte sous plateforme Windows (Windows NT, Windows 2000, Windows XP et versions suivantes), qui étaient jusque-là en ASCII.

Mais l’Unicode ne peut résoudre tous les problèmes, comme le souligne en juin 2000 Luc Dall’Armellina, co-auteur et webmestre d’oVosite, un espace d’écriture hypermédia: "Les systèmes d’exploitation se dotent peu à peu des kits de langues et bientôt peut-être de polices de caractères Unicode à même de représenter toutes les langues du monde; reste que chaque application, du traitement de texte au navigateur web, emboîte ce pas. Les difficultés sont immenses: notre clavier avec ses ± 250 touches avoue ses manques dès lors qu’il faille saisir des Katakana ou Hiragana japonais, pire encore avec la langue chinoise. La grande variété des systèmes d’écriture de par le monde et le nombre de leurs signes font barrage. Mais les écueils culturels ne sont pas moins importants, liés aux codes et modalités de représentation propres à chaque culture ou ethnie."

Patrick Rebollar, professeur de littérature française au Japon et modérateur de la liste de diffusion LITOR (littérature et ordinateur), donne son sentiment en janvier 2000: "Il s'agit d'abord d'un problème logiciel. Comme on le voit avec Netscape ou Internet Explorer, la possibilité d'affichage multilingue existe. La compatibilité entre ces logiciels et les autres (de la suite Office de Microsoft, par exemple) n'est cependant pas acquise. L'adoption de la table Unicode devrait résoudre une grande partie des problèmes, mais il faut pour cela réécrire la plupart des logiciels, ce à quoi les producteurs de logiciels rechignent du fait de la dépense, pour une rentabilité qui n'est pas évidente car ces logiciels entièrement multilingues intéressent moins de clients que les logiciels de navigation."

= ASCII et/ou Unicode

Le Projet Gutenberg est fondé dès 1971 par Michael Hart pour numériser les oeuvres littéraires et les mettre gratuitement à la disposition de tous. Qu’elles aient été numérisées il y a des années ou qu’elles soient numérisées maintenant, toutes les oeuvres sont numérisées en mode texte, en utilisant l’ASCII original sur sept bits ou, pour les langues avec accents, l'ASCII sur huit bits prenant en compte les caractères accentués. Mais, même dans ce cas, le Projet Gutenberg propose aussi systématiquement en complément une version ASCII sur sept bits sans accents. Sauf, bien entendu, dans le cas de langues non encodables en ASCII, comme le chinois, qui est encodé au format Big-5.

Surnommé à juste raison "le plus petit dénominateur commun", l'ASCII sur sept bits est le seul format compatible avec 99% des machines et des logiciels, et pouvant être converti dans de nombreux autres formats. Il sera toujours utilisé quand d’autres formats auront disparu, à commencer par les formats éphémères liés à quelques appareils de lecture lancés entre 1999 et 2003 et déjà disparus du marché. Il est l’assurance que les collections ne deviendront jamais obsolètes, et survivront aux changements technologiques des prochaines décennies ou même des prochains siècles. Il n'existe pas d'autre standard aussi largement utilisé, y compris l'Unicode, système d'encodage "universel" créé en 1991. Ce jusqu'en 2008, date à laquelle les deux systèmes d'encodage sont également représentés sur le web.

Le Projet Gutenberg propose certains livres dans d’autres formats que l'ASCII, notamment dans les trois formats répandus que sont les formats HTML, XML et RTF. Des fichiers Unicode sont également présents. De plus, tout format proposé par tel ou tel volontaire est généralement accepté (PDF, LIT, TeX et beaucoup d'autres), dans la mesure où un fichier ASCII est également présent.

En ce qui concerne les langues, le Projet Gutenberg est essentiellement anglophone, puisqu’il est basé aux États-Unis et qu'il sert en priorité la communauté anglophone nationale et internationale. En octobre 1997, Michael Hart annonce son intention d'intensifier la production de livres dans des langues autres que l'anglais. Début 1998, le catalogue comprend quelques oeuvres en allemand, en espagnol, en français (dix titres), en italien et en latin. En juillet 1999, Michael écrit: "J'introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible."

Le multilinguisme devient ensuite l'une des priorités du Projet Gutenberg, tout comme l'internationalisation, avec le Project Gutenberg Australia (créé en août 2001), le Projet Gutenberg Europe (créé en janvier 2004), le Project Gutenberg Canada (créé en juillet 2007), et d'autres Projet Gutenberg à venir dans divers pays. Dans le Projet Gutenberg original, 25 langues sont représentées en janvier 2004 et 42 langues en juillet 2005. Dès ses débuts en janvier 2004, Distributed Proofreaders Europe (DP Europe) est un site multilingue, qui prend en compte les principales langues nationales. Ce site est calqué sur le site original de Distributed Proofreaders, pour gérer la relecture partagée entre les volontaires. En avril 2004, grâce à des traducteurs volontaires, le site de DP Europe est disponible en douze langues. L'objectif à moyen terme est un site en soixante langues, et donc soixante équipes linguistiques, avec prise en compte de toutes les langues européennes. DP Europe utilise l'Unicode et non l'ASCII, pour pouvoir traiter des livres dans un grand nombre de langues.

PREMIERS PROJETS MULTILINGUES

= [Citation]

Tyler Chambers, créateur de deux projets sur le web - Human-Languages Page (Page des langues humaines) et Internet Dictionary Project (Projet de dictionnaires internet) - relate en septembre 1998: "Mon activité en ligne a été de rendre des données linguistiques accessibles à davantage de gens par le biais de deux de mes projets sur le web. Bien que je ne sois pas multilingue, ni même bilingue moi-même, je suis conscient du fait que très peu de domaines ont une importance comparable à celle des langues et du multilinguisme. (...) Dans l'ensemble, je pense que le web est important pour la sensibilisation aux langues et pour les questions culturelles. Dans quel autre endroit peut-on chercher au hasard pendant vingt minutes et trouver des informations susceptibles de vous intéresser dans trois langues différentes sinon plus?"

= Travlang

Travlang, site dédié à la fois aux voyages et aux langues, est créé par Michael C. Martin en 1994 sur le site de son université alors qu'il était étudiant en physique. Devenu chercheur au Lawrence Berkeley National Laboratory (Californie), Michael Martin poursuit la gestion de ce site devenu très populaire. La section Foreign Languages for Travelers (Langues étrangères pour les voyageurs) donne la possibilité d'apprendre les rudiments de soixante langues sur le web. La section Translating Dictionaries (Dictionnaires de langues) donne accès à des dictionnaires gratuits dans diverses langues (afrikaans, allemand, danois, espagnol, espéranto, finnois, français, frison, hollandais, hongrois, italien, latin, norvégien, portugais et tchèque). Ces dictionnaires sont le plus souvent sommaires et de qualité inégale. Le site offre aussi de nombreux liens vers des services de traduction, des écoles de langue, des librairies multilingues, etc.

Michael Martin écrit en août 1998: "Je pense que le web est un endroit idéal pour rapprocher les cultures et les personnes, et ceci inclut d'être multilingue. Notre site Travlang est très populaire pour cette raison, et les gens aiment le contact avec d'autres parties du monde. (...) L'internet est vraiment un outil important pour communiquer avec des gens avec lesquels on n'aurait pas l'occasion de dialoguer autrement. J'apprécie vraiment la collaboration générale qui a rendu possibles les pages de Foreign Languages for Travelers. (...) Je pense que les traductions intégrales informatisées vont devenir monnaie courante, et qu'elles permettront de communiquer à la base avec davantage de gens. Ceci aidera aussi à amener davantage l'internet au monde non anglophone."

= Human-Languages Page

Créée par Tyler Chambers en mai 1994, The Human-Languages Page (La page des langues humaines) est un catalogue détaillé de 1.800 ressources linguistiques dans une centaine de langues. Les grandes rubriques sont: langues et littérature, écoles et institutions, ressources linguistiques, produits et services, organismes, emplois et stages, dictionnaires et cours de langues.

Tyler Chambers mène aussi un autre projet relatif aux langues, l'Internet Dictionary Project (Projet de dictionnaires internet), un projet coopératif ouvert à tous pour la constitution de dictionnaires en accès libre sur le web, de l'anglais vers d'autres langues (allemand, espagnol, français, italien, latin et portugais).

Comme expliqué sur le site web, "le but de l'Internet Dictionary Project est de créer des dictionnaires de traduction grâce à l'aide des internautes. Ce site permet aux individus du monde entier de consulter et de participer à la traduction de termes anglais dans d'autres langues. Les listes de termes anglais et leurs correspondants dans d'autres langues sont ensuite mis à la disposition de tous sur ce site, sans restriction d'aucune sorte. (...) The Internet Dictionary Project a débuté en 1995 pour combler une lacune et procurer des dictionnaires de traduction gratuits à la communauté des internautes et à tous ceux qui s'intéressent à l'informatique. Non seulement il est très utile d'avoir immédiatement accès à des dictionnaires par le World Wide Web, mais ceci permet aussi le développement de logiciels pouvant tirer parti de tels dictionnaires, que ce soit des programmes de traduction ou des vérificateurs d'orthographe ou encore des guides d'apprentissage des langues. En facilitant la création de ces dictionnaires en ligne par des milliers de volontaires, et en les mettant gratuitement à la disposition de tous, l'Internet Dictionary Project espère imprimer sa marque sur l'internet et susciter d'autres projets qui seront plus bénéfiques que de générer des revenus purement financiers."

Tyler Chambers écrit en septembre 1998 lors d'un entretien par courriel: "Le multilinguisme sur le web était inévitable bien avant que ce médium ne se développe vraiment. Mon premier vrai contact avec l'internet date de 1994, un peu après ses débuts mais bien avant son expansion. 1994 a été aussi l'année où j'ai débuté mon premier projet web multilingue, et il existait déjà un nombre significatif de ressources linguistiques en ligne. Ceci était antérieur à la création de Netscape. Mosaic était le seul navigateur sur le web, et les pages web étaient essentiellement des documents textuels reliés par des hyperliens. Avec l'amélioration des navigateurs et l'expérience acquise par les usagers, je ne pense pas qu'il existe une langue vivante qui ne soit pas maintenant représentée sur le web, que ce soit la langue des Indiens d'Amérique ou les dialectes moyen-orientaux. De même une pléthore de langues mortes peut maintenant trouver une audience nouvelle avec des érudits et autres spécialistes en ligne. A ma connaissance, très peu de jeux de caractères ne sont pas disponibles en ligne: les navigateurs ont maintenant la possibilité de visualiser les caractères romains, asiatiques, cyrilliques, grecs, turcs, etc. Accent Software a un produit appelé 'Internet avec accents' qui serait capable de visualiser plus de 30 encodages différents. S'il existe encore des obstacles à la diffusion d'une langue spécifique sur le web, ceci ne devrait pas durer."

En ce qui concerne les projets en ligne de Tyler: "Mon activité en ligne a été de rendre l'information linguistique accessible à davantage de gens par le biais de deux de mes projets sur le web. Bien que je ne sois pas multilingue, ni même bilingue moi-même, je suis conscient du fait que très peu de domaines ont une importance comparable à celle des langues et du multilinguisme. L'internet m'a permis de toucher des millions de personnes et de les aider à trouver ce qu'elles cherchaient, chose que je suis heureux de faire. Je suis devenu aussi une sorte de célébrité, ou au moins quelqu'un de familier dans certains cercles. Je viens de découvrir qu'un de mes projets est brièvement mentionné dans les éditions asiatique et internationale de Time Magazine. Dans l'ensemble, je pense que le web est important pour la sensibilisation aux langues et pour les questions culturelles. Dans quel autre endroit peut-on chercher au hasard pendant vingt minutes et trouver des informations susceptibles de vous intéresser dans trois langues différentes sinon plus? Les médias de communication rendent le monde plus petit en rapprochant les gens; je pense que le web est le premier médium - bien plus que le courrier, le télégraphe, le téléphone, la radio ou la télévision - à réellement permettre à l'usager moyen de franchir les frontières nationales et culturelles. Israël n'est plus à des milliers de kilomètres, mais seulement à quelques clics de souris. Notre monde est désormais suffisamment petit pour tenir sur un écran d'ordinateur."

Comment Tyler voit-il l'avenir? "Je pense que l'avenir de l'internet réside dans davantage de multilinguisme, d'exploration et de compréhension multiculturelles que nous n'en avons jamais vu. Toutefois l'internet sera seulement le médium au travers duquel l'information circule. Comme le papier qui sert de support au livre, l'internet en lui-même augmente très peu le contenu de l'information. Par contre il augmente énormément la valeur de celle-ci dans la capacité qu'il a de communiquer cette information. Dire que l'internet aiguillonne le multilinguisme est à mon sens une opinion fausse. C'est la communication qui aiguillonne le multilinguisme et l'échange multiculturel. L'internet est seulement le mode de communication le plus récent qui soit accessible aux gens plus ou moins ordinaires. L'internet a un long chemin à parcourir avant d'être omniprésent dans le monde entier, mais il est vraissemblable que lui-même ou un médium de la même lignée atteigne ce but. Les langues deviendront encore plus importantes qu'elles ne le sont quand tout le monde pourra communiquer à l'échelle de la planète (à travers le web, les discussions, les jeux, le courrier électronique, ou toute application appartenant encore au domaine de l'avenir), mais je ne sais pas si ceci mènera à un renforcement des attaches linguistiques ou à une fusion des langues jusqu'à ce qu'il n'en subsite plus que quelques-unes ou même une seule. Une chose qui m'apparaît certaine est que l'internet sera toujours la marque de notre diversité, y compris la diversité des langues, même si cette diversité diminue. Et c'est une des choses que j'aime au sujet de l'internet, c'est un exemple à l'échelle mondiale du dicton: 'Cela n'a pas vraiment disparu tant que quelqu'un s'en souvient.' Et les gens se souviennent."

Au printemps 2001, The Human-Languages Page fusionne avec le Languages Catalog (Catalogue des langues), section de la WWW Virtual Library, pour devenir iLoveLanguages. En septembre 2003, iLoveLanguages offre 2.000 ressources linguistiques dans une centaine de langues. Quant à l'Internet Dictionary Project, faute de temps, Tyler met fin à ce projet en janvier 2007, tout en laissant les dictionnaires existants tels quels sur le web pour consultation ou téléchargement.

= NetGlos

NetGlos - abrégé de "The Multilingual Glossary of Internet Terminology" (Le glossaire multilingue de la terminologie de l'internet) - est lancé en 1995 à l'initiative du WorldWide Language Institute (Institut des langues du monde entier). Il s'agit d'un projet coopératif en treize langues (allemand, anglais, chinois, croate, espagnol, français, grec, hébreu, hollandais/flamand, italien, maori, norvégien et portugais), avec la participation de nombre de traducteurs et autres professionnels des langues.

Brian King, directeur du WorldWide Language Institute (WWLI), explique en septembre 1998: "Bien que l'anglais soit la langue la plus importante du web et de l'internet en général, je pense que le multilinguisme fait inévitablement partie des futures orientations du cyberespace. Voici quelques éléments qui, à mon sens, permettront que le web multilingue devienne une réalité:

1. . La technologie des ordinateurs a longtemps été le seul domaine d'une élite 'technicienne', à l'aise à la fois dans des langages de programmation complexes et en anglais, la langue universelle des sciences et techniques. Au départ, les ordinateurs n'ont jamais été conçus pour manier des systèmes d'écriture ne pouvant être traduits en ASCII. Il n'y avait pas de place pour autre chose que les 26 lettres de l'alphabet anglais dans un système d'encodage qui, à l'origine, ne pouvait même pas reconnaître les accents aigus et les trémas, sans parler de systèmes non alphabétiques comme le chinois. Mais la tradition a été bouleversée, et la technologie popularisée. Des interfaces graphiques tels que Windows et Macintosh ont accéléré le processus. La stratégie de marketing de Microsoft a consisté à présenter son système d'exploitation comme facile à utiliser par le client moyen. A l'heure actuelle, cette facilité d'utilisation s'est étendue au-delà du PC vers le réseau internet, si bien que même ceux qui ne sont pas programmeurs peuvent maintenant insérer des applets Java dans leurs pages web sans comprendre une seule ligne de programmation.

2. . L'extension de cette popularisation à l'échelon local est l'exportation des technologies de l'information dans le monde entier. La popularisation est maintenant effective à l'échelon mondial, et l'anglais n'est plus nécessairement la langue obligée de l'utilisateur. Il n'y a plus vraiment de langue indispensable, il y a les langues propres aux utilisateurs. Une chose est certaine: il n'est plus nécessaire de comprendre l'anglais pour utiliser un ordinateur, de même qu'il n'est plus nécessaire d'avoir un diplôme d'informatique. La demande des utilisateurs non anglophones - et l'effort entrepris par les sociétés de haute technologie se faisant concurrence pour obtenir les marchés mondiaux - ont fait de la localisation un secteur en expansion rapide dans le développement des logiciels et du matériel informatique. Le premier pas a été le passage de l'ASCII à l'ASCII étendu. Ceci signifie que les ordinateurs commençaient à reconnaître les accents et les symboles utilisés dans les variantes de l'alphabet anglais, symboles qui appartenaient le plus souvent aux langues européennes. Cependant une page ne pouvait être affichée qu'en une seule langue à la fois.

3. <L'innovation technologique>. L'innovation la plus récente est l'Unicode. Bien qu'il soit encore en train d'évoluer et qu'il ait tout juste été incorporé dans les derniers logiciels, ce nouveau système d'encodage traduit chaque caractère en 16 octets. Alors que l'ASCII étendu à 8 octets pouvait prendre en compte un maximum de 256 caractères, l'Unicode peut prendre en compte plus de 65.000 caractères uniques et il a donc la possibilité de traiter informatiquement tous les systèmes d'écriture du monde. Les instruments sont maintenant plus ou moins en place. Ils ne sont pas encore parfaits, mais on peut désormais surfer sur le web en utilisant le chinois, le japonais, le coréen, et nombre d'autres langues n'utilisant pas l'alphabet occidental. Comme l'internet s'étend à des parties du monde où l'anglais est très peu utilisé, par exemple la Chine, il est naturel que ce soit le chinois et non l'anglais qui soit utilisé. La majorité des usagers en Chine n'a pas d'autre choix que sa langue maternelle.

Une période intermédiaire précède bien sûr ce changement. Une grande partie de la terminologie technique disponible sur le web n'est pas encore traduite dans d'autres langues. Et, comme nous nous en sommes rendus compte dans NetGlos, notre glossaire multilingue de la terminologie de l'internet, la traduction de ces termes n'est pas toujours facile. Avant qu'un nouveau terme ne soit accepté comme le terme correct, il y a une période d'instabilité avec plusieurs candidats en compétition. Souvent un terme emprunté à l'anglais est le point de départ et, dans de nombreux cas, il est aussi le point d'arrivée. Finalement émerge un vainqueur qui est ensuite utilisé aussi bien dans les dictionnaires techniques que dans le vocabulaire quotidien de l'usager non spécialiste. La dernière version de NetGlos est la version russe, et elle devrait être disponible dans deux semaines environ [fin septembre 1998]. Elle sera sans nul doute un excellent exemple du processus dynamique en cours pour la russification de la terminologie du web.