L'Internet et les langues

Chapter 1

Chapter 13,541 wordsPublic domain

L'INTERNET ET LES LANGUES

[autour de l'an 2000]

MARIE LEBERT

NEF, Université de Toronto, 2009

Copyright © 2009 Marie Lebert. Tous droits réservés.

TABLE

Introduction Des "communautés de langues" en ligne Vers un web multilingue L'anglais reste prédominant Le français sur l'internet Encodage: de l'ASCII a l'Unicode Premiers projets multilingues Dictionnaires de langues en ligne Apprendre les langues en ligne Les langues minoritaires Encyclopédies multilingues Localisation et internationalisation Traduction assistée par ordinateur Traduction automatique Chronologie Sites web

INTRODUCTION

On dit souvent que l'internet abolit le temps, les distances et les frontières, mais qu'en est-il des langues? En 2000, le web est multilingue, mais la barrière de la langue est loin d'avoir disparu. Si toutes les langues sont désormais représentées sur le web, on oublie trop souvent que de nombreux usagers sont unilingues, et que même les polyglottes ne peuvent connaître toutes les langues. Il importe aussi d'avoir à l'esprit l'ensemble des langues, et pas seulement les langues dominantes. Il reste à créer des passerelles entre les communautés linguistiques pour favoriser la circulation des écrits dans d'autres langues, notamment en améliorant la qualité des logiciels de traduction.

# Des "nations de langues"

"Comme l’internet n’a pas de frontières nationales, les internautes s’organisent selon d’autres critères propres au médium. En termes de multilinguisme, vous avez des communautés virtuelles, par exemple ce que j’appelle les 'nations des langues', tous ces internautes qu’on peut regrouper selon leur langue maternelle quel que soit leur lieu géographique. Ainsi la nation de la langue espagnole inclut non seulement les internautes d’Espagne et d’Amérique latine, mais aussi tous les hispanophones vivant aux Etats-Unis, ou encore ceux qui parlent espagnol au Maroc." (Randy Hobler, consultant en marketing internet de produits et services de traduction, septembre 1998)

# La "démocratie linguistique"

"Dans un rapport de l'UNESCO du début des années 1950, l'enseignement dispensé dans sa langue maternelle était considéré comme un droit fondamental de l'enfant. La possibilité de naviguer sur l'internet dans sa langue maternelle pourrait bien être son équivalent à l'Âge de l'Information. Si l'internet doit vraiment devenir le réseau mondial qu'on nous promet, tous les usagers devraient y avoir accès sans problème de langue. Considérer l'internet comme la chasse gardée de ceux qui, par accident historique, nécessité pratique ou privilège politique, connaissent l'anglais, est injuste à l'égard de ceux qui ne connaissent pas cette langue." (Brian King, directeur du WorldWide Language Institute, septembre 1998)

# Un médium pour le monde

"Il est très important de pouvoir communiquer en différentes langues. Je dirais même que c’est obligatoire, car l’information donnée sur l'internet est à destination du monde entier, alors pourquoi ne l’aurions-nous pas dans notre propre langue ou dans la langue que nous souhaitons lire? Information mondiale, mais pas de vaste choix dans les langues, ce serait contradictoire, pas vrai?" (Maria Victoria Marinetti, professeure d’espagnol en entreprise et traductrice, août 1999)

# De bons logiciels

"Quand la qualité des logiciels sera suffisante pour que les gens puissent converser par écrit et par oral sur le web en temps réel dans différentes langues, nous verrons tout un monde s'ouvrir à nous. Les scientifiques, les hommes politiques, les hommes d'affaires et bien d'autres groupes seront à même de communiquer immédiatement entre eux sans l'intermédiaire de médiateurs ou traducteurs." (Tim McKenna, écrivain et philosophe, octobre 2000)

# Dans toutes les langues

"Les recherches sur la traduction automatique devraient permettre une traduction automatique dans les langues souhaitées, mais avec des applications pour toutes les langues et non les seules dominantes (ex.: diffusion de documents en japonais, si l’émetteur est de langue japonaise, et lecture en breton, si le récepteur est de langue bretonne). Il y a donc beaucoup de travaux à faire dans le domaine de la traduction automatique et écrite de toutes les langues." (Pierre- Noël Favennec, expert à la direction scientifique de France Télécom R&D, février 2001)

***

Sauf indication contraire, les citations présentes dans ce livre sont des extraits des Entretiens du NEF <http://www.etudes- francaises.net/entretiens/>. Merci à toutes les personnes ayant accepté de répondre à des questions sur le multilinguisme, parfois pendant plusieurs années. Ce livre est disponible aussi en anglais, avec un texte différent. Les deux versions sont disponibles en ligne <http://www.etudes-francaises.net/entretiens/multi.htm>.

Marie Lebert, chercheuse et journaliste, s'intéresse aux technologies dans le monde du livre, des autres médias et des langues. Ses livres et dossiers sont publiés par le NEF (Net des études françaises), Université de Toronto, et sont librement disponibles sur le site du NEF <http://www.etudes-francaises.net>.

DES "COMMUNAUTES DE LANGUES" EN LIGNE

= [Citation]

Consultant en marketing internet de produits et services de traduction, Randy Hobler écrit en septembre 1998: "Comme l’internet n’a pas de frontières nationales, les internautes s’organisent selon d’autres critères propres au médium. En termes de multilinguisme, vous avez des communautés virtuelles, par exemple ce que j’appelle les 'nations des langues', tous ces internautes qu’on peut regrouper selon leur langue maternelle quel que soit leur lieu géographique. Ainsi la nation de la langue espagnole inclut non seulement les internautes d’Espagne et d’Amérique latine, mais aussi tous les hispanophones vivant aux Etats- Unis, ou encore ceux qui parlent espagnol au Maroc."

= [Texte]

Si Randy donne l'exemple d'une communauté internet hispanophone répartie sur trois continents, la même remarque vaut pour la francophonie, une communauté de langue française présente sur cinq continents. La même remarque concerne tout autant le créole, parlé non seulement dans les Caraïbes mais aussi à Paris, Montréal et New York.

À ses débuts, l'internet est anglophone à pratiquement 100%, ce qui s'explique par le fait qu'il débute aux États-Unis en tant que réseau mis en place dès 1969 par le Pentagone avant de se développer dans les agences gouvernementales et les universités suite à la création du protocole TCP/IP (transmission control protocol/internet protocol) en 1974 par Vinton Cerf et Bob Kahn. Après la création du World Wide Web en 1989-90 par Tim Berners-Lee au Centre européen pour la recherche nucléaire (CERN) à Genève (Suisse) et le lancement en novembre 1993 du premier navigateur Mosaic, ancêtre de Netscape, l'internet se développe rapidement, d'abord aux États-Unis grâce aux investissements considérables du gouvernement, puis au Canada, puis dans le monde entier.

Après avoir été anglophone à pratiquement 100%, l’internet est encore anglophone à plus de 80% en 1998, un pourcentage qui s’explique par trois facteurs: (a) l’usage de l'anglais en tant que principale langue d’échange internationale; (b) la création d’un grand nombre de sites web émanant des États-Unis, du Canada et du Royaume-Uni; (c) une proportion d'usagers particulièrement forte en Amérique du Nord par rapport au reste du monde, les ordinateurs étant bien meilleur marché qu'ailleurs, tout comme la connexion à l'internet sous forme de forfait mensuel à prix modique.

Dans plusieurs pays d'Europe, par exemple, cette connexion est d'abord tarifée à la durée, avec un tarif de jour et un tarif de nuit moins élevé. Les usagers passent donc beaucoup moins de temps sur l'internet qu'ils ne le souhaiteraient, et choisissent souvent de surfer la nuit pour éviter les factures trop élevées. Fin 1998 et début 1999, des mouvements de grève sont lancés en France, en Italie et en Allemagne pour faire pression sur les sociétés prestataires afin qu'elles baissent leurs prix et qu'elles proposent des forfaits internet, avec gain de cause dans les mois qui suivent.

En 1997, Babel, initative conjointe d'Alis Technologies et de l'Internet Society, mène la première étude sur la répartition des langues sur l'internet. Datée de juin 1997, le "Palmarès des langues de la toile" donne les pourcentages de 82,3% pour l'anglais, 4% pour l'allemand, 1,6% pour le japonais, 1,5% pour le français, 1,1% pour l'espagnol, 1,1% pour le suédois et 1% pour l'italien.

Dans un article publié le 21 juillet 1998 par ZDNN (ZDNetwork News), Martha Stone, journaliste, précise: "Cette année, le nombre de nouveaux sites non anglophones va probablement dépasser celui de nouveaux sites anglophones, et le monde cyber est en train de véritablement devenir une toile à l'échelle mondiale. (...) Selon Global Reach [société promouvant la localisation des sites web], les groupes linguistiques se développant le plus vite sont les groupes non anglophones: on note une progression de 22,4% pour les sites web espagnols, 12,3% pour les sites japonais, 14% pour les sites allemands et 10% pour les sites francophones. On estime à 55,7 millions le nombre de personnes non anglophones ayant accès au web. (...) Alors que 6% seulement de la population mondiale est de langue maternelle anglaise (et 16% de langue maternelle espagnole), 80% des pages web sont en anglais." Toujours selon Global Reach, 15% seulement des 500 millions d'habitants que compte l'Europe sont de langue maternelle anglaise, 28% maîtrisent bien l'anglais, et 32% consultent le web anglophone.

Brian King, directeur du WorldWide Language Institute (WWLI), développe le principe de "démocratie linguistique" dans un entretien daté de septembre 1998: "Dans un rapport de l'UNESCO du début des années 1950, l'enseignement dispensé dans sa langue maternelle était considéré comme un droit fondamental de l'enfant. La possibilité de naviguer sur l'internet dans sa langue maternelle pourrait bien être son équivalent à l'Âge de l'Information. Si l'internet doit vraiment devenir le réseau mondial qu'on nous promet, tous les usagers devraient y avoir accès sans problème de langue. Considérer l'internet comme la chasse gardée de ceux qui, par accident historique, nécessité pratique ou privilège politique, connaissent l'anglais, est injuste à l'égard de ceux qui ne connaissent pas cette langue."

Jean-Pierre Cloutier est l'auteur des Chroniques de Cybérie, une lettre d'information électronique sur l'actualité de l'internet. Il écrit en août 1999: "Cet été, le cap a été franchi. Plus de 50% des utilisateurs et utilisatrices du réseau sont hors des États-Unis. L'an prochain, plus de 50% des utilisateurs seront non anglophones. Il y a seulement cinq ans, c'était 5%. Formidable, non?"

Les usagers non anglophones atteignent en effet la barre des 50% au cours de l'été 2000. Selon Global Reach, ce pourcentage est de 52,5% en été 2001, 57% en décembre 2001, 59,8% en avril 2002, 64,4% en septembre 2003 (dont 34,9% d’Européens non anglophones et 29,4% d’Asiatiques) et 64,2% en mars 2004 (dont 37,9% d’Européens non anglophones et 33% d’Asiatiques).

Nombre de communautés pratiquent le bilinguisme au quotidien, par exemple à Genève pour le français et l’allemand, Toronto pour l'anglais et le français, ou San Francisco pour l’anglais et l’espagnol, pour ne citer que trois exemples. Le cas extrême étant la Communauté européenne avec ses 11 langues officielles en 2003, puis ses 24 langues officielles en 2007 après son élargissement progressif vers l'Europe de l'Est.

VERS UN WEB MULTILINGUE

= [Citation]

Professeure d’espagnol en entreprise et traductrice, Maria Victoria Marinetti écrit en août 1999: "Il est très important de pouvoir communiquer en différentes langues. Je dirais même que c’est obligatoire, car l’information donnée sur l'internet est à destination du monde entier, alors pourquoi ne l’aurions-nous pas dans notre propre langue ou dans la langue que nous souhaitons lire? Information mondiale, mais pas de vaste choix dans les langues, ce serait contradictoire, pas vrai?"

= [Texte]

En Californie, deux étudiants de l'Université de Stanford, Jerry Lang et David Filo, lancent en janvier 1994 l'annuaire Yahoo! pour recenser les sites web et les classer par thèmes. L'annuaire est un succès, avec un classement plus pointu que celui de moteurs de recherche comme AltaVista, où ces tâches sont entièrement automatisées. Trois ans plus tard, Yahoo! propose un classement en 63 grandes catégories thématiques, tout comme une interface en plusieurs langues: anglais, allemand, coréen, français, japonais, norvégien et suédois. De plus, quand une recherche ne donne pas de résultat dans Yahoo!, elle est automatiquement aiguillée vers AltaVista, et réciproquement.

En décembre 1997, AltaVista est le premier moteur de recherche à lancer un service gratuit de traduction automatisée de l'anglais vers cinq autres langues (allemand, espagnol, français, italien et portugais) et vice versa, la page originale et la traduction apparaissant en vis-à- vis à l’écran. AltaVista Translation, surnommé aussi Babel Fish, est l'oeuvre de SYSTRAN, une société franco-américaine pionnière dans le domaine de la traduction automatique. Babel Fish est alimenté par des dictionnaires multilingues comprenant 2,5 millions de termes. Bien qu'ayant ses limites, avec une traduction de trois pages maximum et un texte traduit approximatif, ce service est immédiatement très apprécié des douze millions d'usagers, dont un nombre croissant d'usagers non anglophones. Il ouvre aussi la voie à d'autres services du même genre - développés entre autres par Alis Technologies, Lernout & Hauspie, Globalink ou Softissimo - et contribue grandement au plurilinguisme du web.

Autre initiative, Robert Ware, enseignant, lance en avril 1996 le site OneLook Dictionaries pour permettre une recherche rapide dans des centaines de dictionnaires couvrant divers domaines: affaires, informatique et internet, médecine, religion, sciences et techniques, sports, généralités et argot. Il explique en septembre 1998: "A titre personnel, je suis presque uniquement en contact avec des gens qui ne pratiquent qu'une langue et qui n'ont pas beaucoup de motivation pour développer leurs aptitudes linguistiques. Être en contact avec le monde entier change cette approche des choses. Et la change en mieux! (...) J'ai été long à inclure des dictionnaires non anglophones (en partie parce que je suis monolingue). Mais vous en trouverez maintenant quelques-uns." OneLook Dictionaries compte 2 millions de termes provenant de 425 dictionnaires en 1998, 2,5 millions de termes provenant de 530 dictionnaires en 2000, et 5 millions de termes provenant de 910 dictionnaires en 2003.

Robert Ware raconte aussi dans le même entretien par courriel: "Un fait intéressant s'est produit par le passé qui a été très instructif pour moi. En 1994, je travaillais pour un établissement scolaire et j'essayais d'installer un logiciel sur un modèle d'ordinateur particulier. J'ai trouvé une personne qui était en train de travailler sur le même problème, et nous avons commencé à échanger des courriers électroniques. Soudain, cela m'a frappé... Le logiciel avait été écrit à 40 kilomètres de là, mais c'était une personne située à l'autre bout du monde qui m'aidait. Les distances et l'éloignement géographique n'importaient plus! Et bien, ceci est formidable, mais à quoi cela nous mène-t-il? Je ne puis communiquer qu'en anglais mais, heureusement, mon correspondant pouvait utiliser aussi bien l'anglais que l'allemand qui était sa langue maternelle. L'internet a supprimé une barrière, celle de la distance, mais il subsiste la barrière de la langue, bien réelle.

Il semble que l'internet propulse simultanément les gens dans deux directions différentes. L'internet, anglophone à l'origine, relie les gens dans le monde entier. Par là même, il favorise une langue commune pour communiquer. Mais il suscite aussi des contacts entre des personnes de langue différente et permet ainsi de développer un intérêt plus grand pour le multilinguisme. Si une langue commune est appréciable, elle ne remplace en aucun cas la nécessité de plusieurs langues. L'internet favorise ainsi à la fois une langue commune et le multilinguisme, et ceci est un facteur qui aide à trouver des solutions. L'intérêt croissant pour les langues et le besoin qu'on en a stimulent de par le monde la création de cours de langues et d'instruments d'aide linguistique, et l'internet fournit la possibilité de les rendre disponibles rapidement et à bon marché."

Même si l'anglais est encore prédominant à la fin des années 1990, les sites bilingues ou plurilingues sont de plus en plus nombreux, ce pour des raisons aussi bien commerciales que culturelles, qui prennent en compte le fait que tout le monde ne comprend pas l'anglais. Brian King, directeur du WorldWide Language Institute (WWLI), écrit en septembre 1998: "De même que l'utilisateur non anglophone peut maintenant avoir accès aux technologies dans sa propre langue, l'impact du commerce électronique peut constituer une force majeure qui fasse du multilinguisme la voie la plus naturelle vers le cyberespace. Les vendeurs de produits et services dans le marché virtuel mondial que devient l'internet doivent être préparés à desservir un monde virtuel qui soit aussi multilingue que le monde physique. S'ils veulent réussir, ils doivent s'assurer qu'ils parlent bien la langue de leurs clients!"

Le réseau ELSNET (European Network in Language and Speech - Réseau européen pour le langage et la parole) regroupe une centaine de partenaires académiques et commerciaux, l'objectif étant de mettre sur pied des systèmes multilingues pour la langue parlée et la langue écrite. Steven Krauwer, coordinateur d'ELSNET, explique en septembre 1998: "En tant que citoyen européen, je pense que le multilinguisme sur le web est absolument essentiel. A mon avis, ce n'est pas une situation saine à long terme que seuls ceux qui ont une bonne maîtrise de l'anglais puissent pleinement exploiter les bénéfices du web. En tant que chercheur (spécialisé dans la traduction automatique), je vois le multilinguisme comme un défi majeur: pouvoir garantir que l'information sur le web soit accessible à tous, indépendamment des différences de langue. (...) Je compte passer le reste de ma vie professionnelle à utiliser les technologies de l'information pour supprimer ou au moins réduire la barrière des langues."

Il ajoute en août 1999: "Je suis de plus en plus convaincu que nous devons veiller à ne pas aborder le problème du multilinguisme en l'isolant du reste. Je reviens de France, où j'ai passé de très bonnes vacances d'été. Même si ma connaissance du français est sommaire (c'est le moins que l'on puisse dire), il est surprenant de voir que je peux malgré tout communiquer sans problème en combinant ce français sommaire avec des gestes, des expressions du visage, des indices visuels, des schémas, etc. Je pense que le web (contrairement au système vieillot du courrier électronique textuel) peut permettre de combiner avec succès la transmission des informations par différents canaux (ou différents moyens), même si ce processus n'est que partiellement satisfaisant pour chacun des canaux pris isolément."

Pour un véritable multilinguisme sur le web, Steven Krauwer suggère plusieurs solutions pratiques: "(a) en ce qui concerne les auteurs: une meilleure formation des auteurs de sites web pour exploiter les combinaisons possibles permettant d'améliorer la communication en surmontant la barrière de la langue (et pas seulement par un vernis superficiel); (b) en ce qui concerne les usagers: des logiciels de traduction de type AltaVista Translation, dont la qualité n'est pas frappante, mais qui a le mérite d'exister; (c) en ce qui concerne les logiciels de navigation: des logiciels de traduction intégrée, particulièrement pour les langues non dominantes, et des dictionnaires intégrés plus rapides à consulter."

Le multilinguisme est l'affaire de tous, témoin cet Appel du Comité européen pour le respect des cultures et des langues en Europe (CERCLE) qui, diffusé en 1998 dans les onze langues officielles de l'Union européenne (allemand, anglais, danois, espagnol, finlandais, français, grec, hollandais, italien, portugais et suédois), défend "une Europe humaniste, plurilingue et riche de sa diversité culturelle". Le CERCLE propose aux réviseurs du Traité de l'Union européenne douze amendements prenant en compte le respect des cultures et des langues. On lit dans cet Appel que "la diversité et le pluralisme linguistiques ne sont pas un obstacle à la circulation des hommes, des idées et des marchandises ou services, comme veulent le faire croire certains, alliés objectifs, conscients ou non, de la culture et de la langue dominantes. C'est l'uniformisation et l'hégémonie qui sont un obstacle au libre épanouissement des individus, des sociétés et de l'économie de l'immatériel, source principale des emplois de demain. Le respect des langues, à l'inverse, est la dernière chance pour l'Europe de se rapprocher des citoyens, objectif toujours affiché, presque jamais mis en pratique. L'Union doit donc renoncer à privilégier la langue d'un seul groupe."

Bruno Didier, webmestre de la bibliothèque de l’Institut Pasteur, écrit en août 1999: "L'internet n’est une propriété ni nationale, ni linguistique. C’est un vecteur de culture, et le premier support de la culture, c’est la langue. Plus il y a de langues représentées dans leur diversité, plus il y aura de cultures sur l'internet. Je ne pense pas qu’il faille justement céder à la tentation systématique de traduire ses pages dans une langue plus ou moins universelle. Les échanges culturels passent par la volonté de se mettre à la portée de celui vers qui on souhaite aller. Et cet effort passe par l’appréhension de sa langue. Bien entendu c’est très utopique comme propos. Concrètement, lorsque je fais de la veille, je peste dès que je rencontre des sites norvégiens ou brésiliens sans un minimum d’anglais."

L'ANGLAIS RESTE PREDOMINANT

= [Citation]

L’anglais reste prépondérant et ceci n’est pas près de disparaître. Comme indiqué en janvier 1999 par Marcel Grangier, responsable de la section française des services linguistiques centraux de l’Administration fédérale suisse, "cette suprématie n’est pas un mal en soi, dans la mesure où elle résulte de réalités essentiellement statistiques (plus de PC par habitant, plus de locuteurs de cette langue, etc.). La riposte n’est pas de 'lutter contre l’anglais' et encore moins de s’en tenir à des jérémiades, mais de multiplier les sites en d’autres langues. Notons qu’en qualité de service de traduction, nous préconisons également le multilinguisme des sites eux- mêmes. La multiplication des langues présentes sur l'internet est inévitable, et ne peut que bénéficier aux échanges multiculturels."

= [Texte]

Professeur en technologies de la communication à la Webster University de Genève (Suisse), Henk Slettenhaar insiste tout autant sur la nécessité de sites bilingues, dans la langue originale et en anglais. "Les communautés locales présentes sur le web devraient en tout premier lieu utiliser leur langue pour diffuser des informations, écrit-il en décembre 1998. Si elles veulent présenter ces informations à la communauté mondiale, celles-ci doivent être également disponibles en anglais. Je pense qu’il existe un réel besoin de sites bilingues. (...) Mais je suis enchanté qu’il existe maintenant tant de documents disponibles dans leur langue originale. Je préfère de beaucoup lire l’original avec difficulté plutôt qu’une traduction médiocre."