Le multilinguisme sur le Web

Chapter 4

Chapter 43,532 wordsPublic domain

Mais la tradition a été bouleversée, et la technologie popularisée. Des interfaces graphiques tels que Windows et Macintosh ont accéléré le processus. La stratégie de marketing de Microsoft a consisté à présenter son système d'exploitation comme facile à utiliser par le client moyen. A l'heure actuelle cette facilité d'utilisation s'est étendue au-delà du PC vers le réseau Internet, si bien que maintenant même ceux qui ne sont pas programmeurs peuvent insérer des applets Java dans leurs pages web sans comprendre une seule ligne de programmation.

b) La compétition des grandes sociétés pour une part de 'marché global'

L'extension de cette popularisation locale est l'exportation de la technologie de l'information dans le monde entier. La popularisation est maintenant effective à l'échelon mondial, et l'anglais n'est plus nécessairement la langue obligée de l'utilisateur. Il n'y a plus vraiment de langue indispensable, mais seulement les langues personnelles des utilisateurs. Une chose est certaine: il n'est plus nécessaire de comprendre l'anglais pour utiliser un ordinateur, de même qu'il n'est plus nécessaire d'avoir un diplôme d'informatique.

La demande des utilisateurs non anglophones et l'effort entrepris par les sociétés high-tech se faisant concurrence pour obtenir les marchés mondiaux a fait de la localisation un secteur en expansion rapide dans le développement des logiciels et du matériel. Le premier pas a été le passage de l'ASCII à l'ASCII étendu. Ceci signifie que les ordinateurs commençaient à reconnaître les accents et les symboles utilisés dans les variantes de l'alphabet anglais, symboles qui appartenaient le plus souvent aux langues européennes. Cependant une page ne pouvait être affichée qu'en une seule langue à la fois.

c) L'innovation technologique

L'innovation la plus récente est UNICODE. Bien qu'il soit encore en train d'évoluer et qu'il ait tout juste été incorporé dans les derniers logiciels, ce nouveau système de codage traduit chaque caractère en 16 octets. Alors que l'ASCII étendu à 8 octets pouvait prendre en compte un maximum de 256 caractères, UNICODE peut prendre en compte plus de 65.000 caractères uniques et il a donc la possibilité de traiter informatiquement tous les systèmes d'écriture du monde.

Les instruments sont maintenant plus ou moins en place. Ils ne sont pas encore parfaits, mais on peut désormais surfer sur le Web en utilisant le chinois, le japonais, le coréen, et de nombreuses autres langues qui n'utilisent pas l'alphabet occidental. Comme Internet s'étend à des parties du monde où l'anglais est très peu utilisé, par exemple la Chine, il est naturel que ce soit le chinois et non l'anglais qui soit utilisé. La majorité des usagers en Chine n'a pas d'autre choix que sa langue maternelle.

Une période intermédiaire précède bien sûr ce changement. Une grande partie de la terminologie technique disponible sur le Web n'est pas encore traduite dans d'autres langues. Et, comme nous nous en sommes rendus compte dans NetGlos, notre glossaire multilingue de la terminologie d'Internet, la traduction de ces termes n'est pas toujours facile. Avant qu'un nouveau terme ne soit accepté comme le terme correct, il y a une période d'instabilité avec plusieurs candidats en compétition. Souvent un terme emprunté à l'anglais est le point de départ et, dans de nombreux cas, il est aussi le point d'arrivée. Finalement émerge un vainqueur qui est ensuite utilisé aussi bien dans les dictionnaires techniques que dans le vocabulaire quotidien de l'usager non spécialiste. La dernière version de NetGlos est la version russe et elle devrait être disponible dans deux semaines environ [fin septembre 1998]. Elle sera sans nul doute un excellent exemple du processus dynamique en cours pour la russification de la terminologie du Web.

d) La démocratie linguistique

Dans un rapport de l'UNESCO du début des années 50, l'enseignement dispensé dans sa langue maternelle était considéré comme un droit fondamental de l'enfant. La possibilité de naviguer sur Internet dans sa langue maternelle pourrait bien être son équivalent à l'Age de l'information. Si Internet doit vraiment devenir le réseau mondial qu'on nous promet, tous les usagers devraient y avoir accès sans problème de langue. Le considérer comme la chasse gardée de ceux qui, par accident historique, nécessité pratique ou privilège politique, connaissent l'anglais, est injuste à l'égard de ceux qui ne connaissent pas cette langue.

e) Le commerce électronique

Bien qu'un Web multilingue soit souhaitable sur le plan moral et éthique, un tel idéal ne suffit pas pour en faire une réalité dépassant les limites actuelles. De même que l'utilisateur non anglophone peut maintenant avoir accès à la technologie dans sa propre langue, l'impact du commerce électronique peut constituer une force majeure qui fasse du multilinguisme la voie la plus naturelle vers le cyberespace.

Les vendeurs de produits et services dans le marché virtuel mondial que devient Internet doivent être préparés à faire face à un monde virtuel qui soit aussi multilingue que le monde physique. S'ils veulent réussir, ils doivent s'assurer qu'ils parlent bien la langue de leurs clients!"

ML: "Quel a été le bénéfice de l'utilisation du Web dans votre activité?"

BK: "Le principal service que nous offrons est l'enseignement des langues par le biais du Web. Notre organisme est dans la position unique d'en être venu à exister du fait d'Internet!"

ML: "Comment voyez-vous l'évolution vers un Internet multilingue?"

BK: "Comme l'existence de notre organisme est liée à l'importance attachée aux langues, je pense que son avenir sera excitant et stimulant. Mais il est impossible de pratiquer l'autosuffisance à l'égard de nos réussites et de nos réalisations. La technologie change à une allure frénétique. L'apprentissage durant toute la vie est une stratégie que nous devons tous adopter si nous voulons rester en tête et être compétitifs. C'est une tâche qui est déjà assez difficile dans un environnement anglophone. Si nous ajoutons à cela la complexité apportée par la communication dans un cyberespace multilingue et multiculturel, la tâche devient encore plus astreignante. Probablement plus encore que par le passé, la coopération est aussi indispensable que la concurrence.

Les germes d'une coopération par le biais d'Internet existent déjà. Notre projet NetGlos a dépendu du bon vouloir de traducteurs volontaires de nombreux pays: Canada, Etats-Unis, Autriche, Norvège, Belgique, Israël, Portugal, Russie, Grèce, Brésil, Nouvelle-Zélande, etc. Je pense que les centaines de visiteurs qui consultent quotidiennement les pages de NetGlos constituent un excellent témoignage du succès de ce type de relations de travail. Les relations de coopération s'accroîtront encore à l'avenir, mais pas nécessairement sur la base du volontariat."

3.4. Bases de données textuelles

Des bases de données textuelles sont accessibles par abonnement payant, par exemple FRANTEXT et l'ARTFL Project pour la langue française.

FRANTEXT, présent sur le Web depuis début 1995, est l'oeuvre de l'Institut national de la langue française (INaLF), une branche du CNRS (Centre national de la recherche scientifique, France). La base comprend, en mode interactif, 180 millions de mots-occurrences résultant du traitement informatique d'une collection représentative de 3.500 unités textuelles en arts, sciences et techniques couvrant cinq siècles (16e-20e siècles). Début 1998, 82 centres de recherche et bibliothèques universitaires d'Europe, d'Australie, du Japon et du Canada étaient abonnés, ce qui représentait 1.250 postes de travail ayant accès à la base. Le nombre de sessions d'interrogations était d'une cinquantaine par jour.

Dans son courrier électronique du 11 juin 1998, Arlette Attali indiquait les changements apportés par Internet dans sa vie professionnelle:

"Etant moi-même plus spécialement affectée au développement des bases textuelles à l'INaLF, j'ai été amenée à explorer les sites du Web qui proposaient des textes électroniques et à les 'tester'. Je me suis donc transformée en 'touriste textuelle' avec les bons et mauvais côtés de la chose. La tendance au zapping et au survol étant un danger permanent, il faut bien cibler ce que l'on cherche si l'on ne veut pas perdre son temps. La pratique du Web a totalement changé ma façon de travailler: mes recherches ne sont plus seulement livresques et donc d'accès limité, mais elles s'enrichissent de l'apport des textes électroniques accessibles sur Internet.

[A l'avenir je pense] contribuer à développer des outils linguistiques associés à la base FRANTEXT et à les faire connaître auprès des enseignants, des chercheurs, des étudiants et aussi des lycéens."

En janvier 1998, elle a mené une enquête auprès des utilisateurs de FRANTEXT pour mieux connaître ses utilisateurs. Les résultats de cette enquête sont disponibles en ligne.

L'ARTFL Project (ARTFL: American and French Research on the Treasury of the French Language - Recherche franco-américaine sur les trésors de la langue française) est un projet commun du Centre national de la recherche scientifique (CNRS, France) et de l'Université de Chicago (Illinois, USA), qui vise à constituer une base de données de 2.000 textes du 13e au 20e siècle concernant la littérature, la philosophie, les arts ou les sciences.

L'ARTFL travaille aussi à la version en ligne exhaustive de la première édition (1751-1772) de l'Encyclopédie ou Dictionnaire raisonné des sciences, des métiers et des arts de Diderot et d'Alembert. 72.000 articles écrits par plus de 140 collaborateurs (dont Voltaire, Rousseau, d'Alembert, Marmontel, d'Holbach, Turgot, etc.) ont fait de cette encyclopédie un monumental ouvrage de référence pour les arts et les sciences. Destinée à rassembler puis divulguer les connaissances de l'époque, elle porte la marque des courants intellectuels et sociaux du 18e siècle, et c'est grâce à elle qu'ont été propagées les idées du Siècle des Lumières.

Les chiffres sont éloquents quant à l'ampleur du travail: l'Encyclopédie comprend 17 volumes de texte et 11 volumes de planches, 18.000 pages de texte et 20.736.912 mots. La base de données correspondant au premier volume est accessible en ligne à titre expérimental. La recherche peut être effectuée par mot, portion de texte, auteur ou catégorie, ou par la combinaison de ces critères entre eux. On dispose de renvois d'un article à l'autre, et des liens permettent d'aller d'une planche au texte, ou du texte au fac-similé des pages originales. L'automatisation complète des procédures de saisie a entraîné quelques erreurs typographiques et des erreurs d'identification qui seront corrigées plus tard. La recherche d'images par mot, portion de texte ou catégorie sera également possible à l'avenir.

L'ARTFL travaille aussi à un projet de base de données pour le Dictionnaire de l'Académie française, dont les différentes éditions se sont échelonnées entre 1694 et 1935. Ce projet inclut la saisie et l'édition du texte, ainsi que le développement d'un moteur de recherche spécifique. Les différentes éditions pourront être combinées dans une seule base de données qui permettra de consulter aussi bien une édition particulière que l'ensemble de celles-ci pour juger de l'évolution d'un terme. Pour le moment, seules deux éditions, la première (1694) et la cinquième (1798), sont disponibles pour une recherche par mot. Une fonction de recherche en texte intégral est prévue par la suite.

Une rubrique présente une liste des autres projets de l'ARTFL, notamment la version image de l'édition de 1740 du Dictionnaire historique et critique de Philippe Bayle, le Roget's Thesaurus de 1911, le Webster's Revised Unabridged Dictionary de 1913, le Thresor de la langue française de Jean Nicot (1606), un projet multilingue sur La Bible comprenant La Bible française de Louis Segond (1910), etc.

De par la quantité d'oeuvres dactylographiées à cette intention, le Project Gutenberg est la plus ancienne et la plus grande cyberbibliothèque qui existe. Créée en 1971 par Michael Hart aux Etats-Unis, elle a pour but de mettre gratuitement le plus grand nombre possible de textes à la disposition du plus grand nombre possible de lecteurs, à raison d'environ 45 titres par mois. Ses objectifs pour 2001 sont un stock de 10.000 textes littéraires et une transmission de 1.000 milliards de textes électroniques, soit 10.000 livres numériques vers 100 millions de lecteurs.

Le projet débuta en 1971 quand on donna à Michael Hart un compte de 100 millions de dollars de "temps machine" au Materials Research Lab de l'Université d'Illinois (USA). Immédiatement après avoir reçu ce crédit, il décida de le consacrer à la recherche et au stockage des oeuvres conservées dans les bibliothèques. Il décida aussi de stocker des textes électroniques de la manière la plus simple possible, en format ASCII, avec des lettres capitales pour les termes en italique, gras ou soulignés, afin que ces textes puissent être lus quels que soient la machine et le logiciel utilisés.

Cinquante heures environ sont nécessaires pour sélectionner, dactylographier, corriger et mettre en page un texte électronique. La dactylographie des textes est l'oeuvre de volontaires. Un ouvrage de taille moyenne - par exemple un roman de Stendhal ou de Jules Verne - est composé de deux fichiers ASCII.

Le Project Gutenberg inclut trois grands secteurs: la littérature de divertissement (Light Literature), comme Alice au pays des merveilles, Peter Pan ou les Fables d'Esope, la littérature "sérieuse" (Heavy Literature) comme La Bible, les oeuvres de Shakespeare ou Moby Dick, et la littérature de référence (Reference Literature), composée d'encyclopédies et de dictionnaires, par exemple le Thesaurus de Roget.

Sur le site web, Michael Hart explique que la collection de littérature de divertissement est destinée à amener devant l'écran aussi bien un enfant d'âge pré-scolaire qu'une personne du troisième âge. Des enfants ou des grand-parents vont rechercher le texte électronique de Peter Pan après avoir vu Hook au cinéma, ou bien ils lisent Alice au pays des merveilles après l'avoir regardé à la télévision. Pratiquement tous les épisodes de Star Trek ont mentionné des livres qui ont leur correspondant électronique dans le Project Gutenberg (Moby Dick, Peter Pan...). L'objectif est que les gens puissent retrouver des citations qu'ils ont entendues dans des conversations, des films, des musiques, d'autres livres, et ce à l'aide d'une bibliothèque contenant tous ces éléments dans un format facile pour la recherche.

En juillet 1997, le Projet Gutenberg fêtait son vingt-sixième anniversaire avec la mise en ligne des Merry Adventures of Robin Hood de Howard Pyle. En septembre 1997, il fêtait son millième texte électronique avec la version anglaise de la Divine comédie de Dante. Dans sa lettre d'information d'octobre 1997, Michael Hart annonçait son intention de compléter la collection d'Oscar Wilde, de "séparer" les oeuvres complètes de Shakespeare en fichiers individuels pour chaque oeuvre, et de mettre en ligne des ouvrages non anglophones.

Outre l'anglais, on trouve quelques oeuvres en allemand, espagnol, français, italien et latin, mais elles ne sont pas encore légion. En janvier 1998, si on lançait une recherche sur les ouvrages disponibles en langue française, on trouvait neuf titres, dont six romans de Stendhal (L'Abbesse de Castro, La Chartreuse de Parme, La Duchesse de Palliano, Le Rouge et le Noir, Les Cenci, Vittoria Accorambani), deux romans de Jules Verne (De la terre à la lune et Le tour du monde en 80 jours) et French Cave Paintings, un ouvrage sur les peintures préhistoriques. A part ce dernier ouvrage, disponible depuis 1995, tous ces ouvrages n'ont été intégrés à la bibliothèque que début 1997. Si aucun titre de Stendhal n'était disponible en anglais, il existait trois oeuvres de Jules Verne dans cete langue: 20,000 Leagues Under the Sea (disponible depuis septembre 1994), Around the World in 80 Days (disponible depuis janvier 1994) et From the Earth to the Moon (disponible depuis septembre 1993).

Début septembre 1998, le nombre de titres d'ouvrages en langue française était monté à onze, avec Cyrano de Bergerac, d'Edmond Rostand, disponible depuis mars 1998, et La Révolution française, de Thomas Carlyle, disponible depuis mai 1998.

La lettre d'information d'octobre 1997 annonçait le développement des collections étrangères du Projet Gutenberg. Dans celle de mars 1998, Michael Hart indiquait que les volontaires du projet préparaient maintenant des textes électroniques en allemand, espagnol, français et portugais. Ces prochains mois, il espérait aussi recevoir des textes dans les langues suivantes: arabe, catalan, chinois, coréen, danois, espéranto, grec, hébreu, hollandais, hongrois, italien, japonais, latin, lituanien, polonais, roumain, russe, slovaque et slovène.

3.5. Bases de données terminologiques

La consultation gratuite sur le Web de bases terminologiques est très appréciée des linguistes. Voici par exemple quatre bases terminologiques gérées par des organisations internationales: Eurodicautom, géré par le Service de traduction de la Commission européenne, ILOTERM, géré par l'Organisation internationale du Travail (OIT), TERMITE (Base de données terminologique des Télécommunications de l'UIT), géré par l'Union internationale des télécommunications (UIT) et WHOTERM (WHO Terminology Information System), géré par l'Organisation mondiale de la santé (OMS).

Eurodicautom est la base de terminologie multilingue préparée par le Service de traduction de la Commission européenne. Mise en place à l'origine pour aider les traducteurs de la Commission, elle est consultée aujourd'hui par un nombre croissant de fonctionnaires de l'Union européenne autres que des traducteurs, ainsi que par des professionnels des langues dans le monde entier. Constamment mise à jour, cette base est disponible dans douze langues: allemand, anglais, danois, espagnol, finnois, grec, hollandais, italien, latin, portugais et suédois, et elle couvre de nombreux sujets.

ILOTERM est une base de données terminologique quadrilingue (allemand, anglais, espagnol et français) qui est gérée par l'Unité de terminologie et de références du Service des documents officiels (OFFDOC) de l'Organisation internationale du Travail (OIT). Comme l'indique le site web,

"sa principale finalité est d'apporter des solutions, conformes à l'usage courant, à des problèmes terminologiques dans le domaine du travail et des questions sociales. Les termes figurent en anglais avec leurs équivalents en français, espagnol et/ou allemand. La base de données contient également (dans une à quatre langues) des articles concernant la structure et les programmes de l'OIT, les noms officiels d'institutions internationales, d'organismes nationaux et d'organisations nationales d'employeurs et de travailleurs, ainsi que les titres de réunions et d'instruments internationaux."

Géré par la section de traduction de l'Union internationale des télécommunications (UIT), TERMITE (Base de données terminologique des Télécommunications de l'UIT) est également quadrilingue (anglais, espagnol, français et russe).

"TERMITE contient tous les termes qui apparaissent dans tous les glossaires de l'UIT imprimés depuis 1980, ainsi que des termes plus récents en rapport avec les différentes activités de l'Union (en tout quelques 59.000 entrées). Normalement les collaborateurs qui s'occupent de l'amélioration et de la mise à jour de cete base de données sont des traducteurs ou des éditeurs techniques. TERMITE est surtout visité par les traducteurs internes mais aussi par des utilisateurs externes, travaillant dans le domaine des télécommunications."

Géré par l'Organisation mondiale de la santé (OMS), le système d'information terminologique WHOTERM (WHO Terminology Information System) est trilingue (anglais, espagnol et français). Il est constitué à partir des expressions et concepts des documents de l'OMS afin d'"améliorer la rigueur et la cohérence des textes rédigés, préparés ou traduits. Il permet également à tous ceux qui collaborent à des programmes techniques de l'OMS d'enrichir les terminologies nouvelles, de promouvoir leur normalisation et de garantir leur diffusion."

4. TRADUCTION

[Dans ce chapitre:]

[4.1. Services de traduction / 4.2. Traduction automatique / 4.3. Traduction assistée par ordinateur]

4.1. Services de traduction

Créé par Vorontsoff, Wesseling & Partners (Amsterdam, Pays-Bas), Aquarius est un répertoire de traducteurs et interprètes incluant 6.100 traducteurs, 800 sociétés de traduction, 91 domaines d'expertise et 369 combinaisons de langues. Ce site non commercial permet de localiser et de contacter les meilleurs traducteurs directement, sans intermédiaire ni agence. La recherche est possible par lieu, combinaison de langues et spécialité.

Fondé by Bill Dunlap, Euro-Marketing Associates propose Global Reach, une méthode permettant aux sociétés d'étendre leur présence sur Internet dans un contexte international, ce qui comprend la traduction de leur site web dans d'autres langues, le promotion de ce site et l'utilisation de bandeaux publicitaires nationaux pour augmenter la consultation locale. Bill Dunlap précise:

"Promouvoir votre site est aussi important que de le créer, sinon plus. Vous devez être préparé à utiliser au moins autant de temps et d'argent à promouvoir votre site que vous en avez passé à l'origine à le créer. Le programme Global Reach vous permettra de promouvoir votre site dans des pays non anglophones, afin d'atteindre une clientèle plus large... et davantage de ventes. Il existe de nombreuses bonnes raisons pour considérer sérieusement le marché international. Global Reach est pour vous le moyen d'étendre votre site web à de nombreux pays, de le présenter à des visiteurs en ligne dans leur propre langue, et d'atteindre les marchés en ligne de ces pays."

Dans son courrier électronique du 11 décembre 1998, il expliquait aussi comment il en était venu à intégrer Internet dans sa vie professionnelle:

"Depuis 1981, début de ma vie professionnelle, j'ai été impliqué dans la venue de sociétés américaines en Europe. Ceci est pour beaucoup un problème de langue, puisque leurs informations commerciales doivent être disponibles dans les langues européennes pour être prises en compte ici, en Europe. Comme le Web est devenu populaire en 1995, j'ai donné à ces activités une dimension 'en ligne', et j'en suis venu à promouvoir le cybercommerce européen auprès de mes compatriotes américains. Récemment, lors de l'Internet World à New York, j'ai parlé du cybercommerce européen et de la manière d'utiliser un site web pour toucher les différents marchés d'Europe."

4.2. Traduction automatique

La traduction automatique (TA) analyse le texte dans la langue-source et génère automatiquement le texte correspondant dans la langue-cible. L'être humain n'intervient pas au cours du processus, contrairement à la traduction assistée par ordinateur, qui exige une certaine interaction entre l'homme et la machine.

SYSTRAN, société spécialisée dans les logiciels de traduction, explique sur son site web:

"Un logiciel de traduction automatique traduit une langue naturelle dans une autre langue naturelle. La traduction automatique prend en compte la structure grammaticale de chaque langue et elle utilise des règles pour transférer la structure grammaticale de la langue-source (texte à traduire) vers la langue-cible (texte traduit). La traduction automatique ne remplace pas et n'est pas destinée à remplacer le traducteur humain."

La European Association for Machine Translation (EAMT) (Association européenne pour la traduction automatique) donne la définition suivante: