L'Internet et les langues

Chapter 6

Chapter 63,458 wordsPublic domain

Bill Dunlap est le fondateur de Euro-Marketing Associates, une société de conseil en marketing qu'il lance en 1985 à Paris et San Francisco. En 1995, il restructure cette société en service de conseil en ligne dénommé Global Reach, qui regroupe des consultants internationaux de premier plan, le but étant de promouvoir les sites web des entreprises dans d'autres pays, afin d'attirer plus de visiteurs, et donc d'augmenter les ventes. Cette méthode comprend la traduction du site web dans plusieurs langues, la promotion active du site, et enfin l'accroissement de la fréquentation locale au moyen de bandeaux publicitaires ciblés.

Bill Dunlap explique en décembre 1998: "Il y a très peu de gens aux États-Unis qui sont intéressés de communiquer dans plusieurs langues. Pour la plupart, ils pensent encore que le monde entier parle anglais. Par contre, ici en Europe (j'écris de France), les pays sont petits, si bien que, depuis des siècles, une perspective internationale est nécessaire. Depuis 1981, début de mon activité professionnelle, j'ai été impliqué dans la venue de sociétés américaines en Europe. Ceci est pour beaucoup un problème de langue, puisque leurs informations commerciales doivent être disponibles dans les langues européennes pour être prises en compte ici, en Europe. Comme le web est devenu populaire en 1995, j'ai donné à ces activités une dimension 'en ligne', et j'en suis venu à promouvoir le cybercommerce européen auprès de mes compatriotes américains. Récemment, lors de la conférence Internet World à New York, j'ai parlé du cybercommerce européen et de la manière d'utiliser un site web pour toucher les différents marchés d'Europe. (...)

Promouvoir un site est aussi important que de le créer, sinon plus. On doit être préparé à utiliser au moins autant de temps et d'argent à promouvoir son site qu'on en a passé à l'origine à le créer. Le programme Global Reach permet de promouvoir un site dans des pays non anglophones, afin d'atteindre une clientèle plus large... et davantage de ventes. Une société a de nombreuses bonnes raisons de considérer sérieusement le marché international. Global Reach est pour elle le moyen d'étendre son site web à de nombreux pays, de le présenter à des visiteurs en ligne dans leur propre langue, et de pénétrer le réseau de commerce en ligne présent dans ces pays."

Il ajoute en juillet 1999: "Une fois que la page d'accueil d'un site est disponible en plusieurs langues, l'étape suivante est le développement du contenu dans chaque langue. Un webmestre notera quelles langues attirent plus de visiteurs (et donc plus de ventes) que d'autres. Ce seront donc dans ces langues que débutera une campagne de promotion multilingue sur le web. Parallèlement, il est toujours bon de continuer à augmenter le nombre de langues dans lesquelles un site web est disponible. Au début, seule la page d'accueil traduite en plusieurs langues suffit, mais ensuite il est souhaitable de développer un véritable secteur pour chaque langue."

Le World Wide Web Consortium (W3C) est un consortium industriel international fondé en 1994 pour développer les protocoles communs du web. Le site du W3C propose notamment une section Internationalization/Localization, qui donne une définition des protocoles utilisés: HTML (hypertext markup language), jeux (de base) de caractères, nouveaux attributs, HTTP (hypertext transfer protocol), négociation de la langue, URL (uniform resource locator) et autres identificateurs incluant des caractères non ASCII (American standard code for information interchange). Le site propose aussi des conseils pour créer un site multilingue.

L'association LISA (Localisation Industry Standards Association - Association de normalisation de l'industrie de la localisation) regroupe 130 membres (fin 1998) qui comprennent des éditeurs de logiciels, des fabricants de matériel, des vendeurs de services de localisation, et un nombre croissant de sociétés appartenant aux secteurs voisins des technologies de l'information. La mission de LISA est de promouvoir l'industrie de la localisation et de l'internationalisation, et de procurer des services permettant aux sociétés d'échanger et de partager les informations dans ce domaine: développement du processus, outils, technologies et modèles. Le site de LISA est hébergé par l'Université de Genève (Suisse).

TRADUCTION ASSISTEE PAR ORDINATEUR

= [Citation]

L'internet étant une source d'information à vocation mondiale, il semble indispensable d'augmenter fortement les activités de traduction. Auteur des Chroniques de Cybérie, une chronique hebdomadaire en ligne des actualités du réseau, Jean-Pierre Cloutier déplore en août 1999 "qu’il se fasse très peu de traductions des textes et essais importants qui sont publiés sur le web, tant de l’anglais vers d’autres langues que l’inverse. (...) La nouveauté d’internet dans les régions où il se déploie présentement y suscite des réflexions qu’il nous serait utile de lire. À quand la traduction des penseurs hispanophones et autres de la communication?"

= [Texte]

Créé à Amsterdam (Pays-Bas) par la firme Vorontsoff, Wesseling & Partners, Aquarius est le premier répertoire non commercial de traducteurs et interprètes. Il comprend 6.100 traducteurs, 800 sociétés de traduction, 91 domaines d'expertise et 369 combinaisons de langues en novembre 1998. Le site permet de localiser particuliers et sociétés et de les contacter directement, sans intermédiaire. La recherche est possible par lieu, par combinaison de langues et par spécialité.

De plus, depuis décembre 1997, des logiciels de traduction automatique sont en accès libre sur le web - par exemple ceux de SYSTRAN, Softissimo ou Google - et permettent de traduire en quelques secondes une page web ou un texte court, avec plusieurs combinaisons de langues possibles. Il va sans dire que la traduction automatique n’offre pas la qualité de travail des professionnels de la traduction, et qu’il est préférable de faire appel à ces derniers lorsqu'on a le temps et l’argent nécessaires. Ces logiciels sont toutefois très pratiques pour obtenir une traduction approximative en quelques secondes.

De plus en plus utilisée, la traduction assistée par ordinateur permet de coupler traduction automatique et travail du traducteur professionnel. Elle est une branche de l'ingénierie du langage, tout comme le traitement de la langue naturelle et la traduction automatique (traités dans le chapitre suivant).

Le site HLTCentral (HLT: Human Languages Technologies - Technologies des langues humaines), lancé en janvier 1999 par la Commission européenne, propose une courte définition de l'ingénierie du langage: "L'ingénierie du langage permet de vivre en toute convivialité avec la technologie. Nous pouvons utiliser notre connaissance du langage pour développer des systèmes capables de reconnaître à la fois la parole et l'écrit, de comprendre un texte suffisamment en profondeur pour être capable de sélectionner des informations, de le traduire dans différentes langues et de générer aussi bien un discours oral qu'un texte imprimé. L'application de ces technologies nous permet de repousser les limites actuelles de notre utilisation du langage. Les systèmes à commande vocale sont appelés à jouer un rôle prépondérant et à faire partie intégrante de notre vie quotidienne."

Contrairement à la traduction automatique (TA) qui analyse le texte dans la langue-source et génère automatiquement le texte correspondant dans la langue-cible, sans intervention humaine pendant ce processus, la traduction assistée par ordinateur (TAO) est basée sur l'interaction entre l'homme et la machine pendant le processus de traduction.

La TAO est par exemple adoptée dès le milieu des années 1990 par le Bureau des services linguistiques de l'Organisation mondiale de la santé (OMS) à Genève (Suisse). Ce bureau travaille dans les six langues officielles de l'organisation: anglais, arabe, chinois, espagnol, français et russe. Des expériences de traduction automatique sont également tentées, à plusieurs reprises, mais les traductions obtenues demandent un travail de révision trop important, si bien que, au stade actuel de son développement et compte-tenu du type de documents à traduire, cette technologie n'est pas jugée suffisamment rentable.

Au sein de l'OMS, l'Unité de traduction assistée par ordinateur et de terminologie (CTT) explore les possibilités techniques offertes par les systèmes les plus récents de TAO, qui reposent sur la notion de "mémoire de traduction". Comme expliqué sur le site web, "ces systèmes permettent au traducteur d'avoir immédiatement accès au patrimoine du 'déjà traduit' dans lequel il peut puiser, quitte à rejeter ou modifier les solutions retenues par ses prédécesseurs, son choix définitif venant ensuite enrichir la mémoire. Ainsi, en archivant la production quotidienne, le traducteur aurait vite à sa disposition une 'mémoire' colossale de solutions toutes faites à un nombre important de problèmes de traduction."

En complément, le CTT utilise aussi plusieurs applications pour l'archivage électronique et la recherche en texte intégral, l'alignement de textes bilingues et multilingues, la gestion de mémoires de traduction et de bases de données terminologiques, et la reconnaissance vocale.

Basé à Washington, D.C. au sein de l'Organisation panaméricaine de la santé (OPS), le Bureau régional de l'OMS pour les Amériques utilise un système de traduction automatique développé par les linguistes computationnels, traducteurs et programmeurs de l'OPS. Le service de traduction utilise SPANAM (de l'espagnol vers l'anglais) depuis 1980 et ENGSPAN (de l'anglais vers l'espagnol) depuis 1985, ce qui lui a permis de traiter plus de 25 millions de mots entre 1980 et 1998 dans les deux langues officielles de l'OPS. Le personnel et les traducteurs extérieurs post-éditent ensuite l'information brute avec un gain de productivité de 30 à 50%. Le système est installé sur le réseau local du siège de l'organisation et dans plusieurs bureaux régionaux pour pouvoir être utilisé par le personnel des services techniques et administratifs. Il est également diffusé auprès d'organismes publics et d'organismes à but non lucratif aux États-Unis, en Amérique latine et en Espagne. Le système est plus tard renommé PAHOMTS, avec l'introduction de nouvelles paires de langues pour le portugais.

Autre expérience, celle de Wordfast. En juin 2001, les sociétés Logos et Y.A. Champollion s’associent pour créer Champollion Wordfast, une société de services d’ingénierie en traduction et localisation et en gestion de contenu multilingue. Wordfast est un logiciel de traduction avec terminologie disponible en temps réel et contrôle typographique. Il est compatible avec d'autres logiciels très utilisés comme le WebSphere Translation Server d’IBM et les logiciels de TMX ou de Trados. Une version simplifiée de Wordfast est téléchargeable gratuitement, avec un manuel d’utilisation disponible en seize langues. Wordfast devient au fil des ans le pemier logiciel mondial utilisable sous toute plateforme, et le deuxième logiciel mondial en nombre de ventes (après SDL Trados), avec 20.000 clients dans le monde, dont les Nations Unies, Nomura Securities, la NASA (National Aeronautics and Space Administration) et McGraw-Hill.

TRADUCTION AUTOMATIQUE

= [Citation]

Tim McKenna, écrivain, s'interroge sur la notion complexe de "vérité" dans un monde en mutation constante. Il écrit en octobre 2000: "Quand la qualité des logiciels sera suffisante pour que les gens puissent converser sur le web par écrit ou par oral en temps réel dans différentes langues, nous verrons tout un monde s'ouvrir à nous. Les scientifiques, les hommes politiques, les hommes d'affaires et bien d'autres groupes seront à même de communiquer immédiatement entre eux sans l'intermédiaire de médiateurs ou traducteurs."

= Définition

Un logiciel de traduction automatique (TA) analyse le texte dans la langue à traduire (langue source) et génère automatiquement le texte dans la langue désirée (langue cible), en utilisant des règles précises pour le transfert de la structure grammaticale. L'être humain n'intervient pas au cours du processus, contrairement à la traduction assistée par ordinateur, qui implique une interaction entre l'homme et la machine.

Si la traduction automatique reste très approximative, les logiciels de traduction sont très pratiques pour fournir un résultat immédiat et à moindres frais, sinon gratuit. Ils n'ont cessé de s'améliorer au fil des ans, sans toutefois avoir la prétention d'égaler le travail du cerveau humain. De plus, depuis décembre 1997, des logiciels en accès libre sur le web permettent de traduire en quelques secondes une page web ou un texte court, avec plusieurs combinaisons de langues possibles.

SYSTRAN, société franco-américaine pionnière dans le traitement automatique des langues, explique sur son site web: "Un logiciel de traduction automatique traduit une langue naturelle dans une autre langue naturelle. La traduction automatique prend en compte la structure grammaticale de chaque langue et elle utilise des règles pour transférer la structure grammaticale de la langue-source (texte à traduire) vers la langue-cible (texte traduit). La traduction automatique ne remplace pas et n'est pas destinée à remplacer le traducteur humain."

L'EAMT (European Association for Machine Translation - Association européenne pour la traduction automatique) donne la définition suivante: "La traduction automatique (TA) est l'utilisation de l'ordinateur pour la traduction de textes d'une langue naturelle à une autre. Elle fut un des premiers domaines de recherche en informatique. Il s'est avéré que cet objectif était difficile à atteindre. Cependant il existe aujourd'hui un certain nombre de systèmes produisant un résultat qui, s'il n'est pas parfait, est de qualité suffisante pour être utile dans certaines applications spécifiques, en général dans le domaine de la documentation technique. De plus, les logiciels de traduction, qui sont essentiellement destinés à aider le traducteur humain à produire des traductions, jouissent d'une popularité croissante auprès d'organisations de traduction professionnelles."

L'intéressant historique donné sur le site de Globalink, une société spécialisée dans les logiciels et services de traduction (disparue depuis), est résumé dans les deux paragraphes suivants.

Dès leurs débuts, la traduction automatique et le traitement de la langue naturelle progressent de pair avec l'évolution de l'informatique quantitative. Le développement des premiers ordinateurs programmables pendant la Seconde guerre mondiale est accéléré par les premiers efforts cryptographiques pour tenter de fissurer les codes secrets allemands et autres codes de guerre. Suite à la guerre, la traduction et l'analyse du texte en langue naturelle procurent une base de travail au secteur émergent de la théorie de l'information. Pendant les années 1950, la recherche sur la traduction automatique prend forme au sens de traduction littérale (mot à mot) sans utiliser de règles linguistiques. Le projet russe débuté à l'Université de Georgetown au début des années 1950 représente la première tentative systématique pour créer un système de traduction automatique utilisable. Jusqu'au milieu des années 1960, un certain nombre de recherches universitaires et recherches financées par les gouvernements sont menées aux États-Unis et en Europe. Au même moment, les progrès rapides dans le domaine de la linguistique théorique culminent en 1965 avec la publication du livre "Aspects de la théorie syntaxique" de Noam Chomsky, et transforment radicalement la structure permettant de comprendre la phonologie, la morphologie, la syntaxe et la sémantique du langage humain.

En 1966, le rapport ALPAC (Automatic Language Processing Advisory Committee - Comité consultatif sur le traitement automatique du langage) du gouvernement des États-Unis fait une estimation prématurément négative de la valeur des systèmes de traduction automatique et des perspectives sur leurs applications pratiques, mettant ainsi fin au financement et à l'expérimentation dans ce domaine pour la décennie suivante. Il faut attendre la fin des années 1970 pour que des expériences sérieuses soient à nouveau entreprises, parallèlement aux progrès de l’informatique et des technologies des langues. Cette période voit le développement de systèmes de transfert d’une langue à l’autre et le lancement des premières tentatives commerciales. Des sociétés comme SYSTRAN et METAL sont persuadées de la viabilité et de l’utilité d’un tel marché. Elles mettent sur pied des produits et services de traduction automatique reliés à un serveur central. Mais les problèmes restent nombreux, par exemple des coûts élevés de développement, un énorme travail lexicographique, la difficulté de proposer de nouvelles combinaisons de langues, l’inaccessibilité de tels systèmes pour l’utilisateur moyen, et enfin la difficulté de passer à de nouveaux stades de développement.

= Commentaires

# Article de ZDNN

Dans "Web embraces language translation" (Le web adopte la traduction des langues), un article de ZDNN (ZDNetwork News) paru le 21 juillet 1998, Martha Stone explique: "Parmi les nouveaux produits d'un secteur de traduction représentant 10 milliards de dollars US, on trouve les traducteurs instantanés de sites web, groupes de discussion, courriels et intranets d'entreprise. Les principales sociétés de traduction se mobilisent pour saisir les opportunités du marché. Voici quelques exemples. SYSTRAN s'est associé avec AltaVista pour produire babelfish.altavista.digital.com, avec 500 à 600 mille visiteurs quotidiens et environ un million de traductions par jour, traductions qui vont des recettes de cuisine à des pages web complètes. 15.000 sites environ ont un lien vers babelfish, qui peut traduire [de l'anglais] vers le français, l'italien, l'allemand, l'espagnol et le portugais, et vice versa. Le japonais est prévu pour bientôt.

'Cette popularité est simple. Avec l'internet, on peut maintenant utiliser l'information provenant des États-Unis. Tout ceci contribue à une demande en hausse', déclare de chez lui à Paris Dimitros Sabatakakis, directeur général de SYSTRAN. Alis a mis au point le système de traduction du Los Angeles Times qui doit bientôt être lancé sur le site et qui proposera des traductions [de l'anglais] vers l'espagnol et le français, et plus tard le japonais. D'un clic de souris, une page web complète peut être traduite dans la langue désirée. Globalink propose des logiciels, des systèmes de traduction de pages web, un service de messagerie électronique gratuit et des logiciels permettant de traduire le texte de groupes de discussion.

Cependant, alors que ces systèmes de traduction automatique deviennent populaires dans le monde entier, les directeurs des sociétés qui les développent admettent qu'ils ne peuvent répondre à toutes les situations. Les porte-parole de Globalink, Alis et SYSTRAN utilisent des expressions comme 'pas parfait' et 'approximatif' quand ils décrivent la qualité des traductions, et précisent bien que les phrases soumises à la traduction doivent être simples, grammaticalement correctes et sans tournures idiomatiques. 'Les progrès réalisés en traduction automatique répondent à la loi de Moore: la qualité double tous les dix-huit mois', déclare Vin Crosbie, un analyste de l'industrie du web basé à Greenwich, dans le Connecticut (États-Unis). 'Ce n'est pas parfait, mais certains de mes correspondants ne se rendent même pas compte que j'utilise un logiciel de traduction.' Ces traductions font souffrir la syntaxe et n'utilisent pas toujours les mots à bon escient, parce que les bases de données-dictionnaires ne peuvent déchiffrer la différence entre les homonymes. (...) Sabatakis, directeur de SYSTRAN, explique que la traduction humaine coûterait entre 50 et 60 dollars par page web, ou environ 20 cents par mot. Alors que cette dernière solution peut convenir pour les pages 'statiques' d'information sur l'entreprise, la traduction automatique, elle, est gratuite sur le web, et le logiciel coûte souvent moins de 100 dollars, selon le nombre de langues disponibles pour la traduction et les caractéristiques propres au logiciel."

# Équipe du laboratoire RALI

Contrairement aux prévisions optimistes des années 1950 annonçant l'apparition imminente de la machine à traduire universelle, les systèmes de traduction automatique ne produisent pas encore de traductions de bonne qualité. Pourquoi? Pierre Isabelle et Patrick Andries, du laboratoire RALI (Laboratoire de recherche appliquée en linguistique informatique) à Montréal (Québec), expliquent ce échec dans "La traduction automatique, 50 ans après", un article publié dans les dossiers du magazine en ligne Multimédium: "L'objectif ultime de construire une machine capable de rivaliser avec le traducteur humain n'a cessé de fuir par devant les lentes avancées de la recherche. Les approches traditionnelles à base de règles ont conduit à des systèmes qui tendent à s'effondrer sous leur propre poids bien avant de s'élever au-dessus des nuages de l'ambiguïté sémantique. Les approches récentes à base de gros ensembles de textes, appelés corpus - qu'elles soient fondées sur les méthodes statistiques ou les méthodes analogiques - promettent bien de réduire la quantité de travail manuel requise pour construire un système de TA [traduction automatique], mais il est moins sûr qu'elles promettent des améliorations substantielles de la qualité des traductions machine."

Reprenant les idées de Yehochua Bar-Hillel exprimées dans "The State of Machine Translation" (L'état de la traduction automatique), article publié en 1951, Pierre Isabelle et Patrick Andries définissent trois stratégies d'application de la traduction automatique: (a) une aide pour "balayer" la production écrite et fournir des traductions approximatives; (b) des situations de "sous-langues naturelles simples", comme l'implantation réussie en 1977 du système METEO qui traduit les prévisions météorologiques du ministère de l'Environnement canadien; (c) pour de bonnes traductions de textes complexes, le couplage de l'humain et de la machine avant, pendant et après le processus de traduction automatique, couplage qui n'est pas forcément économique comparé à la traduction traditionnelle.

Les auteurs penchent plus pour "un poste de travail pour le traducteur humain" que pour un "traducteur robot". Ils expliquent: "Les recherches récentes sur les méthodes probabilistes ont permis de démontrer qu'il était possible de modéliser d'une manière extrêmement efficace certains aspects simples du rapport traductionnel entre deux textes. Par exemple, on a mis au point des méthodes qui permettent de calculer le bon 'appariement' entre les phrases d'un texte et de sa traduction, c'est-à-dire d'identifier à quelle(s) phrase(s) du texte d'origine correspond chaque phrase de la traduction. Appliquées à grande échelle, ces techniques permettent de constituer, à partir des archives d'un service de traduction, un mémoire de traduction qui permettra souvent de recycler des fragments de traductions antérieures. Des systèmes de ce genre ont déjà commencé à apparaître sur le marché (Translation Manager II de IBM, Translator's Workbench de Trados, TransSearch du RALI, etc.). Les recherches les plus récentes se concentrent sur des modèles capables d'établir automatiquement les correspondances à un niveau plus fin que celui de la phrase: syntagmes et mots. Les résultats obtenus laissent entrevoir toute une famille de nouveaux outils pour le traducteur humain, dont les aides au dépouillement terminologique, les aides à la dictée et à la frappe des traductions ainsi que les détecteurs de fautes de traduction."

# Le futur vu par Randy Hobler