Les langues sur le web

Chapter 6

Chapter 63,422 wordsPublic domain

Le site Britannica.com est la première grande encyclopédie anglophone en accès libre. Le site web propose l'équivalent numérique des 32 volumes de la 15e édition de l'Encyclopaedia Britannica, parallèlement à la version imprimée et à la version CD-ROM, toutes deux payantes. Le site offre aussi une sélection d'articles issus de 70 magazines, un guide des meilleurs sites, un choix de livres, etc., le tout étant accessible à partir d'un moteur de recherche unique. En septembre 2000, le site fait partie des cent sites les plus visités au monde. En juillet 2001, la consultation devient payante sur la base d'un abonnement annuel ou mensuel. Fin 2008, Britannica.com annonce l'ouverture prochaine de son site à des contributeurs extérieurs, avec inscription obligatoire pour écrire et modifier des articles.

= Wikipédia

Issu du terme hawaïen «wiki» (qui signifie: vite, rapide), un wiki est un site web permettant à plusieurs utilisateurs de collaborer en ligne sur un même projet. A tout moment, ces utilisateurs peuvent contribuer à la rédaction du contenu, modifier ce contenu et l'enrichir en permanence. Le wiki est utilisé par exemple pour créer et gérer des dictionnaires, des encyclopédies ou encore des sites d'information sur un sujet donné. Le programme présent derrière l'interface d'un wiki est plus ou moins élaboré. Un programme simple gère du texte et des hyperliens. Un programme élaboré permet d'inclure des images, des graphiques, des tableaux, etc. L'encyclopédie wiki la plus connue est Wikipédia.

Fondée en janvier 2001 à l'initiative de Jimmy Wales et de Larry Sanger (Larry quitte ensuite l'équipe), Wikipédia est une encyclopédie gratuite écrite collectivement et dont le contenu est librement réutilisable. Elle est immédiatement très populaire. Sans publicité et financée par des dons, cette encyclopédie coopérative est rédigée par des milliers de volontaires - appelés Wikipédiens, et qui s'inscrivent sous un pseudonyme - avec possibilité de corriger et compléter les articles, aussi bien les leurs que ceux d'autres contributeurs. Les articles restent la propriété de leurs auteurs, et leur libre utilisation est régie par la licence GFDL (GNU free documentation license).

En décembre 2004, Wikipédia compte 1,3 million d'articles rédigés dans une centaine de langues par 13.000 contributeurs. En décembre 2006, Wikipédia compte 6 millions d'articles dans 250 langues, et devient l'un de dix sites les plus visités du web. En mai 2007, Wikipédia compte 7 millions d'articles dans 192 langues, dont 1,8 million en anglais, 589.000 en allemand, 500.000 en français, 260.000 en portugais et 236.000 en espagnol. En 2009, Wikipédia fait partie des cinq sites les plus visités du web.

Fondée en juin 2003, la Wikimedia Foundation gère non seulement Wikipédia mais aussi Wiktionary, un dictionnaire et thésaurus multilingue lancé en décembre 2002, puis Wikibooks (livres et manuels en cours de rédaction) lancé en juin 2003, auxquels s'ajoutent ensuite Wikiquote (répertoire de citations), Wikisource (textes appartenant au domaine public), Wikimedia Commons (sources multimédia), Wikispecies (répertoire d'espèces animales et végétales), Wikinews (site d'actualités) et enfin Wikiversity (matériel d'enseignement), lancé en août 2006.

LOCALISATION ET INTERNATIONALISATION

Peter Raggett, sous-directeur (puis directeur) du Centre de documentation et d'information (CDI) de l'OCDE (Organisation de coopération et de développement économiques), écrit en août 1999: «Je pense qu'il appartient aux organisations et sociétés européennes d'offrir des sites web si possible en trois ou quatre langues. À l'heure de la mondialisation et du commerce électronique, les sociétés ont un marché potentiel sur plusieurs pays à la fois. Permettre aux usagers francophones, germanophones ou nippons de consulter un site web aussi facilement que les usagers anglophones donnera une plus grande compétitivité à une firme donnée.»

«Vers la communication sur internet dans toutes les langues...», tel est le sous-titre de la page d'accueil de Babel, un projet conjoint d'Alis Technologies et de l'Internet Society lancé en 1997 dans l'optique d'une internationalisation de l'internet. À cette date, le site multilingue de Babel (en anglais, allemand, espagnol, français, italien, portugais et suédois) propose deux grands secteurs: (a) un secteur langues, avec trois sections: langues du monde, glossaire typographique et linguistique, Francophonie; (b) un secteur internet et multilinguisme, avec deux sections: développer votre site web multilingue, et codage des écritures du monde. Babel propose aussi la page Palmarès des langues de la toile, qui est la première à donner la répartition réelle des langues sur le réseau.

Bill Dunlap est le fondateur de Euro-Marketing Associates, une société de conseil en marketing qu'il lance en 1985 à Paris et San Francisco. En 1995, il restructure cette société en service de conseil en ligne dénommé Global Reach, le but étant de promouvoir les sites web des entreprises dans d'autres pays, afin d'attirer plus de visiteurs, et donc d'augmenter les ventes. Cette méthode comprend la traduction d'un site web dans plusieurs langues, la promotion active du site, et enfin l'accroissement de la fréquentation locale au moyen de bandeaux publicitaires ciblés.

Bill Dunlap explique en décembre 1998: «Il y a très peu de gens aux États-Unis qui sont intéressés de communiquer dans plusieurs langues. Pour la plupart, ils pensent encore que le monde entier parle anglais. Par contre, en Europe, les pays sont petits, si bien que, depuis des siècles, une perspective internationale est nécessaire. Depuis 1981, début de mon activité professionnelle, j'ai été impliqué dans la venue de sociétés américaines en Europe. Ceci est pour beaucoup un problème de langue, puisque leurs informations commerciales doivent être disponibles dans les langues européennes pour être prises en compte en Europe. Comme le web est devenu populaire en 1995, j'ai donné à ces activités une dimension "en ligne", et j'en suis venu à promouvoir le cybercommerce européen auprès de mes compatriotes américains. (...)

Promouvoir un site est aussi important que le créer, sinon plus. On doit être préparé à utiliser au moins autant de temps et d'argent à promouvoir son site qu'on en a passé à l'origine à le créer. Le programme Global Reach permet de promouvoir un site dans des pays non anglophones, afin d'atteindre une clientèle plus large... et davantage de ventes. Une société a de nombreuses bonnes raisons de considérer sérieusement le marché international. Global Reach est pour elle le moyen d'étendre son site web à de nombreux pays, de le présenter à des visiteurs en ligne dans leur propre langue, et de pénétrer le réseau de commerce en ligne présent dans ces pays.»

Bill Dunlap ajoute en juillet 1999: «Une fois que la page d'accueil d'un site est disponible en plusieurs langues, l'étape suivante est le développement du contenu dans chaque langue. Un webmestre notera quelles langues attirent plus de visiteurs (et donc plus de ventes) que d'autres. Ce seront donc dans ces langues que débutera une campagne de promotion multilingue sur le web. Parallèlement, il est toujours bon de continuer à augmenter le nombre de langues dans lesquelles un site web est disponible. Au début, seule la page d'accueil traduite en plusieurs langues suffit, mais ensuite il est souhaitable de développer un véritable secteur pour chaque langue.»

Le World Wide Web Consortium (W3C) est un consortium industriel international fondé en 1994 pour développer les protocoles communs du web. Le site du W3C propose notamment une section Internationalization/Localization, qui donne une définition des protocoles utilisés: HTML (hypertext markup language), jeux (de base) de caractères, nouveaux attributs, HTTP (hypertext transfer protocol), négociation de la langue, URL (uniform resource locator) et autres identificateurs incluant des caractères non ASCII (American standard code for information interchange). Le site propose aussi des conseils pour créer un site multilingue.

LA TRADUCTION ASSISTÉE PAR ORDINATEUR

L'internet étant une source d'information à vocation mondiale, il semble indispensable d'augmenter fortement les activités de traduction. Auteur des Chroniques de Cybérie, une chronique hebdomadaire en ligne des actualités du réseau, Jean-Pierre Cloutier déplore en août 1999 «qu'il se fasse très peu de traductions des textes et essais importants qui sont publiés sur le web, tant de l'anglais vers d'autres langues que l'inverse. (...) La nouveauté d'internet dans les régions où il se déploie présentement y suscite des réflexions qu'il nous serait utile de lire. À quand la traduction des penseurs hispanophones et autres de la communication?»

Créé à Amsterdam (Pays-Bas) par la firme Vorontsoff, Wesseling & Partners, Aquarius est le premier répertoire non commercial de traducteurs et interprètes. En novembre 1998, il comprend 6.100 traducteurs, 800 sociétés de traduction, 91 domaines d'expertise et 369 combinaisons de langues. Le site permet de localiser particuliers et sociétés et de les contacter directement, sans intermédiaire. La recherche est possible par lieu, par combinaison de langues et par spécialité.

De plus, depuis décembre 1997, des logiciels de traduction automatique sont en accès libre sur le web - à commencer par ceux de SYSTRAN sur AltaVista - et permettent de traduire en quelques secondes une page web ou un texte court, avec plusieurs combinaisons de langues possibles. Il va sans dire que la traduction automatique n'offre pas la qualité de travail des professionnels de la traduction, et qu'il est préférable de faire appel à ces derniers lorsqu'on a le temps et l'argent nécessaires. Ces logiciels sont toutefois très pratiques pour obtenir une traduction approximative en quelques secondes.

De plus en plus utilisée, la traduction assistée par ordinateur permet de coupler traduction automatique et travail du traducteur professionnel. Elle est une branche de l'ingénierie du langage, tout comme le traitement de la langue naturelle et la traduction automatique (traitée dans le chapitre suivant).

Lancé en janvier 1999 par la Commission européenne, le site HLTCentral (HLT: Human Languages Technologies) propose une courte définition de l'ingénierie du langage: «L'ingénierie du langage permet de vivre en toute convivialité avec la technologie. Nous pouvons utiliser notre connaissance du langage pour développer des systèmes capables de reconnaître à la fois la parole et l'écrit, de comprendre un texte suffisamment en profondeur pour être capable de sélectionner des informations, de le traduire dans différentes langues et de générer aussi bien un discours oral qu'un texte imprimé. L'application de ces technologies nous permet de repousser les limites actuelles de notre utilisation du langage. Les systèmes à commande vocale sont appelés à jouer un rôle prépondérant et à faire partie intégrante de notre vie quotidienne.»

Contrairement à la traduction automatique (TA) qui analyse le texte dans la langue source et génère automatiquement le texte correspondant dans la langue cible, sans intervention humaine pendant ce processus, la traduction assistée par ordinateur (TAO) est basée sur l'interaction entre l'homme et la machine pendant le processus de traduction.

La TAO est par exemple adoptée dès le milieu des années 1990 par le Bureau des services linguistiques de l'Organisation mondiale de la santé (OMS) à Genève (Suisse). Ce bureau travaille dans les six langues officielles de l'organisation: anglais, arabe, chinois, espagnol, français et russe.

Des expériences de traduction automatique (TA) sont également tentées, à plusieurs reprises, mais les traductions obtenues demandent un travail de révision trop important, si bien que, compte-tenu du type de documents à traduire, la TAO semble bien préférable.

Au sein de l'OMS, l'Unité de traduction assistée par ordinateur et de terminologie (CTT) explore les possibilités techniques offertes par les systèmes les plus récents de TAO, qui reposent sur la notion de «mémoire de traduction».

Comme expliqué sur le site web, «ces systèmes permettent au traducteur d'avoir immédiatement accès au patrimoine du "déjà traduit" dans lequel il peut puiser, quitte à rejeter ou modifier les solutions retenues par ses prédécesseurs, son choix définitif venant ensuite enrichir la mémoire. Ainsi, en archivant la production quotidienne, le traducteur aurait vite à sa disposition une "mémoire" colossale de solutions toutes faites à un nombre important de problèmes de traduction.»

En complément, le CTT utilise aussi plusieurs applications pour l'archivage électronique et la recherche en texte intégral, l'alignement de textes bilingues et multilingues, la gestion de mémoires de traduction et de bases de données terminologiques, et enfin la reconnaissance vocale.

Basé à Washington, D.C., au sein de l'Organisation panaméricaine de la santé (OPS), le Bureau régional de l'OMS pour les Amériques utilise par contre un système de traduction automatique développé par les linguistes computationnels, traducteurs et programmeurs de l'OPS.

Le service de traduction utilise SPANAM (de l'espagnol vers l'anglais) depuis 1980 et ENGSPAN (de l'anglais vers l'espagnol) depuis 1985, ce qui lui a permis de traiter plus de 25 millions de mots entre 1980 et 1998 dans les deux langues officielles de l'OPS. Le personnel et les traducteurs extérieurs post-éditent ensuite l'information brute avec un gain de productivité de 30 à 50%. Le système est installé sur le réseau local du siège de l'organisation et dans plusieurs bureaux régionaux pour pouvoir être utilisé par le personnel des services techniques et administratifs. Il est également diffusé auprès d'organismes publics et d'organismes à but non lucratif aux États-Unis, en Amérique latine et en Espagne. Ce système est plus tard renommé PAHOMTS, avec l'introduction de nouvelles paires de langues pour le portugais.

Autre expérience, celle de Wordfast. Lancé en 1999 par Yves Champollion, Wordfast est un logiciel de traduction avec terminologie disponible en temps réel et contrôle typographique. Il est compatible avec d'autres logiciels très utilisés comme le WebSphere Translation Server d'IBM et les logiciels de TMX ou de Trados. Une version simplifiée de Wordfast est téléchargeable gratuitement, avec un manuel d'utilisation disponible en seize langues.

Wordfast devient au fil des ans le numéro un mondial des logiciels de traduction utilisables sous toute plateforme (Windows, Mac, Linux), et le numéro deux mondial en nombre de ventes (après SDL Trados), avec 20.000 clients dans le monde en 2009, dont les Nations Unies, Nomura Securities, la NASA (National Aeronautics and Space Administration) et McGraw-Hill.

LA TRADUCTION AUTOMATIQUE

= Définition

Un logiciel de traduction automatique (TA) analyse le texte dans la langue à traduire (langue source) et génère automatiquement le texte dans la langue désirée (langue cible), en utilisant des règles précises pour le transfert de la structure grammaticale. L'être humain n'intervient pas au cours du processus, contrairement à la traduction assistée par ordinateur (TAO), qui implique une interaction entre l'homme et la machine.

Si la traduction automatique reste très approximative, les logiciels de traduction sont toutefois très pratiques pour fournir un résultat immédiat et à moindres frais sinon gratuit. Ces logiciels n'ont cessé de s'améliorer au fil des ans, sans toutefois avoir la prétention d'égaler le travail du cerveau humain. De plus, depuis décembre 1997, des logiciels en accès libre sur le web permettent de traduire en quelques secondes une page web ou un texte court, avec plusieurs combinaisons de langues possibles.

SYSTRAN, société franco-américaine pionnière dans le traitement automatique des langues, explique sur son site web: «Un logiciel de traduction automatique traduit une langue naturelle dans une autre langue naturelle. La traduction automatique prend en compte la structure grammaticale de chaque langue et elle utilise des règles pour transférer la structure grammaticale de la langue source (texte à traduire) vers la langue cible (texte traduit). La traduction automatique ne remplace pas et n'est pas destinée à remplacer le traducteur humain.»

L'EAMT (European Association for Machine Translation) donne pour sa part la définition suivante: «La traduction automatique (TA) est l'utilisation de l'ordinateur pour la traduction de textes d'une langue naturelle à une autre. Elle fut un des premiers domaines de recherche en informatique. Il s'est avéré que cet objectif était difficile à atteindre. Cependant il existe aujourd'hui un certain nombre de systèmes produisant un résultat qui, s'il n'est pas parfait, est de qualité suffisante pour être utile dans certaines applications spécifiques, en général dans le domaine de la documentation technique. De plus, les logiciels de traduction, qui sont essentiellement destinés à aider le traducteur humain à produire des traductions, jouissent d'une popularité croissante auprès d'organisations de traduction professionnelles.»

= Historique

L'intéressant historique donné sur le site de Globalink, une société spécialisée dans les logiciels et services de traduction (disparue depuis), est résumé dans les paragraphes suivants.

Dès leurs débuts, la traduction automatique et le traitement de la langue naturelle progressent de pair avec l'évolution de l'informatique quantitative. Pendant la Seconde guerre mondiale, le développement des premiers ordinateurs programmables est accéléré par les premiers efforts cryptographiques pour tenter de fissurer les codes secrets allemands et autres codes de guerre. Suite à la guerre, la traduction et l'analyse du texte en langue naturelle procurent une base de travail au secteur émergent de la théorie de l'information.

Pendant les années 1950, la recherche sur la traduction automatique prend forme au sens de traduction littérale (mot à mot) sans utiliser de règles linguistiques. Le projet débuté à l'Université de Georgetown au début des années 1950 représente la première tentative systématique pour créer un système de traduction automatique utilisable pour le russe.

Jusqu'au milieu des années 1960, plusieurs projets de recherche aussi bien universitaires que gouvernementaux sont menés aux États-Unis et en Europe. Au même moment, les progrès rapides dans le domaine de la linguistique théorique culminent en 1965 avec la publication du livre Aspects de la théorie syntaxique de Noam Chomsky, et transforment radicalement les concepts permettant de comprendre la phonologie, la morphologie, la syntaxe et la sémantique du langage humain.

En 1966, le rapport ALPAC (Automatic Language Processing Advisory Committee) remis au gouvernement des États-Unis fait une estimation prématurément négative de la valeur des systèmes de traduction automatique et des perspectives sur leurs applications pratiques, mettant ainsi fin au financement et à l'expérimentation dans ce domaine pour la décennie suivante.

Il faut attendre la fin des années 1970 pour que des expériences sérieuses soient à nouveau entreprises, parallèlement aux progrès de l'informatique et des technologies des langues. Cette période voit le développement de systèmes de transfert d'une langue à l'autre et le lancement des premières tentatives commerciales. Des sociétés comme SYSTRAN et METAL sont persuadées de l'utilité et de la viabilité d'un tel marché. Elles mettent sur pied des produits et services de traduction automatique reliés à un serveur central.

Mais les problèmes restent nombreux, par exemple des coûts élevés de développement, un énorme travail lexicographique, la difficulté de proposer de nouvelles combinaisons de langues, l'inaccessibilité de tels systèmes pour l'utilisateur moyen, et enfin la difficulté de passer à de nouveaux stades de développement.

= Quelques avis

Contrairement aux prévisions optimistes des années 1950 annonçant l'apparition imminente de la machine à traduire universelle, les systèmes de traduction automatique ne produisent pas encore de traductions de bonne qualité. Pourquoi? Pierre Isabelle et Patrick Andries, du laboratoire RALI (Laboratoire de recherche appliquée en linguistique informatique) à Montréal (Québec), expliquent ce échec dans La traduction automatique, 50 ans après, un article publié en 1998 dans les dossiers du magazine en ligne Multimédium.

Ils écrivent: «L'objectif ultime de construire une machine capable de rivaliser avec le traducteur humain n'a cessé de fuir par devant les lentes avancées de la recherche. Les approches traditionnelles à base de règles ont conduit à des systèmes qui tendent à s'effondrer sous leur propre poids bien avant de s'élever au-dessus des nuages de l'ambiguïté sémantique. Les approches récentes à base de gros ensembles de textes, appelés corpus - qu'elles soient fondées sur les méthodes statistiques ou les méthodes analogiques - promettent bien de réduire la quantité de travail manuel requise pour construire un système de TA [traduction automatique], mais il est moins sûr qu'elles promettent des améliorations substantielles de la qualité des traductions machine.»

Reprenant les idées de Yehochua Bar-Hillel exprimées dans The State of Machine Translation, un article publié en 1951, Pierre Isabelle et Patrick Andries définissent trois stratégies d'application de la traduction automatique: (a) une aide pour «balayer» la production écrite et fournir des traductions approximatives; (b) des situations de «sous-langues naturelles simples», comme l'implantation réussie en 1977 du système METEO qui traduit les prévisions météorologiques du ministère de l'Environnement canadien; (c) et enfin, pour de bonnes traductions de textes complexes, le couplage de l'humain et de la machine avant, pendant et après le processus de traduction automatique, un couplage qui n'est pas forcément économique comparé à la traduction traditionnelle.

Les auteurs penchent plus pour «un poste de travail pour le traducteur humain» que pour un «traducteur robot». Ils expliquent: «Les recherches récentes sur les méthodes probabilistes ont permis de démontrer qu'il était possible de modéliser d'une manière extrêmement efficace certains aspects simples du rapport traductionnel entre deux textes. Par exemple, on a mis au point des méthodes qui permettent de calculer le bon "appariement" entre les phrases d'un texte et de sa traduction, c'est-à-dire d'identifier à quelle(s) phrase(s) du texte d'origine correspond chaque phrase de la traduction. Appliquées à grande échelle, ces techniques permettent de constituer, à partir des archives d'un service de traduction, un mémoire de traduction qui permettra souvent de recycler des fragments de traductions antérieures. Des systèmes de ce genre ont déjà commencé à apparaître sur le marché (Translation Manager II de IBM, Translator's Workbench de Trados, TransSearch du RALI, etc.). Les recherches les plus récentes se concentrent sur des modèles capables d'établir automatiquement les correspondances à un niveau plus fin que celui de la phrase: syntagmes et mots. Les résultats obtenus laissent entrevoir toute une famille de nouveaux outils pour le traducteur humain, dont les aides au dépouillement terminologique, les aides à la dictée et à la frappe des traductions ainsi que les détecteurs de fautes de traduction.»