Le Livre 010101: Enquête

Chapter 19

Chapter 193,530 wordsPublic domain

C'est aussi l'opinion d'Olivier Pujol, PDG de Cytale et promoteur du Cybook, livre électronique: "Par sa nature ouverte, le web est déjà aujourd'hui le meilleur outil de propagation et donc de préservation de langues qui, sans le web, pourraient être menacées d'extinction. La seule solution pour qu'une langue accroisse sa présence sur le web est que ses promoteurs aient vraiment envie de se bouger! Il faut se souvenir que l'imprimerie avait été accusée de sonner le glas de toutes les langues autres que le latin! La réalité a été que l'imprimerie, en permettant à toutes les langues de se transmettre plus facilement, a provoqué la mort du latin."

14.7. Des outils pour passer d'une langue à l'autre

Jean-Pierre Balpe est directeur du département hypermédias de l'Université Paris 8. A la question: "Quelles sont vos suggestions pour un véritable multilinguisme sur le web?", qui avait son intérêt en 1998 mais qu'il n'est peut-être plus utile de poser en 2001, il rétorque: "Ah bon! Ce n'est pas multilingue? Je croyais pourtant car il m'arrive de naviguer en italien, français, espagnol, arabe, chinois, flamand, etc. Voulez-vous dire francophone pour multilingue? (La réponse est non, ndlr.) Si c'est l'anglais que vous visez, internet ne fait que reproduire sa situation de langue internationale d'échange. Est-ce à dire qu'il n'en faudrait pas? Je n'en suis pas si sûr."

Il est vrai que le multilinguisme progresse à pas de géant et que toutes les langues sont désormais représentées sur le web. Les progrès sont énormes depuis 1998. Mais nombreux sont ceux qui sont unilingues, et ceci vaut pour toutes les communautés linguistiques. Miriam Mellman, qui habite San Francisco, ne parle que l'anglais. "Internet est planétaire, il est donc important qu'il soit multilingue, déclare-t-elle. Ce serait formidable que des gens paresseux comme moi puissent disposer de programmes de traduction instantanée. Même si je décide d'apprendre une autre langue que l'anglais, il en existe bien d'autres, et ceci rendrait la communication plus facile. Je ne sais pas si un tel programme est techniquement possible, mais il serait très pratique."

La demande ne vient pas seulement des unilingues, mais aussi de ceux qui parlent deux ou plusieurs langues. Le numérique en général et le web en particulier leur ouvrent à tous des perspectives sans précédent, et ils aimeraient bénéficier de cette manne multilingue en ayant accès aux langues qu'ils ne connaissent pas. "Je suis de langue française, raconte Gérard Fourestier, créateur de Rubriques à Bac. J'ai appris l'allemand, l'anglais, l'arabe, mais je suis encore loin du compte quand je surfe dans tous les coins de la planète. Il serait dommage que les plus nombreux ou les plus puissants soient les seuls qui 's'affichent' et, pour ce qui est des logiciels de traduction, il y a encore largement à faire."

Chercheur en traduction automatique et coordinateur d'ELSNET (European Network of Excellence in Human Language Technologies), Steven Krauwer suggère les solutions suivantes: "en ce qui concerne l'auteur, une meilleure formation des auteurs de sites web pour exploiter les combinaisons de modalités possibles afin d'améliorer la communication par-delà les barrières des langues (et pas seulement par un vernis superficiel); en ce qui concerne l'usager, des logiciels de traduction de type AltaVista Translation, dont la qualité n'est pas frappante, mais qui a le mérite d'exister; en ce qui concerne le navigateur, des logiciels de traduction intégrée, particulièrement pour les langues non dominantes, et des dictionnaires intégrés plus rapides."

Luc Dall'Armellina, co-auteur et webmestre d'oVosite, espace d'écritures multimédias: "La traduction simultanée (proposée par AltaVista par exemple) ou les versions multilingues d'un même contenu me semblent aujourd'hui les meilleures réponses au danger de pensée unique que représenterait une seule langue d'échange. Peut-être appartient-il aux éditeurs des systèmes d'exploitation (ou de navigateurs?) de proposer des solutions de traduction partielle, avec toutes les limites connues des systèmes automatiques de traduction..."

Pierre Magnenat, responsable de la cellule "gestion et prospective" du centre informatique de l'Université de Lausanne: "La seule solution que je vois serait qu'un effort majeur et global soit entrepris pour développer des traducteurs automatiques. Je ne pense pas qu'une quelconque incitation ou autre quota pourrait empêcher la domination totale de l'anglais. Cet effort pourrait - et devrait - être initié au niveau des états, et disposer des moyens suffisants pour aboutir."

Les logiciels de traduction automatique ne sont pas encore satisfaisants (voir 15), et la gestion de sites web multilingues demande beaucoup d'argent. La seule solution à court terme semble résider dans le développement des moteurs de recherche multilingues.

Il importe aussi d'avoir à l'esprit l'ensemble des langues et pas seulement les langues dominantes, comme le souligne Pierre-Noël Favennec, expert à la direction scientifique de France Télécom R&D: "Les recherches sur la traduction automatique devraient permettre une traduction automatique dans les langues souhaitées, mais avec des applications pour toutes les langues et non les seules dominantes (ex: diffusion de documents en japonais, si l'émetteur est de langue japonaise, et lecture en breton, si le récepteur est de langue bretonne...). Il y a donc beaucoup de travaux à faire dans la direction de la traduction automatique et écrite de toutes les langues."

Mais ces logiciels sont-ils une solution? Nicolas Pewny, fondateur des éditions du Choucas, rappelle que "chaque langue possède son génie propre. La difficulté, c'est de ne pas le perdre en route". C'est aussi l'avis de Guy Antoine, créateur du site Windows on Haiti: "Je n'ai pas grande confiance dans les outils de traduction automatique qui, s'ils traduisent les mots et les expressions, ne peuvent guère traduire l'âme d'un peuple."

Ces logiciels ne seront eux-mêmes qu'une étape. L'étape suivante devrait être la traduction instantanée. Alex Andrachmes, producteur audiovisuel et écrivain, attend "les fameuses traductions simultanées en direct-live... On nous les annonce avec les nouveaux processeurs ultra-puissants, mais on nous les annonçait déjà pour cette génération-ci de processeurs. Alors, le genre: vous/réservé/avion/de le/november 17-2000... Non merci. Plus tard peut-être."

"Quand la qualité des logiciels sera suffisante pour que les gens puissent discuter sur le web en temps réel dans différentes langues, nous verrons tout un monde s'ouvrir à nous, écrit Tim McKenna, écrivain et philosophe. Les scientifiques, les hommes politiques, les hommes d'affaires et bien d'autres groupes seront à même de communiquer immédiatement entre eux sans l'intermédiaire de médiateurs ou traducteurs."

"Peut-on réellement penser que toute la population du monde va communiquer dans tous les sens?, se demande François Vadrot, PDG de FTPress. Peut-être? Via des systèmes de traduction instantanée, par écrit ou par oral? J'ai du mal à imaginer qu'on verra de sitôt des outils capables de translater les subtilités des modes de pensée propres à un pays: il faudrait pour lors traduire, non plus du langage, mais établir des passerelles de sensibilité."

Pour conclure, laissons la parole à Michel Benoît, écrivain: "Lorsqu'un problème affecte une structure, quelle qu'elle soit, j'ai toujours tendance à imaginer que c'est techniquement que le problème trouve sa solution. Vous connaissez cette théorie? Si les Romains avaient trouvé le moyen d'enlever le plomb de leur couvert d'étain, Néron ne serait jamais devenu fou et n'aurait jamais incendié Rome. Escusi, farfelu? Peut-être que oui, peut-être que non. E que save? L'internet multilingue? Demain, ou après demain au plus. Voyons, pensez au premier ordinateur, il y a de cela un peu plus que cinquante ans. Un étage au complet pour faire à peine plus que les quatre opérations de base. Dans ce temps-là, un bug, c'était véritablement une mouche - ou autre insecte - qui s'insérait entre les lecteurs optiques. De nos jours, un carte de 3 cm x 5 cm fait la même chose. La traduction instantanée: demain, après-demain au plus."

15. LA TRADUCTION AUTOMATIQUE

[Dans ce chapitre:]

[15.1. Définition et historique // 15.2. Une qualité médiocre, puis des progrès sensibles]

Comme on l'a vu dans le chapitre précédent, si la traduction automatique offre déjà de réels services, on en en attend bien davantage. Voici le point sur le sujet, ainsi que le point de vue de spécialistes travaillant sur les logiciels à venir.

15.1. Définition et historique

La traduction automatique (TA) est un outil pratique, mais elle ne remplace pas et n'est pas destinée à remplacer le professionnel qui traduit. L'être humain n'intervient pas au cours du processus, contrairement à la traduction assistée par ordinateur (TAO), qui exige une certaine interaction entre l'homme et la machine.

Un logiciel de traduction automatique analyse le texte dans la langue source (texte à traduire) et génère automatiquement le texte correspondant dans la langue cible (texte traduit), en utilisant des règles précises pour le transfert de la structure grammaticale. "Il existe aujourd'hui un certain nombre de systèmes produisant un résultat qui, s'il n'est pas parfait, est de qualité suffisante pour être utile dans certaines applications spécifiques, en général dans le domaine de la documentation technique, lit-on sur le site de l'EAMT (European Association for Machine Translation). De plus, les logiciels de traduction, qui sont essentiellement destinés à aider le traducteur humain à produire des traductions, jouissent d'une popularité croissante auprès des organismes professionnels de traduction."

Voici un résumé des informations que donnait le site web de Globalink, disparu depuis, la société ayant été rachetée par Lernout & Hauspie en 1999.

Dès leurs débuts, la traduction automatique et le traitement de la langue naturelle progressent de pair avec l'évolution de l'informatique quantitative. Pendant la seconde guerre mondiale, le développement des premiers ordinateurs programmables bénéficie des progrès de la cryptographie et des efforts faits pour tenter de fissurer les codes secrets allemands et autres codes de guerre. Suite à la guerre, la traduction et l'analyse du texte en langue naturelle procurent une base de travail au secteur émergent des technologies de l'information.

Dans les années 50, la recherche porte sur la traduction littérale, à savoir la traduction mot à mot sans prise en compte des règles linguistiques. Le projet russe débuté à l'Université de Georgetown en 1950 représente la première tentative systématique visant à créer un système de traduction automatique utilisable. Des recherches sont également menées en Europe et aux Etats-Unis tout au long des années 50 et au début des années 60. Au même moment, les progrès rapides en linguistique théorique culminent en 1965 avec la publication de Aspects of the Theory and Syntax de Noam Chomsky, qui propose une nouvelle définition de la phonologie, de la morphologie, de la syntaxe et de la sémantique du langage humain.

En 1966, aux Etats-Unis, le rapport ALPAC fait une estimation prématurément négative de la valeur des systèmes de traduction automatique, et des perspectives offertes par ceux-ci, mettant fin au financement et à l'expérimentation dans ce domaine pour la décennie suivante. C'est seulement à la fin des années 70 que des tentatives sérieuses sont à nouveau entreprises, parallèlement aux progrès de l'informatique et des technologies des langues. Cette période voit aussi le développement de systèmes de transfert et l'émergence des premières tentatives commerciales. Des sociétés comme Systran et Metal sont persuadées que la traduction automatique est un marché viable et utile. Elles mettent sur pied des produits et services de traduction automatique reliés à un serveur central. Mais les problèmes sont nombreux: des coûts élevés de développement, une lexicographie demandant un énorme travail, des difficultés pour proposer de nouvelles combinaisons de langues, l'inaccessibilité de tels systèmes pour l'utilisateur moyen, et enfin la difficulté de passer à de nouveaux stades de développement.

15.2. Une qualité médiocre, puis des progrès sensibles

Le dernier en date des logiciels de traduction automatique est celui d'IBM, le WebSphere Translation Server. Le logiciel est capable de traduire instantanément en plusieurs langues des pages web, des courriers électroniques et des dialogues en direct (chats). Il interprète 500 mots à la seconde et permet d'ajouter des vocabulaires spécifiques (finance, sciences, etc.). Les fournisseurs de services en ligne et les entreprises peuvent proposer en espagnol, en allemand, en français et en italien leurs textes rédigés en anglais, et vice-versa. Les documents en anglais peuvent également être traduits en chinois, en japonais et en coréen, mais l'inverse est impossible. Testé notamment par la Deutsche Bank, le logiciel est commercialisé en mars 2001 pour 10.000 $US (10.500 euros). "Jusqu'à présent, l'industrie de la traduction automatique n'était constituée que de quelques sociétés et ne possédait pas de leader clairement établi. L'entrée d'IBM sur ce marché représente un tournant majeur et permettra d'accélérer l'adoption de la traduction par ordinateur, un marché estimé à 378 millions de dollars (397 millions d'euros, ndlr) à l'horizon 2003", déclare dans un communiqué (cité par l'AFP) Steve McClure, vice-président du Speech and Natural Language Software, une des branches du cabinet de conseil International Data Corporation.

Il n'empêche, les "quelques sociétés" concurrentes d'IBM ont de nombreuses réalisations à leur actif. Softissimo, éditeur de logiciels de traduction automatique et d'apprentissage des langues, est la société créatrice de Reverso, une série de logiciels de traduction. La société est également l'auteur de produits d'écriture multilingue, de dictionnaires électroniques, d'aide à la rédaction et de méthodes de langues. Reverso équipe notamment Voilà, le moteur de recherche de France Télécom. Systran (acronyme de : System Translation) est spécialisé dans la technologie et les logiciels de traduction automatique. Son logiciel est utilisé notamment dans AltaVista World, le service de traduction automatique d'AltaVista. Alis Technologies propose des technologies et des services de consultation en matière de communication linguistique. Lernout & Hauspie (L&H) est le leader mondial des technologies de reconnaissance vocale. La société propose des produits et services en matière de dictée, traduction, compression vocale, synthèse vocale et documentation industrielle automatiques, et ce pour le grand public, les professionnels et les industriels.

Des équipes de recherche sont également très actives. En voici quelques-unes. Financé par le programme HLT (Human Language Technologies) de la Communauté européenne, ELSNET (European Network of Excellence in Human Language Technologies) regroupe 135 universités et sociétés de 26 pays différents spécialisées dans les technologies de la langue et de la parole. Au sein du Laboratoire CLIPS (Communication langagière et interaction personne-système) de l'Institut d'informatique et mathématiques appliquées (IMAG) de Grenoble, le GETA (Groupe d'étude pour la traduction automatique) est une équipe pluridisciplinaire formée d'informaticiens et de linguistes. Ses thèmes de recherche concernent tous les aspects théoriques, méthodologiques et pratiques de la traduction assistée par ordinateur (TAO), et plus généralement de l'informatique multilingue. Le GETA participe à l'Universal Networking Language Programme (UNLP), un projet de "métalangage numérique" pour l'encodage, le stockage, la recherche et la communication d'informations multilingues indépendamment d'une langue source - et donc d'un système de pensée - donnée. Ce projet est mené sous l'égide de l'Université des Nations unies (UNU, Tokyo). Dans le cadre de l'Institut des sciences de l'information (ISI) de l'Université de Californie du Sud (USC), le Natural Language Group traite de plusieurs aspects du traitement de la langue naturelle: traduction automatique, résumé automatique de texte, accès multilingue aux verbes et gestion du texte, développement de taxonomies de concepts (ontologies), discours et génération de texte, élaboration d'importants lexiques pour plusieurs langues, et communication multimédias.

Recueillis sur trois ans (1998, 1999, 2000), les propos d'Eduard Hovy, directeur du Natural Language Group, sont éclairants sur les progrès récents de la traduction automatique.

Ses commentaires en août 1998: "Dans le contexte de la recherche documentaire et du résumé automatique de texte, le multilinguisme sur le web est un facteur qui ajoute à la complexité du sujet. Les gens écrivent dans leur propre langue pour diverses raisons: commodité, discrétion, communication à l'échelon local, mais ceci ne signifie pas que d'autres personnes ne soient pas intéressées de lire ce qu'ils ont à dire! Ceci est particulièrement vrai pour les sociétés impliquées dans la veille technologique (disons une société informatique qui souhaite connaître tous les articles de journaux et périodiques japonais relatifs à son activité) et des services de renseignements gouvernementaux ceux qui procurent l'information la plus récente, utilisée ensuite par les fonctionnaires pour décider de la politique, etc.). Un des principaux problèmes auquel ces services doivent faire face est la très grande quantité d'informations. Ils recrutent donc du personnel bilingue 'passif' qui peut scanner rapidement les textes afin de mettre de côté ce qui est sans intérêt et de donner ensuite les documents significatifs à des traducteurs professionnels. Manifestement, une combinaison de résumé automatique de texte et de traduction automatique sera très utile dans ce cas. Comme la traduction automatique est longue, on peut d'abord résumer le texte dans la langue étrangère, puis effectuer une traduction automatique rapide à partir du résultat obtenu, en laissant à un être humain ou un classificateur de texte (du type recherche documentaire) le soin de décider si on doit garder l'article ou le rejeter.

Pour ces raisons, durant ces cinq dernières années, le gouvernement des Etats-Unis a financé des recherches en traduction automatique, en résumé automatique de texte et en recherche documentaire, et il s'intéresse au lancement d'un nouveau programme de recherche en informatique documentaire multilingue. On sera ainsi capable d'ouvrir un navigateur tel que Netscape ou Explorer, entrer une demande en anglais, et obtenir la liste des documents dans toutes les langues. Ces documents seront regroupés par sous-catégorie avec un résumé pour chacun et une traduction pour les résumés étrangers, toutes choses qui seraient très utiles.

En consultant MuST (multilingual information retrieval, summarization, and translation system), vous aurez une démonstration de notre version de ce programme de recherche, qui utilise l'anglais comme langue de l'utilisateur sur un ensemble d'environ 5.000 textes en anglais, japonais, arabe, espagnol et indonésien. Entrez votre demande (par exemple, 'baby', ou tout autre terme) et appuyez sur la touche Retour. Dans la fenêtre du milieu vous verrez les titres (ou bien les mots-clés, traduits). Sur la gauche vous verrez la langue de ces documents: 'Sp' pour espagnol, 'Id' pour indonésien, etc. Cliquez sur le numéro situé sur la partie gauche de chaque ligne pour voir le document dans la fenêtre du bas. Cliquez sur 'Summarize' pour obtenir le résumé. Cliquez sur 'Translate' pour obtenir la traduction (attention, les traductions en arabe et en japonais sont extrêmement lentes! Essayez plutôt l'indonésien pour une traduction rapide mot à mot). Ce programme de démonstration n'est pas (encore) un produit. Nous avons de nombreuses recherches à mener pour améliorer la qualité de chaque étape. Mais ceci montre la direction dans laquelle nous allons."

Ses commentaires en août 1999: "Durant les douze derniers mois, j'ai été contacté par un nombre surprenant de nouvelles sociétés et start-up en technologies de l'information. La plupart d'entre elles ont l'intention d'offrir des services liés au commerce électronique (vente en ligne, échange, collecte d'information, etc.). Etant donné les faibles résultats des technologies actuelles du traitement de la langue naturelle - ailleurs que dans les centres de recherche - c'est assez surprenant. Quand avez-vous pour la dernière fois trouvé rapidement une réponse correcte à une question posée sur le web, sans avoir eu à passer en revue pendant un certain temps des informations n'ayant rien à voir avec votre question? Cependant, à mon avis, tout le monde sent que les nouveaux développements en résumé automatique de texte, analyse des questions, etc., vont, je l'espère, permettre des progrès significatifs. Mais nous ne sommes pas encore arrivés à ce stade.

Il me semble qu'il ne s'agira pas d'un changement considérable, mais que nous arriverons à des résultats acceptables, et que l'amélioration se fera ensuite lentement et sûrement. Ceci s'explique par le fait qu'il est très difficile de faire en sorte que votre ordinateur 'comprenne' réellement ce que vous voulez dire - ce qui nécessite de notre part la construction informatique d'un réseau de 'concepts' et des relations de ces concepts entre eux - réseau qui, jusqu'à un certain stade au moins, reflèterait celui de l'esprit humain, au moins dans les domaines d'intérêt pouvant être regroupés par sujets. Le mot pris à la 'surface' n'est pas suffisant - par exemple quand vous tapez: 'capitale de la Suisse', les systèmes actuels n'ont aucun moyen de savoir si vous songez à 'capitale administrative' ou 'capitale financière'. Dans leur grande majorité, les gens préféreraient pourtant un type de recherche basé sur une expression donnée, ou sur une question donnée formulée en langage courant.

Plusieurs programmes de recherche sont en train d'élaborer de vastes réseaux de 'concepts', ou d'en proposer l'élaboration. Ceci ne peut se faire en deux ans, et ne peut amener rapidement un résultat satisfaisant. Nous devons développer à la fois le réseau et les techniques pour construire ces réseaux de manière semi-automatique, avec un système d'auto-adaptation. Nous sommes face à un défi majeur."

Ses commentaires en septembre 2000: "Je vois de plus en plus de petites sociétés utiliser d'une manière ou d'une autre les technologies liées aux langues, pour procurer des recherches, des traductions, des rapports ou d'autres services permettant de communiquer. Le nombre de créneaux dans lesquels ces technologies peuvent être utilisées continue de me surprendre, et cela va des rapports financiers et leurs mises à jour aux communications d'une société à l'autre en passant par le marketing.

En ce qui concerne la recherche, la principale avancée que je vois est due à Kevin Knight, un collègue de l'ISI (Institut des sciences de l'information de l'Université de Californie du Sud, ndlr), ce dont je suis très honoré. L'été dernier, une équipe de chercheurs et d'étudiants de l'Université Johns Hopkins (Maryland) a développé une version à la fois meilleure et plus rapide d'une méthode développée à l'origine par IBM (et dont IBM reste propriétaire) il y a douze ans environ. Cette méthode permet de créer automatiquement un système de traduction automatique, dans la mesure où on lui fournit un volume suffisant de texte bilingue. Tout d'abord la méthode trouve toutes les correspondances entre les mots et la position des mots d'une langue à l'autre, et ensuite elle construit des tableaux très complets de règles entre le texte et sa traduction, et les expressions correspondantes.