Le web, une encyclopédie multilingue
Part 6
De plus, Wikipédia inspire bien d’autres projets au fil des ans, par exemple Citizendium, lancé en mars 2007 par Larry Sanger en tant qu’encyclopédie collaborative expérimentale au contenu vérifié par des experts, ou encore l’Encyclopedia of Life, un projet global qui voit le jour en mai 2007 pour recenser toutes les espèces animales et végétales connues.
2001> L’UNL, PROJET DE MÉTALANGAGE NUMÉRIQUE
[Résumé] La Fondation UNDL (Universal Networking Digital Language) est fondée en janvier 2001 à Genève (Suisse) pour développer et promouvoir le projet UNL (Universal Networking Language). Développé à partir de 1996 à Tokyo (Japon) sous l'égide de l'Institute of Advanced Studies (IAS) de l'Université des Nations Unies (UNU), le projet UNL est un projet de métalangage numérique - ou interlangue - formant une passerelle entre une langue source et une langue cible et offrant ainsi une solution aux problèmes de communication posés par la barrière des langues. Comme expliqué en 2010 sur le wiki du projet en langue française, «l'UNL est une langue artificielle créée pour prendre en compte les informations et connaissances véhiculées par les langues humaines. Elle est dotée de composantes lexicales, grammaticales et sémantiques, comme les langues naturelles. Couplée à l'intelligence artificielle, l'UNL facilite la communication entre l'homme et la machine, et par le biais de la machine, entre tous les peuples dans la langue maternelle de chacun.»
***
L'UNL (Universal Networking Language) est un projet de métalangage numérique pour l'encodage, le stockage, la recherche et la communication d'informations multilingues.
Il s'agirait d'une interlangue formant une passerelle entre une langue source et une langue cible et offrant ainsi une solution au problème de communication posé par la barrière des langues.
L’UNL est développé à partir de 1996 sous l'égide de l'Institute of Advanced Studies (IAS) de l'Université des Nations Unies (UNU) à Tokyo (Japon) au sein de l’UNL Programme, un programme international impliquant de nombreux partenaires dans plusieurs communautés linguistiques.
En 1998, 120 chercheurs de par le monde travaillent sur un projet plurilingue comportant seize langues (allemand, anglais, arabe, brésilien, chinois, espagnol, français, hindou, indonésien, italien, japonais, letton, mongolien, russe, swahili, thaï).
Au sein de l’IMAG (Institut d’informatique et de mathématiques appliquées de Grenoble), le GETA (Groupe d’étude pour la traduction automatique) participe à l’UNL Programme. Christian Boitet, son directeur, explique en septembre 1998: «Il s'agit non de TAO [traduction assistée par ordinateur] habituelle, mais de communication et recherche d'information multilingue. Quatorze groupes ont commencé le travail sur douze langues (plus deux annexes) depuis début 1997. L'idée est de: (a) développer un standard, dit UNL, qui serait le HTML du contenu linguistique; (b) pour chaque langue, développer un générateur (dit "déconvertisseur") accessible sur un ou plusieurs serveurs, et un "enconvertisseur".»
Les applications possibles sont le courriel multilingue, les informations multilingues, les dictionnaires numériques pour la lecture des langues étrangères sur le web et enfin la traduction automatique pour la navigation sur le web et la veille informatique.
Quelles sont les perspectives? D’après Christian Boitet, «le plan général est d'ouvrir le projet aux autres langues de l'ONU en 2000. Il faudrait arriver à un état satisfaisant pour les douze autres avant. Du point de vue politique et culturel, ce projet est très important, en ce qu'il montre pour la première fois une voie possible pour construire divers outils soutenant l'usage de toutes les langues sur internet, qu'elles soient majoritaires ou minoritaires. En particulier, ce devrait être un projet majeur pour la Francophonie.»
Ce programme se poursuit ensuite sous l'égide de la Fondation UNDL (Universal Networking Digital Language), créée en janvier 2001 à Genève (Suisse) pour développer et promouvoir le projet UNL, en partenariat avec les Nations Unies.
Comme expliqué en 2010 sur le wiki en langue française du projet, «l'UNL est une langue artificielle créée pour prendre en compte les informations et connaissances véhiculées par les langues humaines. Elle est dotée de composantes lexicales, grammaticales et sémantiques, comme les langues naturelles. Couplée à l’intelligence artificielle, l’UNL facilite la communication entre l’homme et la machine, et par le biais de la machine, entre tous les peuples dans la langue maternelle de chacun. Notre première tâche est de compléter le système UNL. Ensuite, le mettre au service des toutes les nations.»
2001 > UN MARCHÉ POUR LES LOGICIELS DE TRADUCTION
[Résumé] En mars 2001, IBM se lance dans un marché de la traduction en pleine expansion avec un produit professionnel haut de gamme, le WebSphere Translation Server. Ce logiciel traduit instantanément en plusieurs langues (allemand, anglais, chinois, coréen, espagnol, français, italien, japonais) les pages web, courriels et chats. Il interprète 500 mots à seconde et permet l'ajout de termes spécifiques. Par ailleurs, des logiciels de traduction assistée par ordinateur (TAO), destinés aux traducteurs professionnels, incluent une «mémoire de traduction» avec gestion de la terminologie en temps réel et contrôle typographique, par exemple Wordfast, créé dès 1999 par Yves Champollion et compatible avec les autres grands logiciels du marché que sont le WebSphere Translation Server d'IBM et les logiciels de SDL Trados. Utilisable sur toute plateforme (Windows, Mac, Linux), Wordfast compte 14.000 clients dans le monde en 2010, dont les Nations Unies, Coca-Cola et Sony.
***
L’internationalisation de l’internet favorise un marché pour les logiciels de traduction, tout comme le développement du commerce électronique.
Les sociétés Systran, Alis Technologies, Lernout & Hauspie, Globalink, Softissimo et bien d’autres développent des logiciels, produits et services ciblant trois types de clients: le grand public, les professionnels des langues et les sociétés localisant leurs sites web.
En mars 2001, IBM se lance dans un marché en pleine expansion avec un produit professionnel haut de gamme, le WebSphere Translation Server. Ce logiciel traduit instantanément en plusieurs langues (allemand, anglais, chinois, coréen, espagnol, français, italien, japonais) les pages web, courriels et chats. Il interprète 500 mots à la seconde et permet l’ajout de vocabulaires spécifiques.
Un logiciel de traduction automatique (TA) analyse le texte dans la langue à traduire (langue source) et génère automatiquement le texte dans la langue désirée (langue cible), en utilisant des règles précises pour le transfert de la structure grammaticale. L'être humain n'intervient pas au cours du processus, contrairement à la traduction assistée par ordinateur (TAO), qui implique une interaction entre l'homme et la machine.
Par ailleurs, des logiciels de traduction assistée par ordinateur (TAO) sont proposés aux traducteurs professionnels. Lancé en 1999 à Paris par Yves Champollion, Wordfast est un logiciel incluant une «mémoire de traduction» avec gestion de la terminologie en temps réel et contrôle typographique. Il est compatible avec les autres grands logiciels du marché que sont le WebSphere Translation Server d'IBM et les logiciels de SDL Trados. Utilisable sur toute plateforme (Windows, Mac, Linux), Wordfast compte 14.000 clients dans le monde en 2010, dont les Nations Unies, Coca-Cola, Sony et bien d’autres.
Selon Tim McKenna, écrivain et philosophe, interviewé en octobre 2000, «lorsque la qualité des logiciels sera suffisante pour que les gens puissent converser par écrit et par oral sur le web en temps réel dans différentes langues, nous verrons tout un monde s'ouvrir à nous. Les scientifiques, les hommes politiques, les hommes d'affaires et bien d'autres groupes seront à même de communiquer immédiatement entre eux sans l'intermédiaire de médiateurs ou traducteurs.»
Selon Randy Hobler, consultant en marketing internet de produits et services de traduction, l’étape suivante sera celle de la «transparence transculturelle et transnationale».
Il explique dès septembre 1998: «Nous arriverons rapidement au point où une traduction très fidèle du texte et de la parole sera si commune qu'elle pourra faire partie des plateformes ou même des puces. À ce stade, lorsque le développement de l'internet aura atteint sa vitesse de croisière, lorsque la fidélité de la traduction atteindra plus de 98% et lorsque les différentes combinaisons de langues possibles auront couvert la grande majorité du marché, la transparence de la langue - à savoir toute communication d'une langue à une autre - sera une vision trop restrictive pour ceux qui vendent cette technologie. Le développement suivant sera la "transparence transculturelle et transnationale" dans laquelle les autres aspects de la communication humaine, du commerce et des transactions au-delà du seul langage entreront en scène. Par exemple, les gestes ont un sens, les mouvements faciaux ont un sens, et ceci varie en fonction des normes sociales d'un pays à l'autre. (…)
Les cultures diffèrent de milliers de façons, et la plupart de leurs codes peuvent être modifiés par voie informatique lorsqu'on passe d’un code culturel à l'autre. Ceci inclut les lois, les coutumes, les habitudes de travail, l'éthique, le change monétaire, les différences de taille dans les vêtements, les différences entre le système métrique et le système de mesure anglophone, etc. Les firmes dynamiques répertorieront et programmeront ces différences, et elles vendront des produits et services afin d'aider les habitants de la planète à mieux communiquer entre eux. Une fois que ces produits et services seront largement répandus, ils contribueront réellement à une meilleure compréhension à l'échelle internationale.»
2004 > LE WEB 2.0, COMMUNAUTÉ ET PARTAGE
[Résumé] Le terme «web 2.0» émane d'un éditeur de livres informatiques, Tim O'Reilly, qui l’utilise pour la première fois en 2004 en tant que titre d’une série de conférences qu'il est en train d’organiser. Le web 2.0 est caractérisé par les notions de communauté et de partage, avec une flopée de sites dont le contenu est alimenté par les utilisateurs, par exemple les blogs, les wikis, les sites sociaux et les encyclopédies collaboratives. Wikipédia, Facebook et Twitter bien sûr, mais aussi des dizaines de milliers d'autres. Le web 2.0 tente de répondre au rêve formulé par Tim Berners-Lee, inventeur du web en 1990, qui écrit dans un essai daté d’avril 1998: «Le rêve derrière le web est un espace d'information commun dans lequel nous communiquons en partageant l'information. Son universalité est essentielle, à savoir le fait qu'un lien hypertexte puisse pointer sur quoi que ce soit, quelque chose de personnel, de local ou de global, aussi bien une ébauche qu'une réalisation très sophistiquée.»
***
Le terme «web 2.0» émane d'un éditeur de livres informatiques, Tim O'Reilly, qui l’utilise pour la première fois en 2004 en tant que titre d’une série de conférences qu'il est en train d’organiser.
Le web 2.0 est caractérisé par les notions de communauté et de partage, avec une flopée de sites dont le contenu est alimenté par les utilisateurs, par exemple les blogs, les wikis, les sites sociaux et les encyclopédies collaboratives. Wikipédia, Facebook et Twitter bien sûr, mais aussi des dizaines de milliers d'autres.
# Les blogs envahissent la toile
Un blog (ou blogue) est un journal en ligne tenu par une personne ou un groupe. Ce journal est le plus souvent présenté par ordre chronologique inversé (du plus récent au plus ancien) et il est actualisé d'heure en heure ou bien une fois par mois. Le premier blog apparaît en 1997. En 2004, Le Monde.fr, site du quotidien Le Monde, lance ses propres blogs, «un formidable format d'expression journalistique qui permet un dialogue quasi-instantané avec son lecteur», selon Yann Chapellon, directeur du Monde interactif. En juillet 2005, il y aurait 14 millions de blogs dans le monde, avec 80.000 nouveaux blogs par jour. En décembre 2006, Technorati, moteur de recherche pour blogs puis site spécialisé, recense 65 millions de blogs, avec 175.000 nouveaux blogs par jour. Certains blogs sont consacrés aux photos (photoblogs), à la musique (audioblogs ou podcasts) et aux vidéos (vidéoblogs ou vlogs).
# Les wikis, sites collaboratifs
Un wiki (terme hawaïen signifiant «vite») est un site web permettant à plusieurs utilisateurs de collaborer en ligne sur un même projet. Le concept du wiki devient très populaire en 2000, avec possibilité pour les participants de contribuer à la rédaction du contenu, de modifier ce contenu et de l'enrichir en permanence. Le wiki est utilisé par exemple pour créer et gérer des sites d’information, des dictionnaires et des encyclopédies. Le programme présent derrière l'interface d'un wiki est plus ou moins élaboré. Un programme simple gère des textes et des hyperliens. Un programme élaboré permet d'inclure des images, des graphiques, des tableaux, etc. L'encyclopédie wiki la plus connue est Wikipédia.
# Facebook, réseau social
Facebook est un réseau social fondé en février 2004 par Mark Zuckerberg et ses collègues étudiants. Destiné à l'origine aux étudiants de l'Université de Harvard, puis aux étudiants de toutes les universités américaines, le réseau social s’ouvre au monde en septembre 2006 afin de connecter entre eux des personnes proches (famille, amis, collègues) ou des personnes partageant les mêmes centres d'intérêt. En juin 2010, Facebook devient le deuxième site mondial en nombre de visites, après Google, et fête ses 500 millions d'usagers tout en suscitant des débats sur le respect de la vie privée.
# Twitter, l'information en 140 caractères
Lancé en 2006 par Jack Dorsey, Twitter est un outil de réseau social et de micro-blogging permettant à l'utilisateur d'envoyer gratuitement des tweets (messages brefs au format texte) de 140 caractères maximum, par messagerie instantanée, par SMS ou via l’internet. Parfois décrit comme le SMS de l'internet, Twitter gagne rapidement une popularité mondiale, avec 106 millions d'usagers en avril 2010 et 300.000 nouveaux usagers par jour. Quant aux tweets, on compte 5.000 tweets quotidiens en 2007, 300.000 en 2008, 2,5 millions en 2009, 50 millions en janvier 2010 et 55 millions en avril 2010, avec un archivage systématique des tweets à usage public par la Bibliothèque du Congrès en tant que reflet des tendances de notre époque.
# Le rêve de Tim Berners-Lee
Comme on le voit, le web 2.0 tente de répondre au rêve formulé par Tim Berners-Lee, inventeur du web en 1990, qui écrit dans un essai daté d’avril 1998: «Le rêve derrière le web est un espace d'information commun dans lequel nous communiquons en partageant l'information. Son universalité est essentielle, à savoir le fait qu'un lien hypertexte puisse pointer sur quoi que ce soit, quelque chose de personnel, de local ou de global, aussi bien une ébauche qu'une réalisation très sophistiquée. Deuxième partie de ce rêve, le web deviendrait d'une utilisation tellement courante qu'il serait un miroir réaliste (sinon la principale incarnation) de la manière dont nous travaillons, jouons et nouons des relations sociales. Une fois que ces interactions seraient en ligne, nous pourrions utiliser nos ordinateurs pour nous aider à les analyser, donner un sens à ce que nous faisons, et voir comment chacun trouve sa place et comment nous pouvons mieux travailler ensemble.» (extrait de «The World Wide Web: A very short personal history»)
2007 > LA NORME ISO 639-3 POUR IDENTIFIER LES LANGUES
[Résumé] Le premier standard est la norme ISO 639-1, adoptée par l’Organisation internationale de normalisation (ISO) en 1988 et qui identifie chaque langue sur deux lettres. Suit la norme ISO 639-2, publiée en 1998 pour identifier 400 langues sur trois lettres. Par ailleurs, l’Ethnologue, catalogue encyclopédique de langues vivantes publié par SIL International, développe également ses propres codes sur trois lettres dans sa base de données depuis 1971, avec inclusion de ces identifiants dans l’encyclopédie depuis 1984 (10e édition). En 2002, à l’invitation de l’Organisation internationale de normalisation, SIL International prépare une nouvelle norme ISO qui harmonise les identifiants utilisés dans l'Ethnologue avec ceux de la norme ISO 639-2, en intégrant aussi les identifiants des langues mortes et artificielles utilisés dans la Linguist List, une grande liste de diffusion à destination des linguistes. Publiée en 2007, la norme ISO 639-3 attribue un identifiant de trois lettres à 7.589 langues. SIL International est également désigné comme l’organisme responsable de la gestion du cycle annuel des modifications et des mises à jour.
***
Publiée en 2007, la norme ISO 639-3 attribue un identifiant de trois lettres à 7 589 langues, par exemple « fra » pour le français.
Cette norme existe depuis plus de trente ans. La première norme en vigueur est la norme ISO 639-1, adoptée par l’Organisation internationale de normalisation (ISO) en 1988 et qui identifie chaque langue sur deux lettres.
Dix ans plus tard suit la norme ISO 639-2, adoptée en 1998 et qui identifie cette fois chaque langue au moyen de trois lettres mais se limite à 400 langues. Cette norme est la convergence de la norme ISO 639-1 avec la norme ANSI Z39.53 (ANSI : American National Standards Institute). La norme ANSI correspond aux codes de langues MARC (Machine Readable Cataloging), des identifiants sur trois lettres développés par les bibliothèques américaines et adoptés en tant que norme nationale en 1987.
Par ailleurs, un autre effort de codification est poursuivi par l’Ethnologue, magnifique catalogue encyclopédique de langues vivantes publié depuis 1950 par SIL International, avec une nouvelle version tous les quatre ans. L’équipe de l’Ethnologue a elle aussi créé des codes de trois lettres pour chaque langue dans sa base de données, ce depuis 1971, avec inclusion des codes dans l'encyclopédie elle-même à partir de la 10e édition (1984).
Revenons à la norme ISO 639-2, qui devient vite insuffisante du fait du petit nombre de langues pris en compte. En 2002, l'ISO invite donc SIL International à établir une nouvelle norme qui harmoniserait les identifiants utilisés par l'Ethnologue avec les identifiants de la norme ISO 639-2, en y intégrant aussi les codes des langues mortes utilisés par la Linguist List, grande liste de diffusion à destination des linguistes.
Le résultat, officiellement approuvé en 2006 et publié en 2007, est la norme ISO 639-3, qui attribue un code de trois lettres à 7 589 langues, avec un travail aussi exhaustif que possible puisque cette liste de codes inclut les langues vivantes ou mortes, anciennes ou artificielles, importantes ou minoritaires, écrites ou non écrites.
SIL International est également désigné comme l'organisme responsable de l'enregistrement de nouvelles langues pour l'ISO 639-3, et gère donc le cycle annuel des modifications et des mises à jour. Au 21e siècle, la préservation des langues passe par leur codification.
2007 > GOOGLE TRADUCTION
[Résumé] Lancé par Google en octobre 2007, Google Traduction est un service en ligne gratuit qui traduit instantanément un texte ou une page web dans une autre langue. Les usagers copient un texte dans l’interface web ou entrent une adresse web. Le service de traduction automatique de Google se base sur une analyse statistique et non sur une analyse traditionnelle basée sur des règles. Avant cette date, Google utilisait un traducteur de Systran du même type que Babel Fish dans Yahoo! Comme tout outil de traduction automatique, Google Traduction peut aider l’usager à comprendre le sens général d’un texte en langue étrangère, mais ne propose pas de traductions exactes. En 2009, le texte peut être lu par synthèse vocale, avec l’ajout de nouvelles langues au fil des mois. Disponible en juin 2009, Google Translator Toolkit est un service web permettant aux traducteurs de réviser les traductions générées automatiquement par Google Traduction.
***
Lancé en octobre 2007, Google Traduction (Google Translate) est un service en ligne gratuit qui traduit instantanément un texte ou une page web dans une autre langue. Les usagers copient un texte dans l’interface web ou entrent une adresse web.
Innovation par rapport à la concurrence, Google Traduction se base sur une analyse statistique pour la traduction automatique et non sur une analyse traditionnelle basée sur des règles.
Google s’empresse lui aussi d’expliquer que ce nouveau service peut aider l’usager à comprendre le sens général d’un texte en langue étrangère, mais ne propose pas de traductions exactes. (En janvier 2011, les usagers ont le choix entre plusieurs traductions pour les mêmes mots.)
Avant le lancement de Google Translate, Google utilisait un traducteur de Systran du même type que Babel Fish, avec plusieurs étapes quant aux paires de langues disponibles.
Étape un: de l’anglais vers le français, l’allemand et l’espagnol, et vice versa. Étape deux: de l’anglais vers le portugais et le flamand, et vice versa. Étape trois: de l’anglais vers l’italien, et vice versa. Étape quatre: de l’anglais vers le chinois simplifié, le japonais et le coréen, et vice versa. Étape cinq (avril 2006): de l’anglais vers l’arabe, et vice versa. Étape six (décembre 2006): de l’anglais vers le russe, et vice versa. Étape sept (février 2007): de l’anglais vers le chinois traditionnel, et du chinois simplifié vers le chinois traditionnel, et vice versa.
Voici les étapes propres au système de traduction de Google, tout au moins les dix premières.
Étape un (octobre 2007): toutes les langues disponibles jusqu’ici, avec toutes les combinaisons possibles. Étape deux: de l’anglais à l’hindou, et vice versa. Étape trois (mai 2008): bulgare, croate, danois, finlandais, grec, néerlandais, norvégien, polonais, roumain, suédois, tchèque, avec toutes les combinaisons possibles. Étape quatre (septembre 2008): catalan, hébreu, indonésien, letton, lituanien, philippin, serbe, slovaque, slovène, ukrainien, vietnamien. Étape cinq (janvier 2009): albanais, estonien, galicien, hongrois, maltais, thaï, turc. Étape six (juin 2009): perse. Étape sept (août 2009): afrikaans, biélorusse, gallois, irlandais, islandais, macédonien, malais, swahili, yiddish. Étape huit (janvier 2010): haïtien créole. Étape neuf (mai 2010): arménien, azéri, basque, géorgien, ourdou. Étape dix (octobre 2010): latin. Etc.
En 2009, nouvelle innovation, le texte peut être lu par synthèse vocale, avec l’ajout de nouvelles langues au fil des mois pour la synthèse vocale.
La même année, deuxième innovation, Google lance le Google Translator Toolkit, un service web permettant aux traducteurs (humains) de réviser les traductions générées automatiquement par Google Traduction. Ils peuvent aussi partager traductions, glossaires et mémoires de traduction.
2009 > 6.909 LANGUES VIVANTES DANS L’ETHNOLOGUE