Le livre, de l'imprimé au numérique

Chapter 6

Chapter 63,490 wordsPublic domain

«Le site web de la bibliothèque a pour vocation principale de servir la communauté pasteurienne», relate-t-il en août 1999. «Il est le support d'applications devenues indispensables à la fonction documentaire dans un organisme de cette taille: bases de données bibliographiques, catalogue, commande de documents et bien entendu accès à des périodiques en ligne. C'est également une vitrine pour nos différents services, en interne mais aussi dans toute la France et à l'étranger. Il tient notamment une place importante dans la coopération documentaire avec les instituts du réseau Pasteur à travers le monde. Enfin j'essaie d'en faire une passerelle adaptée à nos besoins pour la découverte et l'utilisation d'internet. (...) Je développe et maintiens les pages du serveur, ce qui s'accompagne d'une activité de veille régulière. Par ailleurs je suis responsable de la formation des usagers, ce qui se ressent dans mes pages. Le web est un excellent support pour la formation, et la plupart des réflexions actuelles sur la formation des usagers intègrent cet outil.»

Son activité professionnelle a changé de manière radicale, tout comme celle de ses collègues. «C'est à la fois dans nos rapports avec l'information et avec les usagers que les changements ont eu lieu», explique-t-il. «Nous devenons de plus en plus des médiateurs, et peut- être un peu moins des conservateurs. Mon activité actuelle est typique de cette nouvelle situation: d'une part dégager des chemins d'accès rapides à l'information et mettre en place des moyens de communication efficaces, d'autre part former les utilisateurs à ces nouveaux outils. Je crois que l'avenir de notre métier passe par la coopération et l'exploitation des ressources communes. C'est un vieux projet certainement, mais finalement c'est la première fois qu'on dispose enfin des moyens de le mettre en place.»

# En 2000

En 2000, Bakayoko Bourahima est responsable de la bibliothèque de l'École nationale supérieure de statistique et d'économie appliquée (ENSEA) à Abidjan (Côte d'Ivoire). L'ENSEA assure la formation de statisticiens pour les pays africains d'expression française. Son site web est mis en ligne en avril 1999 dans le cadre du réseau REFER, un réseau créé par l'Agence universitaire de la Francophonie (AUF) pour desservir la communauté scientifique et technique en Afrique, en Asie et en Europe orientale (24 pays participants en 2002).

Bakayoko Bourahima s'occupe de la gestion de l'information et de la diffusion des travaux publiés par l'ENSEA. Quel est l'apport de l'internet dans son travail? «Le service de la bibliothèque travaille à deux projets d'intégration du web pour améliorer ses prestations», relate-t-il en juillet 2000. «J'espère bientôt pouvoir mettre à la disposition de mes usagers un accès internet pour l'interrogation de bases de données. Par ailleurs, j'ai en projet de réaliser et de mettre sur l'intranet et sur le web un certain nombre de services documentaires (base de données thématique, informations bibliographiques, service de références bibliographiques, bulletin analytique des meilleurs travaux d'étudiants...). Il s'agit donc pour la bibliothèque, si j'obtiens les financements nécessaires pour ces projets, d'utiliser pleinement l'internet pour donner à notre École un plus grand rayonnement et de renforcer sa plateforme de communication avec tous les partenaires possibles. En intégrant cet outil au plan de développement de la bibliothèque, j'espère améliorer la qualité et élargir la gamme de l'information scientifique et technique mise à la disposition des étudiants, des enseignants et des chercheurs, tout en étendant considérablement l'offre des services de la bibliothèque.»

En 2000, Emmanuel Barthe est documentaliste juridique et responsable informatique de Coutrelis & Associés, un cabinet d'avocats parisien. «Les principaux domaines de travail du cabinet sont le droit communautaire, le droit de l'alimentation, le droit de la concurrence et le droit douanier», écrit-il en octobre 2000. «Je fais de la saisie indexation, et je conçois et gère les bases de données internes. Pour des recherches documentaires difficiles, je les fais moi-même ou bien je conseille le juriste. Je suis aussi responsable informatique et télécoms du cabinet: conseils pour les achats, assistance et formation des utilisateurs. De plus, j'assure la veille, la sélection et le catalogage de sites web juridiques: titre, auteur et bref descriptif. Je suis également formateur internet juridique aussi bien à l'intérieur de mon entreprise qu'à l'extérieur lors de stages de formation.»

# En 2001

En 2001, Anissa Rachef est bibliothécaire et professeur à l'Institut français de Londres. Présents dans de nombreux pays, les instituts français sont des organismes officiels proposant des cours de français et des manifestations culturelles. A Londres, 5.000 étudiants environ s'inscrivent aux cours chaque année. Inaugurée en mai 1996, la médiathèque utilise l'internet dès sa création.

«L'objectif de la médiathèque est double», explique Anissa Rachef en avril 2001. «Servir un public s'intéressant à la culture et la langue françaises et "recruter" un public allophone en mettant à disposition des produits d'appel tels que vidéos documentaires, livres audio, CD- ROM. La mise en place récente d'un espace multimédia sert aussi à fidéliser les usagers. L'installation d'un service d'information rapide a pour fonction de répondre dans un temps minimum à toutes sortes de questions posées via le courrier électronique, ou par fax. Ce service exploite les nouvelles technologies pour des recherches très spécialisées. Nous élaborons également des dossiers de presse destinés aux étudiants et professeurs préparant des examens de niveau secondaire. Je m'occupe essentiellement de catalogage, d'indexation et de cotation. ...

J'utilise internet pour des besoins de base. Recherches bibliographiques, commande de livres, courrier professionnel, prêt inter-bibliothèques. C'est grâce à internet que la consultation de catalogues collectifs, tels SUDOC [Système universitaire de documentation] et OCLC [Online Computer Library Center], a été possible. C'est ainsi que j'ai pu mettre en place un service de fourniture de documents extérieurs à la médiathèque. Des ouvrages peuvent désormais être acheminés vers la médiathèque pour des usagers ou bien à destination des bibliothèques anglaises.»

= Des catalogues en réseau

# L'UNIMARC, format bibliographique commun

L'avenir des catalogues informatiques en réseau tient à l'harmonisation du format MARC (Machine Readable Cataloguing) par le biais de l'UNIMARC (Universal Machine Readable Cataloguing).

Créé en 1977 par l'IFLA (International Federation of Library Associations - Fédération internationale des associations de bibliothèques), le format UNIMARC est un format universel permettant le stockage et l'échange de notices bibliographiques au moyen d'une codification des différentes parties de la notice (auteur, titre, éditeur, etc.) pour traitement informatique.

Ce format favorise les échanges de données entre la vingtaine de formats MARC existants, qui correspondent chacun à une pratique nationale de catalogage (INTERMARC en France, UKMARC au Royaume-Uni, USMARC aux États-Unis, CAN/MARC au Canada, etc.). Les notices dans le format MARC d'origine sont d'abord converties au format UNIMARC avant d'être converties à nouveau dans le format MARC de destination. UNIMARC peut aussi être utilisé comme standard pour le développement de nouveaux formats MARC.

Dans le monde anglophone, la British Library (qui utilise UKMARC), la Library of Congress (qui utilise USMARC) et la Bibliothèque nationale du Canada (qui utilise CAN/MARC) décident d'harmoniser leurs formats MARC nationaux. Un programme de trois ans, mené entre décembre 1995 et décembre 1998, permet de mettre au point un format MARC commun aux trois bibliothèques.

Parallèlement, en 1996, dans le cadre de son Programme des bibliothèques, la Commission européenne promeut l'utilisation du format UNIMARC comme format commun d'échange entre tous les formats MARC utilisés dans les pays de l'Union européenne. Le groupe de travail correspondant étudie aussi les problèmes posés par les différentes polices de caractères, et la manière d'harmoniser le format bibliographique et le format du document lui-même pour les documents disponibles en ligne.

# WorldCat, catalogue collectif mondial

L'internet facilite la gestion de catalogues collectifs. Le but premier de ces catalogues est d'éviter de cataloguer à nouveau un document déjà traité par une bibliothèque partenaire. Si le catalogueur trouve la notice du livre qu'il est censé cataloguer, il la copie pour l'inclure dans le catalogue de sa propre bibliothèque. S'il ne trouve pas la notice, il la crée, et cette notice est aussitôt disponible pour les catalogueurs officiant dans d'autres bibliothèques.

Outre de nombreux catalogues collectifs régionaux et nationaux, deux catalogues collectifs mondiaux sont proposés par OCLC (Online Computer Library Center) et RLG (Research Libraries Group) dès les années 1980. Vingt ans plus tard, ces deux organismes gèrent de gigantesques bases bibliographiques alimentées par leurs adhérents, permettant ainsi aux bibliothèques d'unir leurs forces par-delà les frontières.

Fondé en 1967 dans l'Ohio, un État des États-Unis, OCLC gère d'abord l'OCLC Online Union Catalog, débuté en 1971 pour desservir les bibliothèques universitaires de l'Ohio. Ce catalogue collectif s'étend ensuite à tout le pays, puis au monde entier.

Désormais appelé WorldCat, et disponible sur abonnement payant, il comprend 38 millions de notices en 370 langues en 1998, avec translittération pour les caractères non romains des langues JACKPHY, à savoir le japonais, l'arabe, le chinois, le coréen (Korean en anglais), le persan, l'hébreu et le yiddish. L'accroissement annuel est de 2 millions de notices. WorldCat utilise huit formats bibliographiques correspondant aux catégories suivantes: livres, périodiques, documents visuels, cartes et plans, documents mixtes, enregistrements sonores, partitions et enfin documents informatiques.

En 2005, 61 millions de notices bibliographiques produites par 9.000 bibliothèques et centres de documentation sont disponibles dans 400 langues. En 2006, 73 millions de notices provenant de 10.000 organismes dans 112 pays permettent de localiser un milliard de documents. Une notice type contient la description du document ainsi que des informations sur son contenu (table des matières, résumé, couverture, illustrations, courte biographie de l'auteur).

Devenue la plus grande base mondiale de données bibliographiques, WorldCat migre progressivement sur le web, d'abord en rendant la consultation des notices possible par le biais de plusieurs moteurs de recherche (Yahoo!, Google et bien d'autres), puis en lançant en août 2006 une version web (bêta) de WorldCat en accès libre, qui propose non seulement les notices des documents mais aussi l'accès direct (gratuit ou payant) aux documents électroniques des bibliothèques membres: livres du domaine public, articles, photos, livres audio, musique et vidéos.

Le deuxième catalogue collectif mondial est géré par RLG (Research Library Group, qui devient ensuite Research Libraries Group). Fondé en 1980 en Californie, avec une antenne à New York, RLG se donne pour but d'améliorer l'accès à l'information dans le domaine de l'enseignement et de la recherche. RLG débute son propre catalogue sous le nom de RLIN (Research Libraries Information Network). Contrairement à WorldCat qui n'accepte qu'une notice par document, RLIN accepte plusieurs notices pour un même document.

En 1998, RLIN comprend 82 millions de notices dans 365 langues, avec des notices translittérées pour les documents publiés dans les langues JACKPHY et en cyrillique. Des centaines de dépôts d'archives, bibliothèques de musées, bibliothèques universitaires, bibliothèques publiques, bibliothèques de droit, bibliothèques techniques, bibliothèques d'entreprise et bibliothèques d'art utilisent RLIN pour le catalogage, le prêt inter-bibliothèques et le descriptif de leurs archives et manuscrits. Une des spécialités de RLIN est l'histoire de l'art. Alimentée par 65 bibliothèques spécialisées, une section spécifique comprend 100.000 notices de catalogues d'expositions et 168.500 notices de documents iconographiques (photographies, diapositives, dessins, estampes et affiches). Cette section inclut aussi les 110.000 notices de la base bibliographique Scipio, consacrée aux catalogues de ventes d'objets d'art.

En 2003, RLIN change de nom pour devenir le RLG Union Catalog, qui comprend désormais 126 millions de notices bibliographiques correspondant à 42 millions de documents (livres, cartes, manuscrits, films, bandes sonores, etc.). Au printemps 2004, une version web du catalogue est disponible en accès libre sous le nom de RedLightGreen, suite à une phase pilote lancée à l'automne 2003. La mise en ligne de RedLightGreen inaugure une ère nouvelle. C'est en effet la première fois qu'un catalogue collectif mondial est en accès libre, trois ans avant WorldCat. Destiné en premier lieu aux étudiants du premier cycle universitaire, RedLightGreen propose 130 millions de notices, avec des informations spécifiques aux bibliothèques d'un campus donné (cote, lien vers la version en ligne si celle-ci existe, etc.).

Après trois ans d'activité, en novembre 2006, le site RedLightGreen cesse ses activités, et les usagers sont invités à utiliser WorldCat, dont la version web (bêta) est en accès libre depuis août 2006. À la même date, le RLG est intégré à OCLC, qui gère désormais le seul catalogue collectif mondial. En mars 2010, WorldCat permet de localiser 1,5 milliard de documents et d'avoir directement accès à certains d'entre eux.

UNE INFORMATION MULTILINGUE

[Résumé] De pratiquement anglophone à ses débuts, le web, devenu multilingue, permet une large diffusion des textes électroniques sans contrainte de frontières. Mais la barrière de la langue est loin d'avoir disparu. Comme l'écrit si bien en août 1999 Maria Victoria Marinetti, professeur d'espagnol en entreprise et traductrice, «il est très important de pouvoir communiquer en différentes langues. Je dirais même que c'est obligatoire, car l'information donnée sur l'internet est à destination du monde entier, alors pourquoi ne l'aurions-nous pas dans notre propre langue ou dans la langue que nous souhaitons utiliser? Information mondiale, mais pas de vaste choix dans les langues, ce serait contradictoire, pas vrai?»

= De l'ASCII à l'Unicode

Communiquer dans plusieurs langues implique d'avoir des systèmes de codage adaptés à nos alphabets ou idéogrammes respectifs.

Le premier système d'encodage informatique est l'ASCII (American Standard Code for Information Interchange). Publié en 1968 aux États- Unis par l'ANSI (American National Standards Institute), avec actualisation en 1977 et 1986, l'ASCII est un code standard de 128 caractères traduits en langage binaire sur sept bits (A est traduit par «1000001», B est traduit par «1000010», etc.). Les 128 caractères comprennent 33 caractères de contrôle (qui ne représentent donc pas de symbole écrit) et 95 caractères imprimables: les 26 lettres sans accent en majuscules (A-Z) et minuscules (a-z), les chiffres, les signes de ponctuation et quelques symboles, le tout correspondant aux touches du clavier anglophone.

L'ASCII permet uniquement la lecture de l'anglais et du latin. Il ne permet pas de prendre en compte les lettres accentuées présentes dans bon nombre de langues européennes, et à plus forte raison les langues non alphabétiques (chinois, japonais, coréen, etc.). Ceci ne pose pas de problème majeur les premières années, tant que l'échange de fichiers électroniques se limite essentiellement à l'Amérique du Nord. Mais le multilinguisme devient bientôt une nécessité vitale. Des variantes de l'ASCII (norme ISO-8859 ou ISO-Latin) sur huit bits prennent en compte les caractères accentués de quelques langues européennes. Par exemple, la variante pour le français est définie par la norme ISO-8859-1 (ISO- Latin-1).

Cependant le passage de l'ASCII original à ses différentes extensions devient vite un véritable casse-tête, y compris au sein de l'Union européenne, les problèmes étant entre autres la multiplication des variantes, la corruption des données dans les échanges informatiques ou encore l'incompatibilité des systèmes, les pages ne pouvant être affichées que dans une seule langue à la fois.

Avec le développement du web, l'échange des données s'internationalise de plus en plus. On ne peut plus se limiter à l'utilisation de l'anglais, du latin et de quelques langues européennes «traduites» par un système d'encodage datant de 1968.

Publié pour la première fois en janvier 1991, l'Unicode est un système d'encodage «universel» sur 16 bits spécifiant un nombre unique pour chaque caractère. Ce nombre est lisible quels que soient la plateforme, le logiciel et la langue utilisés. L'Unicode peut traiter 65.000 caractères uniques et prendre en compte tous les systèmes d'écriture de la planète. À la grande satisfaction des linguistes, il remplace progressivement l'ASCII, avec des variantes UTF-8, UTF-16 et UTF-32 (UTF: Unicode Transformation Format) en fonction du nombre de bits utilisés. Il devient une composante des spécifications du W3C (World Wide Web Consortium), l'organisme international chargé du développement du web.

L'utilisation de l'Unicode se généralise à partir de 1998, par exemple pour les fichiers texte sous plateforme Windows (Windows NT, Windows 2000, Windows XP et versions suivantes), qui étaient jusque-là en ASCII.

Mais l'Unicode ne peut résoudre tous les problèmes, comme le souligne en juin 2000 Luc Dall'Armellina, co-auteur et webmestre d'oVosite, un espace d'écriture hypermédia: «Les systèmes d'exploitation se dotent peu à peu des kits de langues et bientôt peut-être de polices de caractères Unicode à même de représenter toutes les langues du monde; reste que chaque application, du traitement de texte au navigateur web, emboîte ce pas. Les difficultés sont immenses: notre clavier avec ses ± 250 touches avoue ses manques dès lors qu'il faille saisir des Katakana ou Hiragana japonais, pire encore avec la langue chinoise. La grande variété des systèmes d'écriture de par le monde et le nombre de leurs signes font barrage. Mais les écueils culturels ne sont pas moins importants, liés aux codes et modalités de représentation propres à chaque culture ou ethnie.»

Que préconise Olivier Gainon, fondateur de CyLibris et pionnier de l'édition électronique littéraire? «Première étape: le respect des particularismes au niveau technique», explique-t-il en décembre 2000. «Il faut que le réseau respecte les lettres accentuées, les lettres spécifiques, etc. Je crois très important que les futurs protocoles permettent une transmission parfaite de ces aspects - ce qui n'est pas forcément simple (dans les futures évolutions de l'HTML ou des protocoles IP, etc.). Donc il faut que chacun puisse se sentir à l'aise avec l'internet et que ce ne soit pas simplement réservé à des (plus ou moins) anglophones. Il est anormal aujourd'hui que la transmission d'accents puisse poser problème dans les courriers électroniques. La première démarche me semble donc une démarche technique. Si on arrive à faire cela, le reste en découle: la représentation des langues se fera en fonction du nombre de connectés, et il faudra envisager à terme des moteurs de recherche multilingues.»

= De l'anglais au plurilinguisme

Après avoir été anglophone à pratiquement 100%, l'internet est encore anglophone à plus de 80% en 1998, un pourcentage qui s'explique par trois facteurs: (a) la création d'un grand nombre de sites web émanant des États-Unis, du Canada et du Royaume-Uni; (b) une proportion d'usagers particulièrement forte en Amérique du Nord par rapport au reste du monde; (c) l'usage de l'anglais en tant que principale langue d'échange internationale.

L'anglais reste en effet prépondérant et ceci n'est pas près de disparaître. Comme indiqué en janvier 1999 par Marcel Grangier, responsable de la section française des services linguistiques centraux de l'Administration fédérale suisse, «cette suprématie n'est pas un mal en soi, dans la mesure où elle résulte de réalités essentiellement statistiques (plus de PC par habitant, plus de locuteurs de cette langue, etc.). La riposte n'est pas de "lutter contre l'anglais" et encore moins de s'en tenir à des jérémiades, mais de multiplier les sites en d'autres langues. Notons qu'en qualité de service de traduction, nous préconisons également le multilinguisme des sites eux- mêmes. La multiplication des langues présentes sur internet est inévitable, et ne peut que bénéficier aux échanges multiculturels.»

Yoshi Mikami est informaticien à Fujisawa, au Japon. En décembre 1995, il lance le site «The Languages of the World by Computers and the Internet» (Les langues du monde par les ordinateurs et l'internet), communément appelé Logos Home Page ou Kotoba Home Page. Son site donne un bref historique de chaque langue, ses caractéristiques, son système d'écriture, son jeu de caractères et enfin la configuration du clavier dans la langue donnée. Yoshi Mikami est également co-auteur (avec Kenji Sekine et Nobutoshi Kohara) de Pour un web multilingue, publié en août 1997 en japonais par les éditions O'Reilly avant d'être traduit en anglais, en allemand et en français en 1998.

Yoshi explique en décembre 1998: «Ma langue maternelle est le japonais. Comme j'ai suivi mes études de troisième cycle aux États-Unis et que j'ai travaillé dans l'informatique, je suis devenu bilingue japonais/anglais américain. J'ai toujours été intéressé par différentes langues et cultures, aussi j'ai appris le russe, le français et le chinois dans la foulée. A la fin de 1995, j'ai créé sur le web le site "The Languages of the World by Computers and the Internet" et j'ai tenté de donner - en anglais et en japonais - un bref historique de toutes ces langues, ainsi que les caractéristiques propres à chaque langue et à sa phonétique. Suite à l'expérience acquise, j'ai invité mes deux associés à écrire un livre sur la conception, la création et la présentation de pages web multilingues, livre qui fut publié en août 1997 [en japonais] sous le titre Pour un web multilingue, le premier livre au monde sur un tel sujet.»

Comment Yoshi voit-il l'évolution vers un web multilingue? «Il y a des milliers d'années de cela, en Égypte, en Chine et ailleurs, les gens étaient plus sensibles au fait de communiquer leurs lois et leurs réflexions non seulement dans une langue mais dans plusieurs. Dans notre monde moderne, chaque État a adopté plus ou moins une seule langue de communication. A mon avis, l'internet verra l'utilisation plus grande de langues différentes et de pages multilingues (et pas seulement une gravitation autour de l'anglais américain) et un usage plus créatif de la traduction informatique multilingue. 99% des sites web créés au Japon sont en japonais!»

Consultant en marketing internet chez Globalink, une société de logiciels et services de traduction, Randy Hobler écrit en septembre 1998: «Comme l'internet n'a pas de frontières nationales, les internautes s'organisent selon d'autres critères propres au médium. En termes de multilinguisme, vous avez des communautés virtuelles, par exemple ce que j'appelle les "nations des langues", tous ces internautes qu'on peut regrouper selon leur langue maternelle quel que soit leur lieu géographique. Ainsi la nation de la langue espagnole inclut non seulement les internautes d'Espagne et d'Amérique latine, mais aussi tous les Hispanophones vivant aux États-Unis, ou encore ceux qui parlent espagnol au Maroc.»