Accès aux connaissances :
des progrès immenses !

Mise à jour : 17/06/2005

Ce court texte fait le point sur l'extraordinaire puissance de recherche des nouveaux logiciels, notamment l'américain Google et le français TLFI

Problématique de l'accès aux connaissances

Pour le progrès de l'humanité, les créations de l'esprit ne sont que la première étape : il faut ensuite qu'elles se diffusent. Qu'il s'agisse d'une découverte scientifique, d'une œuvre littéraire ou d'une création audiovisuelle, elle n'est valorisée que lorsque des personnes autres que l'auteur en prennent connaissance. Et plus il y a de gens qui y ont accès, plus elle vaut.

 

Notre société moderne profite beaucoup plus des découvertes et des œuvres d'art que toutes celles qui l'ont précédée, parce que nos moyens de diffuser les œuvres de l'esprit sont plus puissants et bon marché que jamais. Aux journaux, magazines et livres s'ajoutent aujourd'hui les diffusions radio et télévision, et de plus en plus les diffusions par Internet. Nous sommes devenus des consommateurs de divertissements, audiovisuels ou imprimés, et des consommateurs d'informations techniques, commerciales, médicales, économiques, politiques, etc. dans notre vie professionnelle ou citoyenne.

 

Plus une société consomme d'informations, plus elle est avancée - c'est-à-dire cultivée et économiquement compétitive. Elle donne alors à ses chercheurs et ingénieurs l'accès aux découvertes les plus récentes. Elle donne à ses citoyens l'accès aux textes législatifs à jour, et aux rapports officiels qui proposent des solutions aux problèmes économiques ou sociaux du moment. Elle fournit à ses consommateurs les informations sur les produits et services disponibles, et met leurs fournisseurs en concurrence, d'où des prix plus bas : c'est particulièrement spectaculaire avec les ventes par Internet.

 

La consommation des informations ou connaissances dont nous avons besoin de plus en plus a deux limites principales : la recherche des textes pertinents et l'accès instantané à ces textes. Qu'il s'agisse de science, d'économie, de législation ou de catalogues d'articles vendus, les textes imprimés et les textes disponibles pour consultation sur Internet se comptent par centaines de millions, et le premier problème est de retrouver ceux qui sont pertinents pour un besoin donné.

        Il ne suffit pas alors de trouver des titres, car aucun titre ne décrit suffisamment le contenu du texte ou les caractéristiques techniques et commerciales de l'article vendu. Pour savoir si un texte est pertinent ou si un article mérite d'être acheté, il faut pouvoir accéder à suffisamment d'informations : la recherche n'est satisfaisante qu'accompagnée d'un accès immédiat au volume d'informations nécessaire pour juger de la pertinence du texte ou de l'article trouvé.

 

C'est pourquoi la méthode traditionnelle de recherche de livres ou articles exigeant d'aller dans une bibliothèque pour y consulter des textes devient chaque jour moins supportable, du fait du temps perdu. Il faut y demander au bibliothécaire de trouver les ouvrages et de les sortir des rayons, ou parcourir des fiches descriptives. Il faut ensuite s'asseoir à une table pour lire, et se lever pour photocopier les pages intéressantes. Ou emporter et rapporter des publications. Et si on veut en extraire du texte pour incorporer à une étude que l'on rédige, il faut le recopier ou le numériser. Tout cela fait perdre tellement de temps que le nombre de recherches en est limité. Et que faire lorsqu'il s'agit d'un texte disponible dans une bibliothèque située à 5000 km ? Comment même savoir s'il existe, et accéder suffisamment à son contenu pour en apprécier la pertinence ?

 

Il est clair qu'une seule réponse est satisfaisante : c'est que l'ensemble des textes, catalogues de produits, photos, enregistrements sonores et vidéos soit disponible sur Internet. Ils sont ainsi accessibles dans tous les pays, immédiatement. Et si on veut que l'humanité toute entière profite des connaissances ou des œuvres artistiques correspondantes, leur recherche et leur consultation doivent être gratuits pour tout internaute.

 

Il y a alors un problème de droits d'auteur. Chaque pays a une législation qui stipule le nombre d'années après lesquelles un texte est dans le domaine public ; sa diffusion gratuite est alors autorisée. Dans certains pays, par exemple, c'est le cas pour tous les textes de plus de 80 ans. Pour les textes ou œuvres d'art payants, on doit pouvoir les télécharger et payer par carte de crédit. Et pour ceux qui ne sont disponibles que sur papier ou DVD, on doit pouvoir au moins les commander et les payer par Internet.

 

Il y a aussi un enjeu national : pour que la culture française, les opinions politiques et philosophiques françaises, les découvertes et techniques françaises, et les produits commerciaux français aient les mêmes chances que leurs homologues des pays de langue anglaise, il faut qu'ils soient tout aussi présents sur Internet, en anglais comme en français. Nous allons maintenant voir l'urgence d'un effort national dans ce domaine.

Le projet Google Print

La société américaine Google offre un service gratuit de recherche sur Internet permettant de trouver des textes, des photos et des enregistrements sonores et vidéo. Ce service repose sur leurs ordinateurs serveurs de données, dans lesquels ils stockent des mots descriptifs des divers objets (textes, photos, etc.) Les descriptions sont alimentées en permanence par des logiciels qui parcourent automatiquement le réseau Internet et y découvrent les objets disponibles ; les mots descriptifs correspondants sont alors stockés dans des index avec les adresses permettant l'accès Internet. Un internaute peut retrouver les objets correspondant à un ou plusieurs mots donnés en remplissant un formulaire de recherche disponible sur un serveur de recherche Google. Cette recherche gratuite demande en général environ 1 seconde.

Exemple : j'ai voulu retrouver dans quelle pièce de théâtre Victor Hugo avait fait dire à son héroïne « Vous êtes mon lion superbe et généreux ». J'ai tapé cette phrase dans la case "Pages contenant cette expression exacte" du formulaire Google http://www.google.fr/advanced_search?hl=fr et j'ai obtenu 44 réponses en 0,19 seconde. J'ai ainsi appris qu'il s'agissait d'Hernani.

 

La société Google a lancé début 2005 le projet Google Print [1], consistant à mettre à disposition gratis sur Internet, en plus du contenu actuel de ses serveurs, le contenu numérisé :

§           d'environ 30 millions de livres des grandes bibliothèques américaines des universités de Michigan, Harvard et Stanford, de la bibliothèque municipale de New York, et de l'université anglaise d'Oxford ; l'immense majorité de ces livres sont en anglais, mais il y en a aussi en français et dans d'autres langues ;

§           des livres de toutes les bibliothèques et tous les éditeurs qui voudront bien prêter un exemplaire à Google Print pour numérisation.

 

La recherche dans tous ces ouvrages sera gratuite, comme leur numérisation. Les ouvrages sans droit d'auteur seront consultables en totalité par tous les internautes ; les autres seront consultables avec assez de détails à chaque question pour juger de leur pertinence, mais devront être commandés à la société qui les vend, pour livraison sur papier ou par téléchargement.

 

A partir de septembre 2005 et de plus en plus les années suivantes, Google Print permettra donc à tous les internautes de retrouver et de lire gratis des millions d'ouvrages anciens, et de retrouver et acheter des millions d'autres. Toutes les recherches se feront à partir d'une même page, le formulaire de recherche actuel de Google, très simple à utiliser.

 

L'impact culturel de ce projet sera international, et profitera beaucoup plus à la langue anglaise qu'à toute autre. C'est pourquoi il est indispensable, pour que le français ne soit pas marginalisé, que la France lance un projet comparable. L'idéal serait qu'elle s'associe au projet Google Print si c'est possible, pour éviter aux internautes bilingues d'avoir à utiliser une page de recherche spéciale pour les textes français, donc de donner souvent la priorité aux recherches multilingues de Google, qui risquent de laisser de côté de nombreux textes français, ou d'en afficher les références après les 50 premières références anglaises.

 

Le projet Google Print a un frère, Google Scholar, destiné aux chercheurs. Google Scholar permet de chercher des articles scientifiques, historiques, littéraires, etc., et fournit en plus des références de textes non disponibles sur Internet. Il est déjà disponible et sa base de textes s'enrichit sans cesse.

Le projet franco-allemand Quaero

Source : [3].

Le projet de Google a inquiété le président de la Bibliothèque nationale de France, qui a publié le 27/04/2005 l'ouvrage [4] et a plaidé pour que le président Chirac obtienne de l'Union européenne le lancement d'un projet comparable destiné aux langues et cultures européennes. Le président en exercice de l'Union européenne, Jean-Claude Juncker, a accepté le 03/05/2005 de lancer un projet, dont va s'occuper la commissaire chargée de la Société de l'information et des médias, Viviane Reding.

 

De son côté, le président Chirac s'est associé au chancelier Schröder pour lancer le développement d'un logiciel de recherche sur Internet concurrent de Google et baptisé Quaero.

 

Pendant ce temps-là, Google signe des accords avec des éditeurs français et anglais pour numériser puis mettre à disposition certains de leurs ouvrages dans la base de données Google Print…

Les recherches avancées

Les critères de recherche de Google sont simples. En gros, on peut chercher les textes qui contiennent tous les mots , ou l'un au moins des mots d'une liste donnée, ou une phrase comme « Vous êtes mon lion superbe et généreux ». On peut préciser les langues des pages de texte à trouver, leur pays d'origine, leur ancienneté maximum (3 mois, 6 mois, etc.), leur format de présentation (HTML, PDF, DOC, etc.)

 

Mais ces possibilités sont nettement insuffisantes. Si on fournit, par exemple, un synonyme S d'un mot M, et que Google connaît M et pas S, il ne trouvera pas. Les fautes d'orthographe, les pluriels et les temps des verbes aussi peuvent l'empêcher de trouver. Et il est impossible de formuler des questions concernant des domaines de connaissance (comme la mécanique ou l'agriculture) sans fournir les mots de ces domaines à chercher.

 

Plus grave encore, Google ne permet pas de faire des recherches utilisant la structure d'un texte, par exemple pour retrouver les textes dont le titre contient un mot A et aucun paragraphe ne contient un mot B : Google ignore la structure des textes qu'il indexe autant que leur sémantique (qui permet de spécifier que telle partie du texte est relative à de la mécanique et telle autre à l'agriculture). Google ne fait pas non plus la différence entre un nom commun et un nom propre, et ne sait pas si une date indique la naissance de l'auteur ou l'année de rédaction du texte.

 

En fait, le succès de Google et de ses concurrents Yahoo, Microsoft, etc. est basé sur la réponse immédiate à une question à critères simples, réponse qui rend déjà bien des services. Nous allons voir qu'on peut faire des recherches beaucoup plus puissantes, et avec un logiciel commercial français, ce qui est encore mieux.

Solution technique pour la structure et la sémantique des textes

La solution technique actuelle aux problèmes de recherche d'informations textuelles passe par la description, pour chaque texte mis à disposition, de sa structure (titre, sous-titres, paragraphes…) et de la sémantique de tous les morceaux de texte remarquables (auteur, date de rédaction, domaine(s) de connaissance comme la mécanique et l'agriculture, activité(s) professionnelle(s) concernées, montant financier, etc.).

 

La structure du texte est décrite de manière hiérarchique, le texte complet étant subdivisé en parties comme lorsqu'on numérote des paragraphes 1 ; 1.1 ; 1.1.1, etc. Dans chaque partie, il pourra y avoir un titre, un nom d'auteur, une date de rédaction, une référence à un autre texte, ainsi que le corps de texte proprement dit, en plus de l'ensemble des parties de niveau supérieur. Chacune de ces dernières pourra elle aussi contenir un titre, un nom d'auteur, etc. en plus de son corps de texte.

 

Dans chaque partie, quel que soit son niveau, les mots ou suites de mots ayant une signification remarquable seront repérés par des "balises" indiquant cette signification : place dans la structure (titre de niveau 2), domaine d'activité (mécanique), pièce détachée (roue), code (AA17b589), prix (124€), etc.

 

Après indexation du texte, le logiciel de recherche pourra se baser sur la structure et la sémantique des informations en même temps que sur leur valeur. On pourra, par exemple, demander que la date de fabrication de chaque pièce d'un moteur défectueux à trouver soit comprise entre le 14/05/2004 et le 18/05/2004.

 

Pour empêcher les recherches de buter sur des obstacles comme le temps d'un verbe ou un pluriel, on a créé des logiciels qui en tiennent compte parce qu'ils savent qu'un mot donné est un verbe, un substantif ou un adjectif. Pour se protéger contre les fautes d'orthographe dans la rédaction des critères de recherche ou du texte lui-même, on tient compte pour chaque mot de sa prononciation.

 

Cette approche permettant des recherches beaucoup plus puissantes a un coût : il faut préparer chaque texte en vue de son indexation future, en y incorporant les balises de description de la structure et de la sémantique. C'est un travail considérable, qu'on ne fait que pour les textes qui le méritent, comme des textes de loi ou des communications scientifiques. Il existe des logiciels qui automatisent un peu ce travail de préparation, et une convention universelle de représentation des structures de texte à balises, le langage informatique normalisé XML.

Exemple : le Trésor de la Langue Française informatisé

Je rédige beaucoup de textes. J'ai donc besoin d'un dictionnaire assez complet. Le plus complet que je connaisse est le dictionnaire en 16 volumes du français des XIXe et XXe siècle, publié par le CNRS entre 1971 et 1994. C'est le fruit du travail de plus de 100 collaborateurs pendant 30 années. Mais sous sa forme imprimée il est encombrant, lourd à manipuler et cher. Aujourd'hui, le laboratoire du CNRS appelé ATILF (Analyse et Traitement Informatique de la Langue Française) (http://www.atilf.fr) en a sorti une version informatisée sur un CD-ROM pour PC, que j'ai payée 75€ port compris en la commandant sur Internet.

 

Non seulement ce dictionnaire est riche (100 000 mots, 270 000 définitions, 430 000 exemples d'auteur, étymologie et prononciation), mais il permet :

§           Des recherches admettant les orthographes approximatives ou phonétiques ;

§           Des recherches admettant les verbes conjugués, les pluriels ;

§           Des recherches utilisant le type grammatical (substantif, adjectif, adverbe, article, onomatopée, etc.) ;

§           Des recherches utilisant des « domaines techniques » choisis parmi des centaines disponibles, regroupés en catégorises comme « Agriculture, botanique, pêche » qui comprend 17 sous-domaines (apiculture, arboriculture, aviculture, élevage, sériciculture, etc.) ;

§           Des recherches utilisant un type d'emploi comme analogie, abréviation, argot, familier, figuré, etc.;

§           Des recherches utilisant le type d'un objet textuel, comme un exemple, un auteur d'exemple, une date d'exemple, un domaine technique, une définition, une publication, etc.;

§           Des recherches stipulant qu'un mot donné doit être situé à moins de 2, 3, 4 ou un certain nombre de mots d'un second mot donné, pour préciser le contexte.

 

Voici des exemples de recherches possibles :

§           Trouver tous les noms d'arbre, ou tous les noms de singe ;

§           Trouver tous les termes relatifs à la musique ;

§           Trouver toutes les expressions qui contiennent le mot « chien » ;

§           Trouver les éléments d'une armure de chevalier ;

§           Trouver les mots d'origine arabe ;

§           Trouver les termes de marine ayant un rapport avec la manœuvre des voiles…

 

Le dictionnaire TLFI est disponible sur Internet : voir [2].

 

Comme tout outil de professionnel, ce dictionnaire demande quelques heures d'apprentissage, mais par la suite son utilisation est très simple et rapide.

Conclusion

Nous vivons une époque formidable. Pour la première fois, l'humanité est en train de mettre toutes ses œuvres de l'esprit numérisables à la disposition de tous, le plus souvent gratis. Elles seront accessibles avec un simple PC muni d'un modem et une ligne de téléphone. L'art, les nouvelles et la science accessibles à tous, pour que chacun s'enrichisse de la production des meilleurs, soit au courant de tout et puisse utiliser ces informations pour son plaisir, son travail ou sa vie de citoyen. Les progrès dans ces domaines sont enthousiasmants.

 

 

Daniel MARTIN

 

Retour page d'accueil

 

Références

[1]   "Google Library Project" texte téléchargé le 23/04/2005 de http://print.google.com/googleprint/library.html

 

[2]   Dictionnaire TLFI disponible gratis sur Internet, pour consultation ou démonstrations : http://www.tlfi.fr/

 

[3]   Le Figaro économie du 05/05/2005 "Les Européens unissent leurs forces pour créer une bibliothèque virtuelle

 

[4]   "Quand Google défie l'Europe - Plaidoyer pour un sursaut", par Jean-Noël Jeannenay, président de la Bibliothèque nationale de France, éditions Mille et une nuits.

 

Retour page d'accueil