"Les approximations de Google"

Source : Netsources n°74, Mai/Juin 2008

Auteur : Béatrice Foenix-Riou

Lancé en septembre 1998 – bien après des outils comme AltaVista ou Yahoo!, nés en 1994 –, Google a dès le départ pris le contre-pied des moteurs existants ; il a choisi une interface extrêmement épurée quand les autres outils s’étaient transformés en portail et a eu pour ambition première d’offrir la meilleure couverture du Web, quand ses concurrents ciblaient plutôt la multiplication des services. Ses choix ont conquis les internautes et expliquent en partie le succès du moteur.

 

Aujourd’hui, Google fait indéniablement figure de géant du Web et se place dans de nombreux pays en situation de quasi-monopole (il détient ainsi plus de 90% des parts de marché en France !).

 

Fort de la confiance des internautes, il a ces dernières années étendu ses services et s’est largement diversifié.

 

On peut ainsi dresser, sous la forme d’un inventaire à la Prévert, la liste de ses produits qui comprend – outre la recherche sur le Web et pour n’en citer que quelques-uns – un service d’e-mail (GMail), une plate-forme de blogs (Blogger), des agrégateurs de fils RSS (iGoogle et Google Reader), des images satellites de la terre et de l’espace (Google Maps et Google Sky, voir Netsources n°73), un outil permettant de personnaliser son moteur (Google CSE, voir Netsources n°66), une suite bureautique en ligne (Google Documents, voir Netsources n°70), un service de traduction (voir Netsources n°68), sans oublier la recherche sur les blogs (Blogsearch), les actualités (Google News), les images (Google Images), les vidéos (Google Vidéos), les brevets (Google Patents, voir Netsources n°65), les entreprises cotées (Google Finance - voir Netsources n°61), les ouvrages numérisés (Google Books, voir Netsources n°65) ou encore la littérature scientifique (Google Scholar, voir Netsources n°63) !

 

La diversité des domaines couverts est une aubaine pour l’internaute, d’autant que les produits proposés par Google comptent à chaque fois parmi les plus performants de leur secteur.

Dans le même temps, cette diversification fait un peu peur, car la multiplication des services a pour conséquence une “emprise” du moteur de plus en plus forte et une “collection” toujours plus vaste de données sur les internautes...

 

Reste que la stratégie de Google étant de se diversifier à tout va, la recherche sur le Web ne semble plus être sa priorité première.

 

CIBLE PRIORITAIRE DU MOTEUR : L’UTILISATEUR FINAL

Afin d’élargir son audience, la stratégie du moteur de recherche est clairement de privilégier l’utilisateur final en lui permettant d’obtenir, dès la première page de résultats, des données pertinentes.

Pour ce faire, Google a mis en place au fil des ans diverses améliorations pour aider les internautes dans la formulation de leurs requêtes, à l’image du correcteur orthographique qui suggère, lorsqu’un mot est visiblement mal saisi, un très utile choix “Essayez avec cette orthographe”.

Partant du postulat que l’utilisateur final n’est généralement pas conscient que les moteurs effectuent leurs recherches sur les mots tels qu’ils sont strictement saisis, Google a d’autre part ajouté deux fonctionnalités.

Comme peu d’internautes pensent à comparer les résultats en saisissant les mots au singulier et au pluriel, le moteur applique ainsi depuis plusieurs années déjà une “troncature implicite”, et élargit quelquefois ses résultats aux pages contenant le mot au singulier et/ou au pluriel (voir Netsources n°59).

Plus récemment, il a choisi d’élargir encore ce principe en proposant parfois dans les résultats des pages ayant été sélectionnées car elles contiennent des mots “proches” du mot saisi (ayant la même racine), mais aussi des synonymes de celui-ci.

L’objectif de Google est ici d’aider l’utilisateur à “trouver” l’information, en lui offrant dans les premiers résultats des pages issues de sources connues (ayant un bon PageRank), mais ne contenant pas forcément exactement les mots de la requête.

Pour l’utilisateur final, qui ne choisit pas toujours ses mots en toute conscience, ce système est plutôt efficace puisqu’il repère des sources fiables qui auraient pu ne pas apparaître.

Pour le professionnel de l’information en revanche, qui choisit le plus souvent des mots-clés répondant à des critères précis, il y a là une nette détérioration de la qualité de la recherche.

DES CRITERES DE RECHERCHE ON NE PEUT PLUS FLOUS

L’inconvénient majeur du principe de recherche adopté par Google est qu’il est on ne peut plus flou.

Pour ce qui concerne la gestion automatique des formes pluriel et singulier par exemple, nous aurions compris – voire apprécié – la troncature implicite, si celle-ci était appliquée de façon stricte et régulière (par exemple, “tous les mots écrits au singulier sont automatiquement recherchés au pluriel et au singulier”).

Mais tel n’est pas le cas.

Lorsque l’on saisit un mot au singulier, Google limite quelquefois sa sélection aux pages contenant effectivement le mot au singulier (à l’instar des autres moteurs), mais il l’élargit d’autres fois à celles contenant le mot au pluriel.

Il procède de la même façon lorsque le mot est écrit au pluriel. Des précisions sur son mode de recherche sont disponibles dans l’aide en anglais de la version internationale (rien n’est indiqué dans l’aide en français) ; il y est clairement indiqué que* :

 “Google usually returns pages that use all of the words you included in your search. Sometimes, however, we'll consider other words as substitutes if we think that doing so will improve the results we show you.” !

Les professionnels de l’information frémiront sans doute, en découvrant que Google change quelquefois de lui-même les mots de la requête, lorsqu’il estime que les résultats n’en seront que meilleurs !

Il donne d’ailleurs quelques exemples de ces “alternate words” :

- Stemming finds alternate forms of a word, such as singular or plural variations.

 - Synonyms can help someone searching for UC Berkeley law school find pages that mention Boalt law school.

- Abbreviations expand search terms so that rc model airplanes might also find pages about radio control model airplanes.

- Words might be combined or split so that we return pages about organic dog food when you enter organic dogfood.

Le moteur précise néanmoins que l’on peut exiger une recherche stricte sur les mots saisis, en ajoutant un + devant chacun des mots (sans espace entre le + et le mot).

Bref, d’une façon générale, les premiers résultats identifiés par Google sont ceux qu’IL juge les plus pertinents – et ce, selon des critères connus de lui seul ! –, mais pas forcément ceux qui répondent le mieux à la question telle qu’elle a été posée...

Mais il y a plus grave.

Outre cette “ingérance” dans la formulation de la requête – ingérance qui peut toutefois s’avérer utile pour l’utilisateur final –, nous avons remarqué plusieurs incohérences dans le fonctionnement du moteur.

QUAND L’OPERATEUR INTITLE : PREND EN COMPTE LES ACCENTS

D’une façon générale, les moteurs de recherche (Google, Yahoo!, Live.com, Exalead...) sont globalement insensibles aux accents, même si le nombre et le classement des résultats peuvent légèrement varier lorsqu’un mot est saisi sous sa forme accentuée ou non.

Google ne fait pas exception à la règle et, si l’on a pu un temps rencontrer des incohérences lorsque la recherche s’effectuait sur un mot à la fois “rare” et accentué (voir Netsources n°49), on obtient aujourd’hui des résultats similaires, que le mot soit écrit avec ou sans ses accents.

En revanche, les choses sont très différentes lorsque l’on souhaite limiter la requête aux titres des pages, que ce soit en utilisant la grille de recherche avancée ou l’opérateur intitle:.

Dans ce cas en effet, Google prend en compte l’occurrence exacte des mots.

Pour l’illustrer, nous avons comparé les résultats obtenus en recherchant le mot “énergumène” dans le titre ; ce mot présente en effet le double avantage de posséder plusieurs accents et de générer relativement peu de réponses, ce qui permet de vérifier la cohérence de ces dernières. Nous avons pour cela écrit l’opérateur intitle: devant le mot ; le nombre de réponses obtenues était le même en utilisant la grille de recherche avancée.

Les résultats sont sans appel :

- intitle:énergumène : 381 résultats ;

- intitle:energumene : 286 résultats ;

- intitle:energumène : 37 résultats ;

- intitle:énergumene : 3 résultats

- intitle:energuméne : 1 résultat

- intitle:énergumène OR intitle:energumene OR intitle:energumène OR intitle:énergumene OR intitle:energuméne : 778 résultats.

Il ressort de ce test que :

- les pages contiennent majoritairement des mots avec accents dans leur titre, ce qui semble logique eu égard à la syntaxe de la langue française ;

- un nombre non négligeable de pages préfère la forme non accentuée (notamment sur des sites grand public) ... ou les mots en majuscules (et donc sans accents) ;

- pour être exhaustif, il ne faut pas oublier dans sa recherche les mots qui sont accentués, mais dont la première lettre est en majuscule (équivalent à sans accents - energumène), ... ni les mots qui contiennent des erreurs d’accents (énergumene ou energuméne) ;

- la seule façon d’être exhaustif est de combiner les différentes variantes possibles dans une même requête !

On notera ici – en le regrettant – le manque de contrôle qualité chez le moteur préféré des internautes ; manque de contrôle qui perdure, car ce dysfonctionnement n’est pas nouveau : nous l’avions déjà décrit dans nos colonnes** il y a plus de deux ans !

Mais il est vrai que ce “bug” ne touche “que” les professionnels de l’information – seuls ou presque à utiliser les fonctions avancées du moteur – et que ces derniers ne sont pas considérés comme “cible prioritaire” par Google...

QUAND GOOGLE SAIT MIEUX QUE VOUS CE QUI EST PERTINENT...

L’opérateur AND est aujourd’hui utilisé implicitement par défaut par tous les moteurs et il n’est plus nécessaire d’accoler le symbole + devant les termes qui doivent obligatoirement être présents – comme ce fut le cas avec AltaVista –, sauf s’il s’agit de mots “vides” (articles, conjonctions...), que les moteurs ignorent le plus souvent.

Lorsqu’on lance une requête composée de deux mots-clés, on s’attend donc à ce que ces deux mots soient systématiquement présents dans les pages sélectionnées.

Mais tel n’est pas le cas avec Google.

Une recherche lancée par exemple avec les mots “agents intelligents” écrivains (pour savoir notamment si les écrivains ont été inspirés par ce thème) a ainsi obtenu, lors de nos tests, un total de 7 370 résultats.

Pourtant, les premiers extraits ne contenaient que le mot “agents intelligents”.

Et lorsqu’on cliquait sur le lien “En cache” de ces pages, pour localiser les mots-clés qui devaient apparaître en surbrillance, on découvrait que :

- Les termes de recherche suivants ont été mis en valeur : agents intelligents

- Ces termes apparaissent uniquement dans les liens pointant sur cette page : écrivains.

Dans ce cas précis, Google a donc estimé que des pages ne contenant que l’un des deux mots demandés étaient plus pertinentes que d’autres, qui contenaient bien les deux mots.

Cette notion de “pertinence” est d’ailleurs toute relative – il ne s’agit pas ici de remplacement d’un mot par un synonyme –, puisque le premier résultat affiché par Google était la synthèse d’une intervention sur “Le Rôle des Agents Intelligents dans le commerce électronique”, certes passionnante mais hors sujet et datant, qui plus est ... de 1998 !

Or, la requête n’était pas “infondée” puisque, en ajoutant un + devant le mot écrivains pour “forcer” sa présence, Google annoncait que 2 440 résultats répondaient bien à la question... Mais le Roi Google sait mieux que vous ce que vous cherchez...

Heureusement, cette ingérence n’est pas très courante. Elle semble intervenir lorsque le nombre de pages contenant les deux mots est très faible, alors qu’un très grand nombre de pages ne contient qu’un des mots. Dans ce cas, Google semble estimer que votre requête est mal posée et la modifie de lui-même...

Certes, on est en droit de se dire que 2 440 résultats pertinents, ce n’est pas rien, et que cela ne mérite pas que le moteur modifie de lui-même la stratégie.

Mais en fait, ces nombres sont totalement approximatifs et ne correspondent pas à la vérité. Ceci pour plusieurs raisons.

La première est que ces chiffres semblent être calculés de façon aléatoire. A savoir que la même requête réexécutée à quelques minutes d’intervalle ne donnera pas forcément les même résultats, et que la même question posée en changeant l’ordre des mots peut obtenir des réponses très différentes. Lors d’un même test, nous avons ainsi obtenu successivement :

• “agents intelligents” écrivains : 16 400

• écrivains “agents intelligents” : 27 400

•“agents intelligents” +écrivains : 2 440

• +écrivains “agents intelligents” : 1 330

• +“agents intelligents” +écrivains : 100

• +écrivains +“agents intelligents” : 100.

Ces divergences importantes – qui enlèvent toute crédibilité au nombre de réponses indiqué par Google – s’expliquent en partie par des dysfonctionnements des “data centers” du moteur.

Rappellons que Google possède près d’une trentaine de centres serveurs dans le monde, hébergeant chacun une copie de son index, et que les requêtes des internautes sont posées – selon le traffic et de façon transparente pour l’utilisateur – à l’un ou l’autre de ces serveurs.

Or, une fois de plus (voir Netsources n°59), il semble y avoir actuellement des dysfonctionnements sur les différents centres serveurs du moteur ; on peut s’en rendre compte en utilisant l’outil de Webrankinfo (www.webrankinfo.com/outils/google-dance/ google-dance3.php), qui interroge simultanément 18 data centers et affiche les résultats obtenus sur chacun.

Lors d’une recherche effectuée le 7 juillet 2008 avec les mots “agents intelligents” écrivains, on obtenait :

• un message “délai d’attente dépassé” pour sept serveurs (difficile de savoir s’il était du à un problème technique de ces serveurs ou à une non mise à jour de l’outil... ;

• entre 7 140 et 7 410 réponses pour sept serveurs ;

• 16 600 ou 17 600 résultats pour deux serveurs ;

• 27 700 ou 28 500 réponses pour deux serveurs...

 

Bref, l’écart est trop important pour qu’il puisse se justifier par un simple “décalage de mise à jour” entre les centres serveurs... Il s’agit bien ici de dysfonctionnements.

 

Mais ce n’est pas tout. Car outre ces divergences de résultats entre les serveurs interrogés, il existe, pour un serveur donné, des différences importantes entre le nombre de résultats qu’il “prétend” proposer et celui qu’il propose effectivement...

 

QUAND GOOGLE JOUE AU POKER MENTEUR...

 

D’une façon presque systématique en effet, le nombre total de résultats réellement identifiés par Google est très largement inférieur à celui qu’il annonce, même si le moteur prend soin de faire précéder ce nombre de la mention “résultats 1-10 sur un total d’environ ...”.

Il suffit pour s’en convaincre de s’armer de patience et de visualiser les résultats en cliquant chaque fois sur l’onglet Suivant.

Pour ce genre d’exercice, on conseillera de ne pas se contenter des dix résultats par page offerts par défaut, mais de paramétrer l’affichage de cent résultats par page depuis le lien Préférences, situé à droite de la zone de saisie. Et l’on peut alors jouer au “poker menteur” avec Google et gagner à (presque) tous les coups.

Nous avons utilisé pour notre test des questions générant relativement peu de résultats (quelques milliers), afin de pouvoir vérifier la véracité du nombre indiqué par le moteur.

A la requête intitle:“agents intelligents” par exemple, Google annonce “environ 1 140 pages” et affiche les cent premières sur la page 1.

La page 2 liste logiquement les résultats 101 à 200. Mais dès la page 3, Google est pris en “flagrant délit” de mensonge ; il se ravise en effet dans son estimation et ne propose que les résultats 201 à ... 275.

Il annonce toutefois dans le bas de la page qu’il s’est volontairement limité aux résultats “les plus pertinents” (soit 24 % du chiffre annoncé initialement), et offre aux internautes la possibilité de cliquer sur un lien pour “relancer la recherche en incluant les pages ignorées”.

Làs, lorsque l’on clique sur ce lien, la liste des résultats – qui contient effectivement un grand nombre de doublons, etc. –, ne permet d’identifier que 359 pages...

Cette différence considérable entre le nombre de résultats initialement estimé par Google et celui effectivement offert s’est retrouvée dans chacun de nos tests, le nombre de pages “réelles” variant entre 8,5 et 31,5 % du nombre promis.

QUELLES SONT LES RAISONS DE CETTE APPROXIMATION ?

La principale est liée à la contrainte que se fixe Google (et la plupart des autres moteurs) d’afficher des résultats dans un temps extrêmement court, de l’ordre de quelques centièmes de seconde.

Eu égard à la taille de son index – 24 milliards de pages en septembre 2005, date de sa dernière communication sur le sujet, voir Netsources n°57 –, il semble impossible que le moteur puisse interroger réellement l’ensemble de ses pages et afficher presque instantanément celles qui contiennent les mots de la requête.

Il est probable au contraire qu’il applique une série de filtres – connus de lui seul – et qu’il n’interroge qu’une partie de son index. Le nombre total de résultats serait alors une “projection” fonction du nombre de résultats effectivement trouvés et de la “surface” de son index interrogée.

Toute la question est bien sûr de savoir quels sont les filtres appliqués par Google et comment il les applique. Il est sur le sujet on ne peut plus discret... On peut toutefois supposer que les quantités d’information qu’il amasse sur les habitudes et les attentes des internautes entrent en compte dans l’établissement de ces filtres.

QUID DES AUTRES MOTEURS ?

Il ne faudrait pas pour autant jeter la pierre uniquement à Google, car la plupart des autres moteurs procèdent de même.

Nous avons ainsi comparé sur quatre moteurs – Google, Yahoo!, Live.com et Exalead – le nombre de résultats annoncés pour différentes requêtes et le nombre de résultats que nous avons pu réellement afficher, après avoir éventuellement relancé la requête, quand cela était proposé (sur Google et Exalead notamment).

Ces comparaisons nous apprennent que :

- d’une façon générale, il ne faut absolument pas se fier aux premières estimations des moteurs, qui sont très en deça des résultats réels (exception faite d’Exalead) ;

- les premières estimations de Yahoo!, quelquefois supérieures à celles de Google, sont très largement exagérées (moyenne sur 4 questions : 7,5 % du nombre promis, contre 18,9 % pour Google et 34 % pour Live.com) ;

- bizarrement, le “comportement” d’Exalead est différent de celui des autres moteurs et le nombre de résultats estimé correspond au nombre de résultats réel, une fois que l’on a relancé la recherche en incluant les résultats ignorés ; comme les autres moteurs, Exalead limite l’affichage à 1 000 résultats maximum.

Interrogé sur ce point, François Bourdoncle, Président d’Exalead, nous a confirmé que lorsque le nombre de résultats était relativement peu important, la recherche se faisait sur la totalité de l’index du moteur – ce dernier est, il est vrai, plus restreint que celui des autres moteurs, puisqu’il compte 8 milliards de pages, contre plus de 20 milliards pour Google, Yahoo! et Live.

Il est donc intéressant de voir que l’on obtient pour des questions rares – celles justement pour lesquelles il est important d’avoir un maximum de résultats – davantage de réponses sur Exalead que sur Google !

Un point qui intéressera sûrement les professionnels de l’information, beaucoup plus appliqués dans le dépouillement des résultats que les utilisateurs finaux, qui se contentent généralement d’une ou deux pages de réponses (avec 10 résultats par pages...).

Comme on a pu le voir au fil de cet article, le géant Google – qui est en passe de devenir pour beaucoup synonyme de “recherche sur Internet”, voire d’“Internet” – possède des pieds d’argile... Si sa performance et sa pertinence ne peuvent être remises en cause, il est important néanmoins de prendre conscience de ses points faibles ... et d’agir en conséquence !

* Bizarrement, le contenu de l’aide a été modifié au cours de la rédaction de cet article; il reprend aujourd’hui sa version initiale (voir Netsources n°59), certes explicite mais moins précise que la précédente, qui indique : “Word variations (stemming) : Google nowuses stemming technology. Thus, when appropriate, it will search not only for your search terms, but also for words that are similar to some or all of those terms. If you search for pet lemur dietary needs, Google will also search for pet lemur diet needs, and other related variations of your terms. Any variants of your terms that were searched for will be highlighted in the snippet of text accompanying each result.”

** Intitulé “Peut-on se fier à Google ? Enquête sur des résultats étranges”, l’article est paru dans le numéro 59 de Netsources (novembre-décembre 2005) et est en accès libre sur notre site www.bases-publications.com.

Vous voyez une version text de ce site.

Pour voir la vrai version complète, merci d'installer Adobe Flash Player et assurez-vous que JavaScript est activé sur votre navigateur.

Besoin d'aide ? vérifier la conditions requises.

Installer Flash Player