Combattre le spamdexing avec le TrustRank.
Le TrustRank (indice de confiance) est rapidement devenu un sujet à la mode lorsque
la communauté des spécialistes de Google et des webmasters s'est aperçue que
Google venait de déposer cette marque en mars 2005. Le vocable avait été
introduit une année plus tôt par un article publié à Standford exposant une
méthode pour combattre le spamdexing. Certains se sont alors avancés à
prédire la mort prochaine du PageRank. En fait cette vision est excessive
puisque TrustRank et PageRank apparaissent largement complémentaires.
Nous proposons une traduction française de l'article ainsi qu'un digest des
principes du TrustRank. Chacun pourra ainsi se faire une idée d'une
future inflexion des algorithmes de classement chez Google pour le cas
probable où le TrustRank venait à être exploité.
Cette page présente des notes et analyses du traducteur de l'article. Suivez ce lien si vous souhaitez aller directement à la traduction de l'article de présentation du Trustrank.
Auteurs et traducteur
Publié en mars 2004 par Zoltan Gyöngyi (Stanford University), Hector Garcia-Molina (Stanford
University) et Jan Pedersen (Yahoo! Inc.), disponible dans sa
version
originale sur le site web de l'Université de
Stanford.
Traduit en français par Xavier Boully en juillet 2005.
Prérequis technique
L'article expose, dans le cadre de descriptions d'algorithmes, des formulations mathématiques ne pouvant être facilement présentées par les technologies web classiques (HTML, CSS). Nous avons décidé de présenter ces formules avec MathML. Pour bénéficier du contenu complet et d'une présentation agréable il est donc nécessaire de disposer d'un navigateur compatible avec MathML. Les navigateurs construits autour du moteur de rendu Gecko (Firefox, Mozilla, Camino, Galeon...) sont nativement compatibles MathML. Si vous utilisez IE6, il existe un plugin MathML pour ce navigateur. Pour des versions plus anciennes de IE (IE5+) il existe un autre plugin (non testé). A notre connaissance il n'existe pas de support de MathML pour Opera et Safari. Nous n'avons pas d'éléments relativement aux autres navigateurs. Pour information, si votre navigateur ne supporte MathML, sachez que Firefox (disponible sur Linux, Mac OS X, Windows) peut cohabiter avec un autre navigateur, ainsi une installation parallèle de Firefox au coté de votre navigateur usuel pourra satisfaire le besoin.
Résumé de l'article
Le spamdexing fait appel à différentes techniques pour obtenir une amélioration artificielle du positionnement de pages web dans les résultats des moteurs de recherche. Bien que l'intelligence humaine ait la possibilité d'identifier le spam, l'évaluation manuelle qui en résulterait est trop coûteuse pour être appliquée à un grand nombre de pages. Nous proposons donc des techniques semi-automatiques visant à séparer les pages légitimes du spam. Nous sélectionnons d'abord un petit ensemble de pages sources pour être évaluées par un expert. Une fois établie la qualification manuelle des pages de l'échantillon source, nous utilisons la structure de liens du web pour déterminer quelles sont les autres pages ayant de bonnes changes d'être elles aussi légitimes. Au court de cet article nous verrons des moyens d'obtenir la sélection de pages sources, puis de remonter vers les pages légitimes. Nous présentons les résultats d'expériences conduites sur l'index web d'AltaVista, et évaluons la pertinence de ces techniques. Nos résultats montrent que nous pouvons efficacement filtrer le spam d'une fraction significative du web, en nous basant sur une sélection de pages sources rigoureuses de moins de 200 sites.
Hypothèses fondatrices du TrustRank
Contrairement à ce que l'usage abondant de formulations mathématiques
pourrait laisser penser au premier abord, cet article ne se positionne pas
sur le développement d'une théorie particulièrement rigoureuse. Il laisse à
l'écart les raisonnements mathématiques (probabilités) ainsi que les outils
qui en dérivent (statistiques, datamining), il ne s'apparente donc pas à une
recherche fondamentale.
Même si sa lecture pourrait finalement laisser une certaine impression de
bricolage, force est de constater que les auteurs ont su tirer partie d'un
solide bon sens et d'un art consommé pour l'expérimentation.
Cette orientation a également le mérite de simplifier l'extraction et la synthèse des idées maîtresses de l'article. Voici donc la liste des 10 postulats de bon sens nettoyées des considérations calculatoires sur lesquels les auteurs s'appuient pour produire leurs résultats :
- Une définition large du spamdexing présenté comme un ensemble de procédés visant à obtenir une amélioration artificielle du positionnement de pages web dans les résultats des moteurs de recherche.
- Le PageRank exprime le fait qu'une page web disposera d'une bonne notoriété dès que d'autres pages web de bonne notoriété pointeront vers elle.
- Indépendamment de toutes relations entre pages web, le PageRank comprend également une composante statique [faible mais non nulle, constituant le PageRank d'une page ne recevant aucun lien] qui peut être constante (identique sur toutes les pages) ou variable en fonction de critères extérieurs au PageRank.
- Principe d'isolation : les bonnes pages ne présentent que très rarement des liens pointant vers des pages faisant usage de techniques relevant du spamdexing.
- Aucune hypothèse ne peut être faite en revanche en ce qui concerne les liens de mauvaises pages vers les bonnes pages.
- La possession d'un ensemble de pages certifiées (confiance en la qualité de ces pages suite à un examen manuel) autorise, si l'on adhère au principe d'isolation, à qualifier un ensemble de pages plus vaste par la propagation de cette confiance le long des liens entre pages.
- Dans la réalité, le principe d'isolation n'est pas strictement respecté même s'il reste globalement valide. Dans ce contexte, plus le nombre d'étape de propagation est élevé, plus la probabilité de faire confiance à une mauvaise page augmente. Pour tenir compte de ce facteur, il est raisonnable de limiter la propagation de la confiance d'une page à l'autre par un amortissement dont l'effet se fait d'autant plus sentir que le nombre d'étapes est important.
- Un principe secondaire permet une approche du degré d'imperfection du principe d'isolation : la qualité des liens (faculté de véhiculer la confiance, et donc de ne pas pointer vers une mauvaise page) présents sur une bonne page est d'autant meilleure que la bonne page contient peu de liens.
- Ce principe secondaire permet de raffiner la propagation de la confiance par la méthode dite du fractionnement : le capital de confiance d'une bonne page est divisé entre toutes les pages cibles de la bonne page. En d'autre terme, la confiance transmise par une page est d'autant plus faible qu'elle porte un grand nombre de liens.
- L'objectif est d'avoir une information fiable sur le plus grand nombre de pages à partir d'un échantillon de départ aussi petit que possible. L'échantillon de départ sera donc constitué à partir d'une sélection de pages touchant le plus grand nombre de pages avec le minimum d'étapes (algorithme du PageRank inversé). Un second filtre sera appliqué sur cette base pour ne conserver que les sites dont le contrôle est assumé par une autorité clairement identifiable (gouvernement, institution, entreprise). Il s'agit de garantir la pérennité de l'évaluation manuelle. Enfin sont éliminés les sites dont l'activité est susceptible de conduire à la pose de liens automatiques.
Discussion autour des postulats
(postulat 1) Les résultats de l'étude présentés comme positifs peuvent-ils réellement conclure au traitement du spamdexing, compte tenu de la définition qui en est donné ?
La définition du spamdexing est clairement relative au positionnement dans les résultats fournis par les moteurs de recherche. Pourtant l'article ne produit aucune conclusion quand à l'impact du TrustRank sur le positionnement. Il se cantonne à un comparatif TrustRank-PageRank sans fournir aucun chiffre concernant le positionnement. Du coup l'étude traite elle vraiment du spamdexing au sens de la définition qui en est donnée ?
Bien entendu les algorithmes des moteurs de recherche ne sont pas publiques, ce qui limite considérablement les possibilités d'analyse. D'autre part le passage du PageRank au positionnement dépend d'algorithmes variables d'un moteur à l'autre (certains moteurs n'ayant même probablement pas de notion de PageRank), ce qui ne simplifie pas la tâche. Il en résulte que le PageRank n'est qu'une information très partielle pour comprendre le positionnement d'une page face à une requête d'internaute. En conséquence l'étude conduite ne permet pas de conclure à l'efficacité quantitative de la méthode vis à vis de l'objectif que nous rappelons ici : dégradation du positionnement des pages exploitant des techniques de spamdexing dans les résultats de recherche. Tout au plus peut-on espérer une efficacité qualitative du TrustRank, à savoir une baisse globale du positionnement du spamdexing. Mais de quelle ampleur ? et dans le détail, quelle serait la dispersion du déclassement en fonction des pages et des requêtes ?
Pour aller plus loin, on peut diviser le spamdexing en deux sous-ensembles :
- des procédés visant à accroître artificiellement le PageRank d'une page web,
- des procédés visant à augmenter pour une page web la sensibilité d'un moteur au regard d'une requête précise d'internaute.
Pour le premier sous-ensemble, la comparaison TrustRank-PageRank constitue une bonne base, mais seule la connaissance du PageRank de la page utilisant le spamdexing sans le spamdexing permettrait de savoir si l'objectif est atteint. Malheureusement, ce facteur essentiel n'est jamais introduit dans l'étude.
Pour le second ensemble, le principe du TrustRank consiste à compenser l'excès de sensibilité à certains mots clefs par une baisse de la notoriété au sens PageRank. Pourtant les deux mondes sont basés sur des notions et des algorithmes tellement indépendants que la compensation de l'un par l'autre n'a aucune chance de présenter la moindre régularité. Seule l'étude du positionnement peut qualifier le déclassement et sa dispersion.
Les spammers emploient dans leur majorité les deux champs d'action en même temps, et finalement seul un moteur de recherche peut réellement parvenir à conduire de bout en bout une étude d'impact et d'amélioration du TrustRank.
(postulat 4) Le principe d'isolation met il vraiment le spamdexing au cœur du TrustRank ?
Nous venons de voir avec le point précédent que l'article ne pouvait pas réellement conclure à une efficacité du TrustRank face au spamdexing faute de chiffres et d'analyse. Nous ajoutons maintenant que le TrustRank est moins fait pour lutter contre le spamdexing que pour classer les contenus sur une nouvelle échelle de valeur.
Le TrustRank, comme le PageRank d'ailleurs, s'appuie sur la perspicacité des responsables éditoriaux de sites web pour juger de la valeur des contenus du web. Pour le PageRank, un webmaster qui porte intérêt à un contenu (un lien en témoigne) lui confère de la notoriété. La différence entre TrustRank et PageRank réside dans le fait que pour le TrustRank, la responsabilité du jugement repose plus particulièrement sur un petit ensemble de responsables de sites triés sur le volet. Du coup le jugement se fait plus "qualitativement" pour le TrustRank alors qu'il restait "quantitatif" pour le PageRank. Les deux peuvent se rejoindre : lorsqu'un contenu est bon il reçoit généralement beaucoup de liens. Mais l'inverse n'est pas vrai, et le spam ruine ainsi la pertinence du PageRank lorsqu'il s'introduit en brisant l'équivalence quantité-qualité qui en était le principe fondateur. Le PageRank donnait une voix égale à toutes les pages, donc considérait les webmasters sur un plan d'égalité qu'ils soient spammer ou non. Le TrustRank modifie cet état de fait puisque le vote de certains webmasters aura plus de poids.
Certains pourront objecter que finalement améliorer la qualification des pages sur la qualité des contenus revient à déclasser le spamdexing du fait de l'existence d'une corrélation. En fait non, et pour 3 raisons :
- même si les responsables de contenus pauvres ont plus tendance (par nécessité) à utiliser le spamdexing pour placer leurs pages, la corrélation reste très flou. Une bonne corrélation peut s'établir entre la présence de spamdexing et l'existence d'intérêts immédiatement commerciaux et financiers, mais intérêt commercial ne rime pas systématiquement avec pauvreté du contenu (heureusement).
- le jugement que l'on peut se faire de la qualité d'un contenu dépend justement du contenu et non pas de caractéristiques techniques de réalisation des pages exposant ces contenus.
- le spamdexing c'est aussi pour une bonne partie l'amélioration de la sensibilité des pages aux requêtes jugées importantes par les spammers. Cette notion est totalement indépendante de la qualité des contenus et se factorise même très bien à un éventuel travail sur la qualité.
Détecter le spamdexing est souvent fastidieux voire difficile selon les techniques. C'est un travail de spécialiste. Clairement, les webmasters font des liens en regardant l'intérêt d'un contenu, et pas en scrutant les éventuelles techniques de spamdexing. Le spamdexing est parfois utilisé pour mettre en avant des contenus complètement creux dans le but de générer des revenus publicitaires ou d'affiliation. Dans ce cas le TrustRank va effectivement contribuer à écarter ces contenus (le principe d'isolation s'applique). En revanche il est monnaie courante de voire un éditeur de contenu digne d'intérêt utiliser des techniques de spamdexing pour placer son contenu en tête d'affiche. Le fait d'avoir des informations pertinentes à mettre en ligne n'est pas contradictoire avec la volonté d'être lu, au contraire. Un webmaster intéressé par un tel contenu ne s'empêchera pas de faire un lien sur ce type de page car il ne détectera pas la présence d'une technique de triche. Un tel contenu restera favorisé par rapport à un contenu équivalent ne faisant pas appel au spamdexing.
Conclusion :
Ceux qui imaginaient le TrustRank comme un outil à chasser le spam, à savoir le
moyen de revenir au classement issu du PageRank sans l'existence du
spamdexing, seront déçus. D'ailleurs s'en tenir au PageRank peut-il être
réellement un objectif en soi ?
Il n'y a pas d'échelle absolue pour classer
les algorithmes définissant la notoriété d'une page web, et personne n'est
vraiment choqué de constater des différences significatives entre les
classements de deux moteurs concurrents. Pourtant les webmasters deviennent
souvent sensibles, pour ne pas dire irritables, lorsqu'un moteur modifie ses
algorithmes car des mois d'effort peuvent se réduire à rien en un instant.
Il faudra bien se résoudre à cette éventualité avec le TrustRank. Le
TrustRank est une évolution importance du PageRank qui met l'accent sur la
"qualité des contenus" (les guillemets indiquent la subjectivité de la
notion). C'est un nouveau classement de la notoriété des pages web. Les
webmasters chargés de référencement peuvent s'y intéresser dès maintenant car
les grandes lignes en sont connus et les actions à conduire pour obtenir un bon
positionnement sont parfaitement compatibles avec le PageRank.
Par ailleurs le TrustRank n'étant pas particulièrement outillé pour lutter
contre le spamdexing, il est fort possible de voir se dernier se développer
de la façon suivante :
- emploi plus intensif de la technique dite du pot de miel, avec en corollaire l'accroissement du pillage des contenus de valeur
- maintien des techniques visant à accroître la sensibilité des pages par rapport aux mots clefs importants
(postulats 8 et 10) : du dosage de deux paramètres jouant en sens opposés
Pour cibler l'objectif, le postulat 10 propose de choisir un échantillon
de départ contenant des pages permettant de rallier le maximum de pages du
web en un minimum d'étapes (c'est le choix retenu par les auteurs de
l'articles pour présenter leurs résultats). Cela signifie sélectionner des
pages contenant un grand nombre de liens ou proches (au sens du nombre
d'étapes) de pages pourvues de nombreux liens.
Cependant le postulat 8 indique qu'une page est d'autant plus qualifiée pour
déterminer la qualité d'une page vers laquelle elle pointe qu'elle contient
peu de liens. En d'autres termes choisir des pages contenant peu de liens
augmente la pertinence du principe de propagation de la confiance, et rend
donc acceptable un plus grand nombre d'étapes de propagation.
Il en résulte 2 raisonnements empiriques opposés :
- choix de pages pourvues de nombreux lien pour atteindre de nombreuses pages en peu d'étapes
- choix de pages pourvues de peu de liens induisant une qualité supérieure vis à vis de la propagation et autorisant plus d'étapes de propagation pour atteindre plus de page.
Finalement bien malin celui qui pourra dire sur la seule foi de l'intuition, quelle est la meilleure stratégie. Le sujet mériterait bien quelques expérimentations complémentaires.
Approches mathématiques
Nous avons indiqué plus haut le bien que nous pensions de l'article relativement à son pragmatisme et à ses déductions faisant la part belle au bon sens et à l'expérimentation. Voici maintenant un chapitre pour regretter un évidant manque d'esprit mathématique. Nous sommes convaincus qu'un effort sur le formalisme et l'emploi d'outils rigoureux pourraient constituer un apport significatif pour :
- imaginer de nouvelles voies de recherche,
- se forger une idée de la représentativité des résultats publiés alors qu'ils sont fondés en définitive sur de très courts échantillons
Les auteurs semblaient en bonne direction cherchant à définir la confiance idéale et la confiance ordonnée à partir d'une distribution probabiliste sans pour autant aboutir. D'une part l'introduction d'une probabilité n'est suivie d'aucun effet puisque la suite du document emprunte la voie d'autres définitions parfaitement calculatoires et difficilement exploitables sur le plan mathématique. D'autre part la définition proposée n'a malheureusement aucune légitimité mathématique (pas d'univers probabilisable, absence d'expérience aléatoire et de règles ou hypothèses permettant d'en valoriser les résultats).
Pourtant le problème posé est bien dans la lignée des problématiques de probabilités conditionnelles, à savoir comme se déforme la connaissance (densités de probabilités) que l'on a d'un univers sachant certains paramètres (en l'occurrence, qualité des pages d'un échantillon, présence de liens entre pages ...).
Il y existe également d'autres façons d'envisager les choses. Par exemple le graphe web et la confiance (TrustRank) peut être vu comme un réseau de neurone. Sans doute est-il possible d'employer des techniques relatives aux réseaux de neurones pour "calculer et améliorer" la propagation de la confiance.
Dans un autre domaine, le clustering permet de définir des catégories dans un ensemble. Il semblerait intéressant d'étudier là aussi la déformation des clusters en fonction de la connaissance d'informations sur un échantillon. Certaines méthodes de clustering seraient probablement à même d'isoler par elle même certains types de spam, alors que d'autres pourraient certainement déterminer les catégories les plus sensibles à l'apport de l'évaluation manuelle d'un échantillon.
Le TrustRank dans la classement actuel de Google (juillet 2005)
Google a récemment introduit des modifications dans son algorithme. Cette évolution porte pour les spécialistes le doux nom de Bourbon. L'effet Bourbon a commencé à se faire sentir en mai 2005. Des fluctuations notables ont été constatées sur le positionnement de nombreux sites avant une stabilisation courant juillet 2005.
La question que chacun peut se poser : Bourbon intègre-t-il une dose de TrustRank ?
Nous n'avons pas de réponse évidente à cette question mais nous avons fait quelques constats. Nous suivons particulièrement la population des sites d'agences web et autre agences de communication. Cette population a les caractéristiques suivantes :
- PageRank moyen souvent compris entre 4 et 6 pour les sites bien positionnés
- contenus originaux (pas de contenus volés ou à caractère majoritairement publicitaire) sans toutefois présenter une originalité et un intérêt permettant un positionnement facile
- le positionnement du site revêt souvent une importance pour le webmaster d'où une attitude proactive pour son amélioration
- le positionnement est même parfois une partie du fond de commerce de l'entreprise, et l'effort peut également porter sur d'autres sites proches (site de clients)
- au final le spamdexing est très largement utilisé sous de nombreuses formes
Le spamdexing conduit parfois au blacklistage de sites de la population. Nous avons observé un échantillon (très limité) de sites blacklistés auparavant bien positionnés qui sont sortis de la partie visible du classement (premières pages des résultats). Sur notre échantillon, nous avons constaté 3 étapes :
- suite au blacklistage : sortie de l'index
- peu avant Bourbon : dans l'index, mais PageRank inexistant
- après Bourbon : dans l'index, pourvu d'un PageRank faible, mais toujours hors de la partie visible du classement
Notons que ce constat est fait sur des sites ne semblant pas affectés par des modifications significatives de l'ensemble des backlinks (vérification faite sur d'autres moteurs que Google).
Par ailleurs la population non blacklistée n'a pas subie de modifications profondes de son classement sur quelques requêtes types. Les sites de clients des sites blacklistés ne semblent pas globalement avoir évoluer non plus.
Conclusion :
Certains éléments sont cohérents avec la philosophie TrustRank. En
particulier le fait que le bannissement ne correspond plus à une exclusion
pure et simple mais plutôt à un déclassement, c'est à dire une notoriété
inférieure au PageRank initial. En revanche Bourbon n'a pas particulièrement
touché les sites non blacklistés et en particulier ceux utilisant massivement
le spamdexing. Pourtant d'après les résultats de l'article auquel nous nous
intéressons des sites de PageRank 5 et 6 pourrait cependant commencer à être
touchés. D'un autre coté les sites de notre population ne présentent pas
réellement la typologie idéale pour satisfaire au principe d'isolation qui
caractérise plutôt des contenus vraiment pauvres. Il est donc difficile de
trancher entre une mise en place partielle de la notion de TrustRank ou une
mise en place plus complète mais ne touchant pas finalement la population
observée.
A la lecture des forums spécialisés on s'aperçoit que beaucoup de sites très
secoués pendant Bourbon ont fini par retrouver leur place d'avant Bourbon.
Nous faisons donc plutôt l'hypothèse empirique d'une mise en place timide et
partielle du TrustRank sur le plan des principes, mais plus profonde sur le
plan technique. Google pourrait avoir revu la structure de ses bases, de ses
workflows sur les environnements de production en vue d'accueillir dans le
futur des données supplémentaires et le TrustRank. Ces mises à jour
techniques auraient induit les perturbations observées sans aboutir
aujourd'hui à un changement du classement. Dans ce cas le meilleur reste à
venir...

