Google : Les Documents Fuités Révèlent Comment la Recherche Contrôle Internet

La recherche Google est souvent considérée comme la porte d’entrée d’internet, le point de départ pour la plupart des gens en quête d’informations en ligne. Cependant, Google parle peu de la manière dont il organise l’internet, faisant de la Recherche un énorme boîtier noir qui dicte ce que nous savons et ce que nous ignorons. Cette semaine, une fuite de 2 500 pages, rapportée pour la première fois par le vétéran du référencement (SEO) Rand Fishkin, a offert au monde un aperçu du mystère vieux de 26 ans de la Recherche Google.

« Je pense que la plus grande conclusion est que ce que disent les représentants publics de Google et ce que fait le moteur de recherche Google sont deux choses différentes », a déclaré Fishkin dans un courriel à Gizmodo.

Ces documents offrent une vue plus détaillée de la manière dont la Recherche Google contrôle les informations que nous consommons. Amener la bonne page web sur votre ordinateur n’est pas une tâche passive, car des milliers de décisions éditoriales sont prises en votre nom par un groupe secret de Googlers. Pour le secteur du SEO, une industrie qui vit et meurt par les algorithmes de Google, ces documents fuités sont un séisme. C’est comme si les arbitres de la NFL réécrivaient les règles du football à mi-saison, et que vous ne le découvriez qu’en jouant le Super Bowl.

Plusieurs experts en SEO ont déclaré à Gizmodo que la fuite liste 14 000 fonctionnalités de classement qui, au minimum, fournissent une esquisse de la manière dont Google organise tout sur le web. Certains de ces facteurs incluent la détermination par Google de l’autorité d’un site web sur un sujet donné, la taille du site web, ou le nombre de clics qu’une page reçoit. Google a précédemment nié utiliser certaines de ces fonctionnalités de classement dans la Recherche, mais la société a confirmé que ces documents sont réels, bien que, selon elle, imparfaits.

« Nous mettons en garde contre le fait de tirer des conclusions inexactes sur la Recherche à partir d’informations sorties de leur contexte, obsolètes ou incomplètes », a déclaré un porte-parole de Google dans un courriel à Gizmodo. « Nous avons partagé des informations détaillées sur le fonctionnement de la Recherche et sur les types de facteurs que nos systèmes prennent en compte, tout en travaillant pour protéger l’intégrité de nos résultats contre les manipulations. »

En ce qui concerne la « mise en garde » de Google, la société ne confirme pas ce qui est correct ou incorrect dans ces documents. Google dit qu’il est incorrect de supposer que ces informations sont complètes sur la Recherche, et informe Gizmodo que révéler trop d’informations pourrait permettre aux acteurs malveillants d’en abuser. En fin de compte, nous ne savons pas ce qui détermine ces facteurs, ni quelle importance la Recherche Google accorde à chacun d’eux, si tant est qu’elle en accorde.

« Nous examinons simplement les différentes variables qu’ils considèrent », a déclaré Mike King, un expert en SEO qui a été l’un des premiers à analyser la fuite, dans une interview avec Gizmodo. « C’est la granularité avec laquelle [Google] examine les sites web. »

Cette fuite a d’abord été remarquée par Erfan Azimi, un praticien du SEO qui a trouvé la documentation API publiquement sur GitHub. On ne sait pas si ces documents ont vraiment été « fuités » ou publiés par Google dans un coin tranquille du web, peut-être par accident. Azimi a cherché à rendre ces documents publics en les apportant à Fishkin la semaine dernière, qui a demandé à King de l’aider à les comprendre.

King note qu’une fonctionnalité de classement « homepagePagerankNs » suggère que la notoriété de la page d’accueil d’un site pourrait soutenir tout ce qu’il publie. Fishkin écrit que la fuite fait référence à un système appelé NavBoost—d’abord mentionné par le vice-président de la Recherche de Google, Pandu Nayak, dans son témoignage au ministère de la Justice—qui mesurerait les clics pour améliorer les classements sur Google Search. Beaucoup dans l’industrie du SEO prennent ces documents comme une confirmation de ce que l’industrie soupçonne depuis longtemps : un site web jugé populaire par Google peut recevoir un classement de recherche plus élevé pour une requête même si un site moins connu peut avoir de meilleures informations.

Ces derniers mois, plusieurs petits éditeurs ont vu leur trafic de recherche Google disparaître. Lorsque Nilay Patel de The Verge a interrogé le PDG de Google, Sundar Pichai, à ce sujet la semaine dernière, Pichai a déclaré qu’il n’était pas certain « si c’est une tendance uniforme. » Une fonctionnalité de classement que King souligne semble catégoriser ces petits sites de manière uniforme.

« Ils ont une fonctionnalité appelée ‘smallPersonalSite’, et bien sûr nous ne savons pas comment elle est utilisée, mais c’est une indication que [Google] cherche à comprendre si ce sont de petits sites, » a déclaré King. « Étant donné que tant de ces petits sites sont écrasés en ce moment, cela montre simplement que [Google] ne fait rien pour compenser ce que ces grands signaux de marque sont. »