Journal d'investigation en ligne et d'information‑hacking
par bluetouff

Google, la presse, la crémière et le cul de la crémière

Reflets est un média que l'on pourrait qualifier d'irrévérencieux, cet article ne va pas arranger les choses, mais il fallait pas nous chercher. Ne vous attendez donc pas à lire dans les lignes qui suivent une éloge de la presse ou de Google. Si vous êtes partisan de faire passer Google à la caisse pour indexer les titres d'articles dont une bonne partie sont ceux issus d'un travail intellectuel de haut vol consistant à remixer les mots employés dans le titre d'une dépêche AFP...

Reflets est un média que l'on pourrait qualifier d'irrévérencieux, cet article ne va pas arranger les choses, mais il fallait pas nous chercher. Ne vous attendez donc pas à lire dans les lignes qui suivent une éloge de la presse ou de Google. Si vous êtes partisan de faire passer Google à la caisse pour indexer les titres d'articles dont une bonne partie sont ceux issus d'un travail intellectuel de haut vol consistant à remixer les mots employés dans le titre d'une dépêche AFP... là en revanche, installez vous confortablement, nous allons vous montrer à quel point la presse se la joue faux-cul sur ce point précis. Tout a donc commencé par l'attentive lecture du billet de Kitetoa concernant l'approche du NouvelObs. C'est effectivement super drôle en soi, mais c'est sans compter sur la créativité de challenge.fr un autre des médias du groupe de presse qui a décidément de la suite dans les idées.

Voici l'exemple type de ce que nous pouvons qualifier de robots.txt parfaitement crétin :

Ces quelques lignes ont de quoi nous faire hurler de rire tellement c'en devient pathétique :

## L'utilisation de robots ou tout autre méthode automatique pour consulter le site challenges.fr/magazine/

## est formellement interdite.

## Les autorisations accordées par l'éditeur sont notifiées dans le présent document (/robots.txt)

## Aucune exploitation commerciale gratuite ou payante des contenus et des marques n'est autorisée sans accord express de l'éditeur. Merci de nous contacter sur reproelectronique-at-nouvelobs.com

Petit rappel : le robots.txt a pour seule et unique fonction de demander aux moteurs de recherche de référencer ou non les contenus spécifiques ou l'ensemble d'un site. Vous vous doutez bien que Google ne passe pas un coup de téléphone à chaque site pour lui demander son autorisation de l'indexer, il a des petits programmes, des robots, qui se chargent de ce travail. Il est donc rarissime, quasiment improbable, qu'un utilisateur consulte ce fichier. Il n'est pas référencé lui même dans les moteurs de recherche et parfaitement inutile au commun des mortels. Encore une fois, ce fichier ne s'adresse pas à des humains, mais à des agents logiciels.

Vous comprenez donc maintenant pourquoi il y a de quoi se plier en quatre quand on découvre ce splendide robots.txt de Challenge, qui explique à des robots ses CGU, et qui en plus leur demande d'envoyer un email à reproelectronique@nouvelobs.com pour demander l'autorisation d'indexer ses contenus. On imagine bien un bot lire avec attention un commentaire (par définition illisible par sa cible). Ça donnerait à peu près ceci :

- "Bonjour je suis RefletsBot, je voudrais indexer vos articles pour les agréger dans les rubriques de mon site qui vont bien et que mes lecteurs puissent accéder à vos contenus de qualité"- "Bonjour RefletsBot, je suis ChallengeRobots.txt, je suis au regret de t'informer qu'après consultation de mon avocat en propriété intellectuelle, je ne suis pas trop assuré que tu en ais vraiment le droit. Je suis désolé tu ne pouvais le voir j'ai laissé ceci en commentaire, donc naturellement tu risquais pas de le lire, mais il est écrit en toutes lettres "Les autorisations accordées par l'éditeur sont notifiées dans le présent document (/robots.txt)", vu que tu n'y figures pas, peut-être devrais tu demander à ton Postfix de nous envoyer un petit email à reproelectronique@nouvelobs.com pour qu'on étudie ton cas."- "Cher ChallengeRobots, je suis d'origine chinoise et je ne suis pas sûr d'avoir les bons dico juridiques pour générer automatiquement un email et demander à mon Postfix de te l'envoyer avec ses petits bras musclés, je te propose donc d'aller te faire cuire un oeuf, j'irais récupérer les remix de titres de l'AFP chez tes concurrents, bisous."

Comble du ridicule, vous vous doutez bien qu'une clause légale du type "Les autorisations accordées par l'éditeur sont notifiées dans le présent document (/robots.txt)" n'a comme valeur juridique que le ridicule qui pourrait provoquer une crise de fou rire à un juge un peu geek. Nous attendons avec impatience le formulaire de contact dans le .htaccess ou le numéro de téléphone dans le /etc/passwd, allez encore un petit effort, c'est pas parce que vous touchez le fond du copyright troll que vous n'avez pas le droit de continuer à creuser.

Une autre perle de ce robots.txt, exemple type d'une condition d'utilisation en parfaite contradiction avec ce qu'il est techniquement, à savoir un site qui pisse du XML dans tous les sens : il fallait oser interdire aux lecteurs de lire ses contenus via un agrégateur RSS, Challenge n'a pas peur du ridicule... il l'a fait, je cite :

"L'utilisation de robots ou tout(e) autre méthode automatique pour consulter le site challenges.fr/magazine/ est formellement interdite."

Nous avons bien rigolé avec Challenge.fr, et il ne s'agissait pourtant que de la forme, je vous propose que nous nous attaquions maintenant au fond.

Par exemple si Challenge, le NouvelObs, ou n'importe quel autre site ne voulait pas que Google s'enrichisse avec ses titres remixés de dépèches AFP, au lieu de raconter bêtement sa vie à des agents logiciels, il rajouterait dans son robots.txt  un truc qui ressemble à ça :

User-agent: GoogleBot

Disallow: /

Cette directive, très simple nous dit la chose suivante :

"Les robots de Google  (User-agent: GoogleBot) n'ont le droit (Disallow), d'indexer aucun des contenus du site (le / réprésentant la racine du site)."

Mais non... au NouvelObs, on préfère tuer les "petits bots" de "petits agrégateurs"... en leur interdisant  d'indexer les contenus, et laisser Google tout indexer... c'est étrange non ? En fait ce n'est pas si étrange que ça, c'est parfaitement crétin et contradictoire, mais ce n'est pas étrange. Pour un groupe de presse, il est plus simple de tuer dans l'oeuf un petit en lui interdisant l'indexation et d'hurler au monopole de Google pour tenter de lui racketer une rémunération en allant pleurnicher comme l'ont fait les industriels du disque avec Youtube (et dans un contexte très différent), que de retirer le droit à Google de donner accès aux contenus de son site.

Concrètement, aujourd'hui si la presse se coupe de Google, elle se coupe, d'Internet pour une immense majorité d'internautes du monde entier qui ne connait pas d'autres moyens d'accéder à ses contenus que par un résultat de recherche Google ou via l'agrégateur Google News. Vous seriez surpris du nombre d'internautes qui ignorent l'existence d'une barre d'adresse sur leur navigateur. Google et plus particulièrement Google News offrent un agrégateur qui est un point d'entrée à l'actualité pour de nombreuses personnes. Les résultats naturels de recherche de Google pointant sur des articles de presse représentent aussi une partie particulièrement importante du trafic de beaucoup de sites de presse. Et la condition pour y figurer, c'est bien entendu d'autoriser les robots de Google d'indexer ces contenus pour qu'il puisse les restituer dans ses résultats de recherche.

Oh tiens c'est amusant, n'assisterions-nous pas là à un schéma que nous connaissons bien ? Celui des fabricants de culture sur rondelle de plastique, les industriels du disques qui refusent de voir leur catalogue mêlé à celui de la concurrence. En refusant de voir les titres de ses articles, dans un agrégateur, mélangés à ceux de la concurrence, la presse nous laisse gentiment entrevoir qu'elle est sur le point de devenir aussi stupide que les crevards du disque.

Mais ce n'est pas là le seul parallèle idiot que nous pourrions faire. En d'autres temps, quand Google n'était pas le géant qu'il est devenu et que nous tapions nos recherches sur les nains de jardin Altavista ou sur Copernick, une condition d'utilisation un peu étrange fleurissait sur quelques sites, notamment des sites gouvernementaux En voici un exemple :

_ 7. LIENS, ENCADREMENT, COPIE IMAGE MIROIR, GRATTAGE, EXPLORATION EN PROFONDEUR DE DONNÉES ET AFFICHAGE INTERDITS Il est strictement interdit de créer des liens au site Web sans l'autorisation écrite expresse de Toto. Pour demander la permission de créer un lien au site Web, veuillez vous adresser par courriel à l'adresse toto@pouet.com. Toto se réserve le droit d'annuler et de révoquer une telle autorisation visant la création d'un lien avec le site Web en tout temps, sans avis et sans engager sa responsabilité envers vous ou toute autre personne. L'encadrement, la copie image miroir, le grattage ou l'exploration en profondeur de données du site Web ou de son contenu, sous quelque forme que ce soit et de quelque manière que ce soit, sont strictement interdits. Il est interdit d'utiliser des technologies de visionnement ou d'affichage collaboratives relativement à votre utilisation du site Web ou d'afficher des commentaires, des communications ou quelque forme de donnée que ce soit sur le site Web avec l'intention que de tels affichages soient vus par les autres utilisateurs du site Web._

Aussi consternant que ceci puisse paraitre, il existe donc des sites parfaitement publics vers lesquels vous n'avez pas le droit de faire de lien ! Des sites dont AUCUNE URL ne peut être partagée sur Facebook ou Twitter sans que l'on demande l'autorisation préalable écrite au service juridique du site en question.

Sérieusement les gars, faites vous un intranet, envoyez vos articles par la Poste à vos lecteurs, là au moins, vous contrôlerez leur diffusion. Laissez un Internet neutre aux grandes personnes et arrêtez de nous bassiner avec votre taxe Google à la con. Vous êtes sur un réseau public, Internet, qui est une machine à copier, et Internet, c'est comme la France, tu l'aimes ou tu te casses. Les informations pour être diffusées et lues, se copient de serveurs en serveurs avant de parvenir au lecteur chez qui l'information sera également copiée dans le cache du navigateur. La prochaine étape c'est quoi ? C'est de demander au FAI une rémunération proportionnelle au nombre d'abonnés qui lisent vos contenus ?  Demander aux éditeurs de systèmes d'exploitation ou de navigateurs web une taxe sur les données en cache ?

Arrêtez votre hypocrisie, si vous n'êtes pas joasse que Google vous apporte du trafic et donc des revenus publicitaires, nous vous suggérons un

User-agent: GoogleBot

Disallow: /

dans votre robots.txt. L'effet est garanti, presqu'immédiat et au moins vous aurez l'air moins ridicules devant vos contradictions.

Et puisque la presse a décidé de lancer un concours de robots.txt crétins, Reflets aussi a décidé de jouer :

 

0 Commentaires
Une info, un document ? Contactez-nous de façon sécurisée