Journal d'investigation en ligne et d'information‑hacking
par Antoine Champagne - kitetoa

Nouvel Obs, taxe Google et autres robots.txt : le bon gag du soir

Certains lecteurs diront que l'on a encore pondu un article un peu obscur parce que "technique". Il n'en est rien et nous allons faire tout notre possible pour être le plus explicite possible... Votre serviteur est un observateur avisé d'Internet depuis... Depuis avant que le Web n'arrive. Non, Internet n'est pas le Web et inversement. Oui, il y avait un Internet avant le Web. Si, si, il y avait des pages et des pages de documents présents sur le réseau, pas juste le mail ou les newsgroups.

Certains lecteurs diront que l'on a encore pondu un article un peu obscur parce que "technique". Il n'en est rien et nous allons faire tout notre possible pour être le plus explicite possible...

Votre serviteur est un observateur avisé d'Internet depuis... Depuis avant que le Web n'arrive. Non, Internet n'est pas le Web et inversement. Oui, il y avait un Internet avant le Web. Si, si, il y avait des pages et des pages de documents présents sur le réseau, pas juste le mail ou les newsgroups. Il y avait les serveur Gopher. Il y avait des BBS reliés au Net. Bref. Vous nous direz : quel rapport avec le Nouvel Obs ?

En fait, depuis quelques temps, je fais du tri dans mes archives. De 1995 à 1998, j'imprimais des tonnes de choses lues sur Internet. Et je gardais... Il me faut faire un peu de place. Donc, je regarde chaque page d'une montagne de papiers représentant près de 11 cartons et je décide : à garder / à jeter.

Et dans ces 11 cartons, il y a de sacrées perles. Du coup, lorsque j'en ai le temps, je partage ces perles avec les gens qui suivent mon compte Twitter. Hier, sous le hashtag #DansLesArchivesDuDino je listais ces moments amusants de l'histoire du réseau. Lorsque sont entrés dans la discussion deux autres dinosaures du Net, Florent Latrive (@latrive) et David Dufresne (@davduf). Dans le flot, Florent Latrive poste ceci :

 

Ni une ni deux, puisque nous étions replongés des années en arrière, je regarde un peu le serveur http://tempsreel.nouvelobs.com/ (on ne sait jamais, le back office du site est peut-être en accès libre ?) et j'y trouve ce fichier robots.txt.

J'avoue avoir trouvé assez gaguesque le contenu de ce fichier.

Procédons par ordre :

A quoi sert ce fichier Robots.txt ?

A indiquer aux programmes d'indexation automatiques des moteurs de recherche quels fichiers, quels répertoires ont est prêt à laisser archiver, ou pas.

Dans le cas particulier, le fichier Robots.txt ferme complètement la porte du site à toute une tripotée de boites qui indexent les contenus de la presse. Prenons un exemple parlant : Melwater.

Ainsi donc, le Nouvel Observateur refuse que la société Meltwater indexe ses contenus. Pourquoi ? Hum... Probablement parce que Meltwater vend un service de veille médias et que le Nouvel Observateur regrette de ne pas toucher quoi que ce soit sur ce petit commerce des revues de presse qui n'existe que parce que le Nouvel Observateur (et le reste de la presse) publie des articles. Sans presse, pas de marché de la revue de presse...

A ce stade, on peut se demander quelle est la position du Nouvel Observateur dans la fameuse polémique qui agite le microcosme du Web franchouillard depuis quelques temps : la presse doit-elle recevoir une compensation pour l'utilisation que fait Google News de ses articles ?

Il suffit, pour le savoir, de regarder sur le Nouvel Obs qui ouvre grandes ses colonnes à ceux qui plaident pour que l'on taxe Google et que l'on redistribue ses bénéfices à cette pauvre presse qui se meurt, non pas de la piètre qualité de ses contenus, mais du siphonnage opéré par Google :

Concrètement, Google devrait rémunérer les différents éditeurs de presse français pour chaque article indexé, c'est-à-dire rendu accessible par le moteur de recherche. En contrepartie, les médias renonceraient à leur droit de s'opposer à toute indexation. Un projet de loi en ce sens a déjà été remis par l'association à Matignon et aux ministères de la Communication et de l'Economie numérique.

Explique benoitement Nathalie Collin, présidente de l'association de la presse d'intérêt politique et générale (IPG) et co-présidente du "Nouvel Observateur".

Voyons voir... Donc, Nathalie Collin pense que les journaux doivent s'opposer à toute indexation quand il n'y a pas rémunération de la part de ceux qui indexent et font commerce de leur indexation. Jusque là cela se tient parce qu'en effet, les responsables techniques du site du Nouvel Obs savent à peu près paramétrer le fichier Robots.txt qui permet de s'opposer à une indexation.

C'est quand on cherche le robot de Google dans la liste de ceux que le Nouvel Obs ne veut pas voir indexer ses contenus que cela se complique. Parce que, tout simplement, Google n'est pas dans la liste. Le Nouvel Obs refuse l'indexation à pas mal d'entreprises, mais ouvre grand ses portes au vilain méchant Google.

Hum...

Peut-être parce que le Nouvel Obs ne veut pas se passer des visiteurs amenés par Google News ? D'où d'ailleurs, sans doute, sa propension à faire en sorte de créer des contenus de merde, photocopiés ad nauseam pour "faire du clic" (je ne retrouve plus l'article orignal développant cette théorie. Si l'auteur se reconnait, que je mette un lien...).

Car voyez-vous depuis le siècle dernier, même sur le Web, plus on a de visiteur, plus on peut vendre de la publicité, ce qui fait rentrer des sous dans les caisses. Et comme sur Internet, votre annonceur ne sait pas que votre visiteur est un chien...

Tout cela, bien entendu dans l'intérêt du lecteur. Car le lecteur est la première des préoccupations des patrons d'entreprises de presse. Passer dix jours sur les seins d'une femme, dix autres jour sur un tweet envoyé par la compagne du président de la république..., tout cela est d'une importance primordiale, qui impose un tel traitement de l'information...

 

0 Commentaires
Une info, un document ? Contactez-nous de façon sécurisée