#FIC2014 : ces administrations françaises qui livrent ce que vous avez de plus intime à des tiers … #Google, #Xiti, …

lolcat-gets-busted
Alors… rien à cacher ?

La collecte de données statistiques est quelque chose d’important pour de nombreux sites web qui tirent un revenu direct de leur fréquentation, en vendant de l’espace pour de la publicité ou en monétisant les contenus. Obtenir des statistiques fines, en temps réel, sur un site à fort trafic, c’est couteux en terme de ressources. Aussi, nombreux sont les sites qui font confiance à un tiers qui traitera de manière externe ces statistiques au lieu de venir massacrer une pauvre base de données SQL en comptant chaque clic en temps réel.

Pourquoi des statistiques ?

Si sur un site de presse, la collecte de statistiques trouve des explications légitimes,  il existe des sites web sur lesquels cette collecte est difficilement justifiable : les administrations. Et cette collecte le devient encore moins quand elle a recours à un service comme Google Analytics qui traque les utilisateurs sur des millions de sites web. Des lecteurs (ou pas) de Reflets s’étaient d’ailleurs délectés de faire tourner le screenshot de la honte attestant que Reflets utilisait Google Analytics et des trackers de réseaux sociaux… d’ailleurs depuis Reflets n’a plus de stats, ni même de boutons de partage. C’est vrai… hurler qu’un site de presse utilise des trackers permettant de compter le nombre de tweets ou de visites, c’est très choquant. Dans quelques lignes, vous allez avoir une raison un peu plus sérieuse de vous indigner…

Google fournit aux webmasters une solution de statistiques très élaborée, dotée de nombreuses fonctionnalités. Son utilisation est gratuite et le traitement, gourmand en opérations et en ressources, est effectué non pas sur l’infrastructure de l’utilisateur, mais sur l’infrastructure de Google. C’est « tout bénef »… oui enfin presque, car si c’est gratuit pour l’utilisateur, la bonne, question, comme toujours, est de vous demander « combien ça coûte ce truc gratuit ?». La contrepartie, c’est que ces données de navigation de vos visiteurs sont livrées à Google, qui de son côté va utiliser ces mêmes données pour afficher des publicités contextuelles.

Cette sombre histoire de cookies indiscrets

Vous venez de visiter un site web de vente de billets d’avion, et voici que Google vous propose en affichage publicitaire dans ses résultats de recherches et même sur les sites que vous visitez utilisant Google Adsense® des publicités de voyagistes ou d’hôtels… exactement là où vous souhaitiez vous rendre. Evidemment, tout ceci ne doit rien à la magie des Internets ou au hasard, il s’agit en fait d’une technique : le tracking, qui lui permet de savoir ce que vous visitez pour mieux cibler ses publicités.

La pratique est connue, les internautes mangent des tracking cookies comme monsieur Jourdain fait de la prose… mais il y a quand même des situations dans lesquelles il serait bien que nos administrations réfléchissent à deux fois avant de livrer des données sensibles (et pas si anonymisées que ça) à des tiers, qu’ils soient américains ou français.

Total Annihilation Prevention Disclosure

Attention, avant d’aller plus loin, nous préciserons qu’aucun site web n’a été « piraté » et qu’aucune recherche visant à « tuer toute la planète » n’a été effectuée pour la rédaction de cet article. Le fait d’afficher le code source d’une page web est une fonctionnalité, non malicieuse, de n’importe quel navigateur web. Cette précision étant faite, passons aux choses qui fâchent.

Ton IVG avec Google

Parmi les sites web de l’administration qui offrent des informations sensibles, de l’ordre de l’intime, à des tiers, le site du ministère de la santé et particulièrement sa page sur l’IVG. Un exemple particulièrement dérangeant quand on connait les conditions auxquelles sont soumis les hébergeurs de données de santé… données on ne peut plus intimes.

ivg

On se doute bien que de nombreuses personnes, n’ayant pas trop envie de crier sur les toits qu’elles vivent un moment douloureux, n’ont pas non plus envie que ce qui constitue pour elles une démarche difficile, vienne alimenter des bases de données qui seront réutilisées pour afficher des publicités contextuelles sur les pages qu’elles visitent. Et bien cette page, particulièrement sensible, se voit affublée d’un tracker Google Analytics. De cette manière, si une personne connectée à son compte Google visite cette page, elle laisse entendre à Google de manière pas si anonyme que ça, qu’elle est en train d’envisager une interruption volontaire de grossesse. On imagine vite le cynisme des publicités contextuelles que « l’intelligence artificielle » devient alors susceptible de recracher dés lors que l’on visite cette page.

Toujours en rapport avec la problématique sensible de l’IVG, nous avons par exemple le site « IVG Les Adresses« , mis à disposition du public en partenariat avec l’Agence Régionale de Santé Ile de France, promettant dans ses mentions légales qu’ « Aucune information personnelle n’est conservée, ni transmise. »

On se doute bien que comme ce site utilise Google Maps, cette affirmation n’est pas tout à fait exacte :

maps

Mais il y a mieux : comme le site est lui aussi affublé d’un script de tracking Google Analytics, Google peut traquer en temps réel le choix de votre centre d’accueil ou l’on pratique l’IVG, et pour peu que vous utilisiez le calcul de l’itinéraire, savoir quand vous y serez et comment vous allez vous y rendre.

ana

Ah et puisque nous y sommes :

majOn en est quand même à la version 3.8….

Il s’agit, au bas mot d’indélicatesses malencontreuses du ministère et des autorités régionales de Santé vous dites vous… certainement. Mais ce cas est loin d’être isolé.

Toujours au sujet de l’IVG, le site du Service Public partage de son côté ce genre d’informations avec Xiti

sp

Ta déclaration d’impôts avec Xiti

Bercy de son côté, livre à Xiti une mine d’informations sur chaque page consultée quand vous faite votre déclaration d’impôts en ligne. En quoi cette collecte statistique sur des pages relevant de votre rapport avec l’administration française peut intéresser une société tierce ?

impôts xiti

Et si on arrêtait de faire n’importe quoi, n’importe comment avec n’importe qui ?

Le Forum International de la Cybercriminalité (FIC 2014) qui se tient actuellement à Lille et marque cette année un tournant pour l’ANSSI qui voit ses prérogatives renforcées, pourrait être pour elle l’occasion de s’illustrer, en collaboration avec la CNIL, sur un guide des bonnes pratiques en matière d’externalisation de traitements de données, encore une fois pas si anonymisées qu’elles le prétendent, émanant des administrations françaises et relevant de l’intime. Les cas que nous venons d’évoquer, en pleine « gueule de bois Snowden », devraient lui donner matière à effectuer quelques vérifications et dicter quelques préconisations de fermetés pour éviter que les administrations et les agences de communication qui réalisent leurs sites web (cherchez l’erreur) arrêtent de faire n’importe quoi n’importe comment sans que personne ne se pose de questions sur l’impact de certains choix difficilement justifiables.

Edit : la CNIL a émis des recommandations sur l’usage d’outils de statistiques.

Merci à @Gawel_ ;)

Twitter Facebook Google Plus email

82 thoughts on “#FIC2014 : ces administrations françaises qui livrent ce que vous avez de plus intime à des tiers … #Google, #Xiti, …”

      1. Même chose pour moi. La liste des trackers est affichée par Ghostery et est impressionnante pour le moindre site visité – merci à cet outil! Est-ce que quelqu’un sait si il existe un équivalent pour Debian?

        Evidemment, ça ne dispense pas des précautions de base sur les cookies et du nettoyage systématique après usage avec un bon nettoyeur…

          1. Better Privacy pour les cookies Flash est pratique aussi.

            Par contre les navigateurs même réglés pour tout vider à la fermeture conservent la fréquentation des sites bookmarkés (affecte l’ordre d’affichage dans la awesome bar sous Firefox). À part passer un coup de Bleachbit pour sucrer ces fichiers .SQLite je n’ai rien trouvé.

        1. Meldev, tu peux utiliser Lightbeam, dispo depuis le menu extention de firefox. Il vient de chez Mozzilla, dresse une liste de tout les noms de domaines utilisés dans une page, et ensuite, tu fait le tris.

    1. Le DNT n’est qu’un en-tête envoyé par le navigateur, →demandant← à ce que la connexion ne soit pas tracée. Au vu du trainage de pieds de Google pour l’ajout du DNT à Chrome, je crois ne pas me tromper en affirmant que GA n’en a cure, et trace tout de même, car « l’utilisateur ne sait pas ce qui est bon pour lui ».

      En ce qui concerne Xiti, j’en doute sérieusement. Même s’ils annoncent ne pas tracer en cas de DNT, je ne verrais cela que comme de la PR. Personne ne sait à part eux la machinerie qu’ils utilisent (proprietary software, tout ça).

      Ce qui est dommage, c’est que l’outil de statistiques libre Piwik ne réponde pas si le DNT est pris en compte ou non (je verrais bien un en-tête serveur qui dit en gros « oui, je suis configuré pour ne pas tracer si tu as le DNT, pas de souci mon webmaster respecte ton choix ».

      À propos de Reflets, c’est pas « blanc comme neige » hein, il reste le truc Google Fonts (et accessoirement le Gravatar). Ça me semble bien pouvoir être caché localement, non ? :)

      Oui c’est du code dégueu, mes excuses. http://root.suumitsu.eu/wiki/doku.php?id=php:cache_gravatar

    2. Ou sinon « Nouvelle fenêtre de navigation privée ».

      Ça me parait évident que pour des raisons de facilité, les sites du gouvernement fassent appel à Google Analytics et consorts pour leurs stats, tout le monde le fait.

      Si on n’a pas envie d’être tracé, il suffit de tout simplement utiliser la fenêtre de navigation privée. Il faudrait avant tout éduquer les gens à se servir d’Internet, qu’ils soient conscient que tout ce qu’ils font est suivi et enregistré à la trace par Google, la NSA etc et pas seulement grâce à ces cookies si chers à la CNIL. Ce n’est pas un message d’alerte stupide qui changera les choses. C’est aux utilisateurs de prendre leurs précautions. Par exemple, une femme cherchant un centre d’IVG fera sa recherche via la navigation privée, histoire de ne pas se taper des pubs du style « Tu veux continuer à profiter de ta jeunesse ? Envoie IVG au 82222 » lorsqu’elle se connecte sur Facebook.

      1. « Si on n’a pas envie d’être tracé, il suffit de tout simplement utiliser la fenêtre de navigation privée.  »

        mouahahahhaha hihihihihiih uhuhuhuuhu hououououououhouou… stop j’ai mal au bide. C’est pas possible, vous vous êtes tous donné rendez-vous ce matin !

      2. Non, la fenêtre de navigation privée ne vous rend pas anonyme et ne désactive pas les trackers, ni ne les bloque. Idem pour les onglets privés dans le butineur Opera.

        Cette fonctionnalité fait simplement le ménage lorsque vous fermez la fenêtre, en supprimant vos traces DANS LE NAVIGATEUR (et nul par ailleurs). Grosso-modo, cette fonctionnalité supprime les cookies, historique de navigation (URLs), celle de téléchargement, les formulaires envoyés, vide le cache…

        Mais il peut rester des traces en local (sur votre machine). https://blogue.mathiaspoujolrost.net/perso/index.php/post/ne-les-oubliez-pas-ils-pourraient-parler

    3. Perso j’utilise uBlock Origin, qui est bien mieux et qui ne se fait pas de l’argent sur notre dos en passant des partenariats avec les agences de pub. Je cite celui-ci car je sais qu’il est bon, mais il y en a surement d’autres tout aussi bien, et pas très connus/médiatisés.

  1. Roh une version qui a 6 mois c’est pas si scandaleux que ça (en supposant que les patchs de sécurités sont quand même arrivés jusque là).

    @Parcu : il existe des addon sur firefox (et d’autres) qui le font. Reste à savoir qui édite se genre d’addons (genre des publicitaires…)

    Ya aussi ce petit addon fait par mozilla (donc quand même un tantinet plus neutre) qui permet de visualiser ces sites, et les bloquer manuellement il me semble : http://www.mozilla.org/fr/lightbeam/

    PS : j’avais pas vu le captcha ! c’est pour bloquer les matheux ? :D

  2. Le problème est que tant qu’il n’y aura pas eu de sanction/scandale, l’Administration ne bougera pas le plus petit doigt.

    Surtout que dans le domaine, elle se cache derrière la NS48 de la CNIL pour justifier son inaction.

  3. Oui, ghostery (puisque c’est celui que j’utilise) bloque bel et bien les appels à Google Analytics et Xiti. Aucune requête n’est effectuée vers ces services.

    il bloque d’autres merdes de tout poil, du bouton twitter de reflets à gravatar en passant par disqus.

    J’avais trouvé (sans avoir pris le temps de le tester en réel) un outil de stats assez séduisant. Je serais curieux de voir si des solutions à mettre en place sur son propre serveur existent et sont viables.

    1. Ghostery bloque les connexions mais si vous avez laissé coché la checkbox qui permet à Ghostery de transmettre les informations à votre sujet, il transmets en arrière plan les données aux partenaires (càd ceux auxquels Ghostery bloque l’accès) à posteriori. Donc méfiance. de toute façon une extension ne protège pas assez.

      1. En même temps, la maison mère qui édite Ghostery travaille dans le domaine de la publicité…. Donc bon, un outil qui combat ce pour quoi la maison mère travaille… lol… j’ai vu plus fiable (comme « uBlock Origin », pour ne citer que cet exemple)

  4. On ne rappellera donc jamais assez d’être connecté sur Google/Facebook/Twitter/autres-auteurs-de-tracking-cookies dans une session différente de celle qu’on utilise pour le reste.
    ça a au moins le mérite de rendre inopérants des cookies en question.

    1. Sur 17858 pages d’accueil (et oui, il y a ceux des mairies !) on trouve…

      – 6317 Google analytics (ga.js)
      – 1032 API GMaps
      – 644 utilisent des scripts (jquery par exemple) hébergés par Google
      – 246 des « Google Fonts » (autre façon de tracker)
      – 62 l’api GMaps

      – 406 un compteur xiti

      et… 1066 en « unable to resolve host address », 106 en erreur 404, 89 connection timeout (à 10s)

      Voilà !

  5. Sinon, il faut aussi relativiser la chose :

    je pense notamment aux sites sur l’IVG : combien de personnes se rendent « naturellement » sur ces sites (càd en tapant comme des grands l’adresse dans leur navigateur et non par le biais d’une recherche via un moteur) ? Cela n’excuse pas les webmasters des sites en questions, mais Google récupérera l’info d’une manière ou d’une autre

    1. Ca leur sert pour connaître le taux de visite des pages. Pratique pour optimiser un proxy ou juste pour savoir si une page vaut le coup d’être maintenue ou pas, s’il y a un soucis de visibilité, etc.

    2. En fonction de là où ils viennent et là ou ils vont, je crois qu’on imagine mal la précision des informations que Google obtient sur les internautes… Je suis convaincu qu’ils connaissent presque mieux la date d’ovulation de la personne qui tape la recherche.

  6. Petite question d’un nullos qui vous suit quand même avec attention : Google Analytics et consorts, ça sert bien à connaître le nombre de visiteurs d’un site ? Ça leur sert à quoi aux sites gouvernementaux susmentionnés ? La Google Map a, par exemple, un intérêt mais le reste ??

    1. Un outil comme Awstats est capable de faire ce boulot nan ? (ne le connaissant pas réellement, un truc encore plus con comme goaccess suffisant à mon besoin :) )

      Ça a quand même l’avantage de pas balancer toutes les données à Google et cie. (même si oh mon dieu, ça nécessite un peu de travail d’admin)

    2. Ces fournisseurs de statistiques sont couramment employés par les concepteurs de site afin de connaître quel usage de leur site est fait : quelles pages servent le plus (et donc quels pages seraient prioritaires en terme de qualité), quels chemins de navigations emploient les gens (et donc lesquels doivent être améliorés s’ils sont longs, …).
      Cela sert donc notamment à ces sites gouvernementaux à améliorer la qualité de leur site.

      Quand au choix d’employer un fournisseur tiers, c’est généralement une décision économique et pragmatique : ça coûte généralement moins cher et/ou donne de meilleurs rapports statistiques que de mettre en place des solutions sans fournisseur tiers.

      1. Je suis intéressé par la réponse, moi aussi.
        Si un pro peut prendre la peine de nous éclairer…
        Ghostery n’est pas libre et a été racheté par une compagnie qui vend de la publicité en ligne, si j’ai bien compris.

  7. Il faut rappeler que les trackers ont la capacité de faire beaucoup plus que compter des visites (tel tuple(IP,UA,modules,taille d’écran, etc) a visité telle page à telle date. Ce sont des javascripts provenant de domaines externes pouvant accéder à l’ensemble du document consulté. Par exemple, sur le site des impôts, le script xiti peut non seulement informer le serveur d’où il vient de la visite, mais également transférer toute la page… et les informations qui sont dedans, informations qui ne sont _que_ confidentielles.

  8. Il serait tend que le législateur prennent des positions un plus forte:
    * essayer de s’émanciper de l’influence US, google anlytique ou google maps pourrait être très bien être remplacé par une solution maison éventuellement mutualisé pour tous les sites web de la puissance publique. Si en plus le code est libéré et ouvert aux contributeurs de nombreux sites pourrait s’affranchir de Google. Même chose OSM, avec un serveur dédiés pour les sites web de la puissance publiques.
    * Définir de manières plus contraignantes la durée des traceurs. Quand je lis ce qu’indique la CNIL sur les cookies: http://www.cnil.fr/vos-obligations/sites-web-cookies-et-autres-traceurs/ J’ai un peu l’impression que ce sont l’utilisation logique d’un cookie. Le reste n’est qu’un détournement qui a que trop montré d’abus. De plus dans les cas listés par la CNIL, le cookies n’a guère d’intérêts à être stockés plus de 24 h. Infiné, tous les cookies devrait être supprimés automatiquement au bout d’une journée.
    La demande d’autorisation des cookies me semble que déporter sur le citoyens une réflexion que le législateur ne veux pas faire.

  9. Comme tout le monde je trouve ça assez grave, comme ça été dit tout fichier js externe a accès à tout le contenu de la page, identification ou pas, https et crossdomain ou pas il me semble, pourquoi s’emmerder à se greffer sur les câbles quand c’est open bar. En étant un peu parano on pourrait même imaginer un bypass de tous les form submit en toute simplicité (identification, contact, etc), à part en debuggant vaillament les ev dans du code minifié, je suis même pas sûr que ce soit facile à identifier. Plus fort que récupérer les infos pendant le transfert non crypté entre servers internes, t’as les infos avant même qu’elles soient envoyées !
    Faudrait peut-être arrêter de mettre des stats et fichiers externes pour les parties privées bordel !
    sinon votre bouton flattr est pas visible c’est normal ?

  10. euuuuuuuuuh oula anéfé (©Christine Albanel) c’est inquiétant.
    Autant je ne dirai rien sur la version de WordPress,il ya bien des ophtalmo qui utilisent des équipements de diagnostic, fonctionnant sur Windows 98.. si si vous avez bien lu. Et une sale habitude veuille qu’on change de version lorsque:
    * il y a une panne avérée insoluble
    * il y a un changement de serveur
    * une obligation (comme les mises à jours des applications comptables, prenant en compte les modifs de déclaration et de taux)
    Autant la présente de google analytics me fait bondir pour un site du gouvernement.
    Sinon la règle qui prévaut est « on ne touche pas tant que ça marche ».
    Alors certes ça fera bondir Reflets de lire ça, mais il y a des choix qui amènent à prendre ce genre de comportement.

    Question conne: qu’en est-il du site où on paye les amendes en ligne?
    Parce que là, en plus d’être un site à informations sensibles, on y saisit quand même le numéro de carte bleue.

    1. testé et… ça marche pas mal, MAIS il pprend mal en compte les cookies chargées d’autres domaines autres que la page en cours. Exemple con: ouvrir un mini jeu sur facebook (oui je sais), le plugin va supprimer ce qui est en rapport avec facebook, mais pas avec zynga.

      Malgré ce petit problème de comportement, j’ai adopté le plugin.

      Reflets proposera-t-il une section sur le site sur les outils / plugins / configurations recommandées pour surfer en diffusant le moins d’infos?

  11. Bonjour,

    en ce qui concerne xiti, je pense tout simplement que c’est l’opérateur qui a remporté le marché public « statistiques web » pour les sites gouvernementaux français d’où sa présence sur de nombreuses pages web des sites en .gouv.fr.

    Je pense que la partie technique de gestion des statistiques de consultation sur les sites web de l’État a été externalisée vers xiti. Cette boîte renvoie les données aux webmasters de l’État qui peuvent alors faire des analyses diverses et variées avec des résultats traités à un premier niveau par xiti.

    Très clairement, cette partie aurait pu être gérée en interne avec des outils comme awstats sur les logs des serveurs Apache (ou d’autres outils plus récents ou via d’autres techniques) mais c’est un travail qui peut vite mobiliser quelques équipes dédiées et qui implique d’embaucher des fonctionnaires (ou contractuels) pour faire ça.

    De plus, je crois qu’il faut également faire face à la diversité technique des hébergements des sites web de l’État. Certains sont plus ou moins « auto-hébergé » sur des serveurs appartenants aux différentes administrations alors que d’autres sont complètement externalisés. Passer par xiti a l’avantage d’amener une solution unifiée de statistiques avec un niveau de service garanti mais a l’inconvénient de router une bonne partie du trafic des citoyens français dans l’escarcelle d’une boîte privée pas forcément maîtrisée.

    La question à résoudre pour le web de l’État (ou des collectivités) est donc: faut-il externaliser complètement la partie statistiques du reste de la gestion des sites web ou revenir à une maîtrise interne ?

    Question subsidiaire en cette période de budgets publics en baisse: qu’est-ce-qui coûte le moins cher ?

    1. J’aime bien ton argumentaire basé sur le coût et l’aspect internalisation/externalisation. J’ajouterais juste deux choses:

      – L’externalisation tourne au dogme dans beaucoup d’administrations, ce qui évacue hélas toute discussion sur le coût réel, la sécurité, la pérennité et la souplesse d’usage.

      – Il me semble qu’il y a aussi un facteur « si j’externalise, je n’y suis pour rien si ça marche pas » qui me semble toucher pas mal de DSI…

  12. Cet article surfe habilement sur la vague de l’alarmisme et on a nul doute qu’en jouant sur la terreur des internautes, l’auteur aura de quoi se délecter de ses belles audiences. Forcément ce genre de thématique fonctionne toujours, surtout quand elles s’appuient sur des concepts que 99,99% des lecteurs ne seront pas en mesure de comprendre. Il suffit de voir le nombre de commentaires de gens terrifiés à l’idée d’avoir communiqué leur déclaration d’impôt ou leur recherche sur l’IVG à des sociétés maléfiques.

    Rappelons avant de rentrer un peu plus dans le sujet qu’il y’a probablement une majorité de ces mêmes lecteurs apeurés qui utilisent quotidiennement une adresse Gmail ou Live pour leurs conversations les plus intimes, avec au programme réception de mots de passes, réception de factures et j’en passe. Je ne parle même pas des millions de personnes ravies de leur téléphone Android ou Windows Phone qui les suit 24/24, tout en étant authentifiés avec ce même compte Gmail. Rappelons également que ces mêmes services sont soumis au Patriot Act et sont dans ce contexte directement accessibles par les autorités américaines, sans votre consentement. Enfin, soulignons également que dans la plupart des cas, ces services sont gratuits bien que les sociétés en questions ne soient pas des associations à but non lucratif. Sans généraliser, ce sont souvent des services qui sont rémunérés par une stratégie commerciale basée sur les données collectées grâce à vous (le ciblage avancé publicitaire Google / Double click est probablement un des meilleurs exemples). Tout ceci pour dire qu’il est extrêmement intéressant de voir autant de gens s’offusquer pour un problème qui n’en est pas un, alors qu’ils sont trackés dans leurs moindre faits et gestes, tout au long de la journée sans s’en rendre compte. On relie à votre compte Gmail vos contacts, vos conversations, le déplacement de votre mobile, vos apps favorites, vos musiques achetées sur Google play, vos centre d’intérêts Google+, les vidéos qui vous plaisent le plus sur Youtube, votre numéro de téléphone qu’on vous a demandé pour votre sécurité… Tout ça avec votre simple compte Gmail et votre smartphone high tech Android ? Et vous êtes scandalisés par l’administration française qui mesure l’audience de ses plateformes digitales ???

    Alors non, l’analyse d’audience ne se limite pas à un geek dans un garage qui sait stocker des données dans une pauvre table SQL. C’est un véritable discipline qui est très proche de la BI, qui nécessite de croiser des milliers d’informations, avec par exemple pour but de contrôler des investissements ou d’améliorer l’expérience utilisateur. Les administrations sont particulièrement contrôlées en ce qui concerne le stockage d’informations personnelles (notamment par la CNIL), et il y a infiniment moins de chance qu’elle envoie des données confidentielles à un tiers que votre meilleur ami le smartphone et son compte Gmail obscur. Les données remontées sont facilement vérifiables puisque ce sont des données qui remontent en toute transparence par du code Javascript, et qui ne contiennent aucune information qui permette d’identifier une personne, conformément aux directives françaises en la matière.

    Dernier point, pour tous ce qui considèrent le cookie comme leur pire ennemi. Oui, le cookie permet de conserver des informations d’un site à un autre, ce qui permet à certaines régies publicitaires de vous envoyer des pubs pour une télé alors que vous avez cherché une télé quelque jours plus tôt. Mais sachez qu’il est tout à fait possible pour tous les sites de recueillir vos données de navigation sans cookie et sans votre consentement (technique du fingerprinting pour ne citer qu’elle). Le cookie vous offre un contrôle sur le blocage et l’effacement, confort qui sera perdu une fois qu’il aura été suffisamment décrié pour être abandonné de tous, et par conséquent remplacé par des techniques bien plus malicieuses et qui se passeront de votre avis pour exposer vos données à la NSA ou Google.

    De grâce, ne confondez pas un risque éventuel et une menace avérée, sous prétexte qu’un bloggeur crie au scandale.

    Cordialement,

    1. Le blogueur vous donne rdv à échéance un mois maxi… désolé hein moi je découvre un peu tout cet univers de cookies mal cuits avec des données personnelles anonymisées pleines de business intelligence dedans.
      On attendra la réponse des RSSI des ministères ainsi que le manuel RSSI qu’ils ont malencontreusement omis d’appliquer.

      Cordialement

      PS : AU SCAAAAAANDAAAAAAAAAAAALE !!!!

    1. Je trouve vos sarcasmes amusants et j’aime bien le sud ouest ;)
      Blague mise à part, dans cet article, il y a des liens hypertextes en cliquant dessus, on tombe par exemple là dessus (du même auteur, votre serviteur) : http://bluetouff.com/2012/03/02/polemique-google-vie-privee/ qui tranche assez sérieusement avec votre commentaire et la dénonciation d’un alarmisme quasi paranoiaque dont je suis supposé faire preuve à vos yeux… mais vous devez découvrir Reflets donc je ne vous en tiens aucune rigueur.

      Et entre nous, ayez plutôt peur de votre fournisseur d’accès que de Google.

      Sinon en dehors de ça, peut-être devriez vous lire notre rubrique « Saga Amesys » http://reflets.info/category/sagas/bienvenue-chez-amesys/ (commencez par le début, c’est assez drôle) pour comprendre à quel point les cookies et trackers analytics sont le cadet de mes soucis.

      Cordialement

      /b

      1. Bonsoir,

        Ce n’est pas beau d’enregistrer les adresses IP qui sont, il me semble, considérées comme une donnée personnelle par la CNIL. Non ? ;)

        Effectivement je suis assez nouveau sur le site et n’avais pas vu l’article de mars 2012, que je trouve beaucoup plus étoffé et pertinent que celui ci. Je lui trouverai comme petit défaut de manquer d’alarmisme ;)

        A vrai dire je suis agacé de cet acharnement contre les cookies attirent toutes les attentions sous prétextes d’être visibles et connus de tous. Car je sais très bien qu’une fois qu’ils auront été suffisamment stigmatisés pour être devenus indésirables, ils seront remplacés allègrement par des mécanismes bien plus pernicieux et incontrôlables. Je pense naturellement au fingerprinting ou à tous ces mécanismes d’identification uniques comme l’AdID Google… Car ne nous leurrons pas, le cookie aujourd’hui est l’outil favori du marché publicitaire qui pèse lourd, et je crains qu’une fois privés de canif, ces derniers ne dégainent la Kalashnikov.

        Je suis également assez agacé que l’on consacre autant de débats au tracking purement analytique alors qu’encore une fois on ne peut utiliser son téléphone sans y avoir enregistré son compte Gmail et que quasiment personne n’en parle alors que c’est probablement le dispositif qui en sait le plus sur nous.

        Je voudrais juste que les gens concordent sur le fait qu’autant on peut avoir des doutes sur l’éthique d’un site gouvernemental ou même institutionnel qui fait du web analytics, autant on ne peut pas en avoir sur des services qui rassemblent 95% des internautes en leur offrant tout gratuitement tout au long de la journée, sans jamais les quitter.

        « If you don’t pay for the product, you are the product ».

        Bonne soirée !

        1. Les adresses IP sont collectées à 2 niveaux sur ce serveur, et elles sont collectées de « manière naturelles par le système » pour employer l’expression consacrée :
          – Au niveau du serveur (Apache)
          – Au niveau du CMS (WordPress)

          Les cookies sont anecdotiques quand on les envisage localement, c’est quand ils parlent à des millions de sites web que la problématique diffère et devient complémentaire d’autres techniques de corrélation de trafic ou d’analyse des payloads des sessions (oui ça existe, mais ce n’est pas fait, à priori, dans le dos des utilisateurs).
          Le marché publicitaire c’est sympa, mais le Net se porterait surement mieux sans lui, d’ailleurs ici, comme vous le voyez, nous avons fait un choix « différent », pas de pub, pas de paywall… et notre site est encore en ligne au bout de 3 ans.
          La kalashnikov, nous luttons contre depuis plusieurs années, il s’agit de l’analyse en temps réel des payloads de toutes nos sessions en coeur de réseau chez les FAI (cf en france « l’expérience Orange Préférences » :
          http://reflets.info/orange-preferences-le-deep-packet-inspection-en-opt-in/

          Le tracking est peut être analytique pour Google, mais pensez vous qu’il l’est autant lorsqu’une agence rentre sans frapper à la porte dans la piscine de données que lui offrent ses dynamiques entreprises au nom du Patriot Act ?

          Je ne vous rejoins pas vraiment sur l’analyse éthique, dans le temps, d’une société qui concentre autant d’internautes. Que se passe t-il une fois que Google tombe dans les mains d’un fond de pension US ?

          Bonne soirée

          /b

    2. J’en aurais presque oublié de vous parler de Google, vous serez ravi d’apprendre que certaines données collectées par ce géant américain sont parsées par une technologie bien de chez nous : http://reflets.info/google-screenwise-panel-mefiance/
      Mais ça doit être ma paranoia… faut dire qu’on a un peu suivi leur reconversion de la surveillance de masse vers la BI… http://reflets.info/?s=qosmos
      Là encore, je vous invite à commencer depuis le début, il y a des épisodes rigolos, comme une sombre histoire de vente à la Syrie ….
      Non c’est vrai les cookies c’est un truc qui m’a toujours empêché de dormir ;)

      1. A chaque fois je suis surpris de voir que les scénarii les plus malintentionnés que j’imagine sur ce que pourrait faire Google avec ses données utilisateurs sont bien en deçà de la réalité.

        Et pour autant je reconnais bien volontiers que Google c’est comme le sel : on sait que c’est mauvais et pour autant un a un peu de mal à s’en passer quand on y est habitués. Il faut juste être conscient que c’est vraiment mauvais pour se motiver à en adapter sa consommation.

        Beaucoup de matière sur Qosmos, je vais lire ça avec attention.

        Bonne soirée.

  13. C’est amusant de voir cette confusion entre l’analyse des visites et le retargeting ?
    L’analyse des visites à pour but de comprendre.
    Le retargeting à pour but de faire de la publicité ciblée en fonction de l’internaute et de sa navigation.
    Les 2 sont différents et utilises des outils et des cookies différents.

    Goolge Analytics ou Xiti sont des outils permettant de mesurer les performances d’un site web : les pages visités, les parcours des internautes. Les données y sont anonymisées (pas de nom, prénom ni même d’adresse IP : obligation imposée par la CNIL).
    Les outils de Google pour le retargeting sont diffénts et utilises des scripts et des cookies différents. D’ailleurs Google dans ces CGV indiquent que Google Analytics ne communiquent pas avec ses autres outils en terme de rapprochement d’internaute.
    Les données issues des outils d’Analyse permettent de connaitre les actions publicitaires qui ont apportés du business mais surtout elles permettent de comprendre les comportements des internautes sur les sites. C’est à dire voir les pages posant problème, les pages les plus utilisées, les chemins les plus utilisés, les résolution d’écrant… C’est la seule façon de s’assurer du bon fonctionnement d’un site, de son efficacité et de sa bonne prise en compte des besoins internautes.
    Ce n’est pas inquiétant mais rassurant de voir que notre administration utilise ce type de technique car cela veut dire qu’elle vérifier le bon fonctionnement de ses sites. C’est en gros grâce à ce type d’analyse et d’outil que les sites sont plus simples à utiliser, que lorsque l’on utilise un smartphone la navigation est adaptée, que l’on passe pas 3 heures à chercher le bouton ou la rubrique souhaitée.

    Le retargeting est autre chose et oui il y a des abus et l’internaute doit pouvoir contrôler la donnée qu’il donne aux différents sites. Le cookie est d’ailleurs l’outil le plus puissant pour l’internaute versus les nouvelles méthodes beaucoup plus difficiles à contrôler (voir impossible) par l’internaute. Donc c’est sur cette partie qu’il faut travailler et se prémunir (Adbock et autre bloqueur de cookie third party).

    1. Bonjour,
      « Les données y sont anonymisées (pas de nom, parénom ni même d’adresse IP : obligation imposée par la CNIL). »

      Pour l’anonymisation désolé mais vous repasserez. L’absence d’un nom, d’un prénom, ni des derniers bits de l’adresse IP (contrairement à ce que vous semblez penser) ne constituent certainement pas une méthode d’anonymisation satisfaisante, la CNIL serait la première à vous le dire au passage.

      Et non je ne confonds rien du tout… vous retargetez comment sans données collectées ? Vous pensez vraiment que Google fait ça au doigt mouillé ? :)

      Donc selon vous un analytics « C’est la seule façon de s’assurer du bon fonctionnement d’un site »… mouais alors là vous vous égarez, il existe une palanquée d’outils bien moins intrusifs et qui font le job bien mieux qu’un xiti ou un Google, ne confondons pas tout svp, en tant qu’admin je vous assure que ça m’arracherait un bras d’avoir à vérifier si mes sites tournent bien grâce à Google Analytics. Concrètement, sur une immense majorité des sites (particulièrement les sites non marchands), ces outils ne servent qu’à flatter l’égo des webmasters et alimenter les conversations mondaines au « Le Web »… « t’as vu, j’en ai une plus grosse que toi avant ta levée de capitaux ».

      « Ce n’est pas inquiétant mais rassurant de voir que notre administration utilise ce type de technique car cela veut dire qu’elle vérifier le bon fonctionnement de ses sites.

      Là c’est vous qui m’inquiétez, vous êtres en train de justifier l’utilisation d’un bulldozer pour enfoncer un clou. Par pitié n’assimilez pas le fonctionnement technique d’un site à ces outils purement marketing. Je vous donne un moyen mnémotechnique :
      En entreprise, le service marketing casse le site, et c’est votre admin ou votre développeur qui le répare… et lui analytics il s’en cogne.

      « C’est en gros grâce à ce type d’analyse et d’outil que les sites sont plus simples à utiliser, que lorsque l’on utilise un smartphone la navigation est adaptée »

      AHAHAHAHAHHAHA … ben voyons, non désolé… la redirection vers la version mobile ne se fait surement pas grâce à Xiti ou Google Analytics, vous avez une vision un poil fantasmée des super pouvoirs de ces outils.

       » Le cookie est d’ailleurs l’outil le plus puissant pour l’internaute versus les nouvelles méthodes beaucoup plus difficiles à contrôler (voir impossible) par l’internaute. »

      Permettez moi de ricaner une fois de plus : le cookies face à une sonde d’inspection en profondeur de paquets, pour moi c’est une anecdote (cf google screenwize ou Oranges préférences… qui utilisent tous deux les outils par ailleurs vendus à des pays pas super démocratiques pour fliquer les opposants, nous avons quelques rubriques et pas mal d’articles là dessus sur ce site d’ailleurs).

      « plus difficiles à contrôler (voir impossible) » : un bon VPN chiffré, la désactivation de javascript et des plugins bavards des navigateurs fait bien la farce, voici un petit tuto http://toonux.net/outils/jondofox-anonymat-proxy-tutoriel/
      … mais très franchement Adblock face au DPI, comment dire, c’est aussi efficace que d’aller commander une pizza à votre garagiste.

  14. Article fort intéressant.
    Néanmoins on me fait remarquer que Google Analytics « c’est pour pour les stats non ? », donc en développeur de bonne fois je vais me renseigner chez celui qui fourni le service :

    https://developers.google.com/analytics/devguides/collection/analyticsjs/cookie-usage

    Là je vois :
    « Important: Google Analytics does not collect any personal information about your website users. Read the Google Analytics privacy document for more details. »

    Bon alors on les crois ou non ?

    Je suis donc le lien et tombe sur https://www.google.com/analytics/learn/privacy.html :

    « blablabla… Ces cookies sont utilisés pour stocker des informations ne permettant pas d’identifier personnellement les internautes … »,
    puis :
    « Pour les clients faisant appel à la fonctionnalité Google Analytics pour les annonceurs display, un cookie tiers DoubleClick est utilisé dans le but d’activer certaines fonctionnalités telles que le remarketing pour des produits comme AdWords sur le Réseau Display de Google… »

    Tiens donc ?

    L’article eu été donc encore plus intéressant si l’auteur (qui a l’air tout de même bien calé) eu décrypté pour nous cette fameuse page « privacy » ;-)

  15. Hello, je pense que vous avez du manquer quelques liens avec des messages subliminaux dedans ;)
    Vous avez par exemple manqué celui ci : http://bluetouff.com/2012/03/02/polemique-google-vie-privee/ qui date de cette époque à laquelle google a fusionné les conditions d’utilisation de plusieurs de ses services.

    En outre, ce que Google appelle des données anonymes, la CNIL appelle ça des données privées (comme une adresse IP), mais je vous accorde qu’en l’absence d’un statut juridique, on peut raconter totu et n’importe quoi sur l’aspect anonyme, pas anonyme du bousin.

    Toujours dans l’article indiqué par ce lien, vous découvrirez que la question ne se poserait même pas si Analytics et adwords/adsense étaient les seuls services de Google. Vous n’imaginez pas les miracles que l’on peut faire en corrélant le trafic de plusieurs services.

    Enfin, si vous avez entendu parlé d’un certain Edward S., contractant d’une agence qui n’existe pas (une certaine No Such Agency), vous n’aurez pas manqué de noter que Google n’est pas le seul à accéder à tout ce pool de données sympathiques que Google jure anonymisées…

    Euh très… franchement, vous y croyez vous quand Google vous dit que les données collectées sont anonymisées ?

    1. Merci pour cette réponse.
      Et voilà c’est là que je voulais en venir par « Bon alors on les crois ou non ? »… Mais c’est mieux lorsque les « théories » sont étayées par des preuves (ou de fortes présomptions de preuves ?).
      Si on ne doit pas les croire, alors il faudrait le dire, et clairement.
      Biensûr j’ai entendu parler du cher Edouard ;-) Impossible à trouver ces preuves ? les mecs de chez Google ils sont tenu par des clauses de confidentialité forcément, donc ils peuvent pas balancer, sauf à s’expatrier en Russie voilà…
      Qu’est-ce que ça donnerai si la CNIL (ou des assos genre UFC que choisir) dénonçait les abus ? sur quelles bases ?

      En gros prouver le croisement d’un cookies de ce genre :

      utmz=7082482.1301519758.1.1.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided)

      avec mon adresse IP.
      Bon courage…

  16. Coté extensions pour firefox, il ya aussi private tab qui permet de faire certains onglets en mode « navigation privée » le tout dans une seule fenetre. C’est pas parfait et il y a quelques bugs mais ça peut éviter de se trainer 2 fenetres.

  17. Vous parlez de l’IVG comme s’il s’agissait d’un truc honteux et pour lequel il faut rester caché. Faisant cela vous entrez dans le jeu de « la famille pour tous » (ou du « mariage heureux pour personne », je ne sais plus comment ils s’appellent). Pourquoi ne pas enfin briser ce tabou ? En lisant ces commentaires j’ai l’impression d’assister à une causette de femmes voilées « à qui aurait le tchador le plus opaque » :-D
    Ben moi je vous le dis, je vais sur des sites non conventionnels (genre xxx, Parti Socialiste, etc.) sans capote. Et j’en ai rien a faire de savoir que la NSA et le FN soient au courant, parce que je les em…..
    Voilà!

  18. Et si on arrêtait d’écrire n’importe quoi, aussi ?
    Très rapidement, pour ne reprendre que les plus grosses lues dans ce billet et dans ses délicieux commentaires :
    – un outil de web analytics (hors Google, qui n’est pas clair là dessus), s’en fout de votre vie et de vos données. Les données collectées sont fournies au client (dans ce cas précis, le gouvernement). C’est contractuel et régulièrement contrôlé.
    – de même, le contenu de la page lui importe peu, et encore une fois, les données ne sont livrées qu’au client, donc le service des impots, qui connaît déjà ce que vous déclarez, évidemment.
    – un outil d’analyse de log (ex : awstats) ne fournit absolument pas le même type de données qu’un service à base de marqueur. Si vous voulez aller vers de l’open source, optez au moins pour piwik (sauf si vous vivez en 1996, hein)
    – une adresse IP est déjà une information relativement peu fiable pour identifier un visiteur unique. Par exemple dans les entreprises dont tous les utilisateurs ont accès internet via le même routeur et donc via la même IP. Anonymiser les derniers bits d’une adresse (transformer 123.123.123.123 en 123.123.123.000 par ex) la rend totalement inutlile vis à vis de la vie privée, et rend également la géolocalisation moins précise.
    – tous les outils privés de web analytics sont soumis à des réglementations draconiennent dans beaucoup de pays, sur la durée de conservation des données, leur stockage, l’anonymisation, etc.

    enfin, comme le soulève un des commentaires, traiter quelques millions de hits, effectuer les calcules pour en extraire les informations pertinentes, stocker tout ça, et s’adapter aux contraintes des innombrables services du gouvernement coûterait bien plus cher au contribuable si c’était du « fait maison ».

    Bref, c’est un sujet très intéressant qui mériterait que l’auteur se document un peu plus qu’en ouvrant un code source (mais bravo, c’est déjà hyper technique comme manoeuvre !)

    1. Salut,

      Et si on arrêtait de prendre les gens de haut avec des certitudes absurdes qui ne souffrent pas l’analyse des faits ?

      « un outil de web analytics (hors Google, qui n’est pas clair là dessus), s’en fout de votre vie et de vos données. Les données collectées sont fournies au client (dans ce cas précis, le gouvernement). C’est contractuel et régulièrement contrôlé. »

      Votre internet a vous est souverain, au pays des bisounours… il est contractuel et régulièrement contrôlé… ahahaha

      L’auteur pourrait vous en apprendre de belles sur la corrélation de trafic, la désanonymisation et le profiling.
      Donc selon vous , nous n’avons fait qu’afficher le code source d’une page… z’êtes mignons… allez cadeau : http://reflets.info/category/sagas/deep-packet-inspection/

      « Anonymiser les derniers bits d’une adresse (transformer 123.123.123.123 en 123.123.123.000 par ex) la rend totalement inutlile vis à vis de la vie privée »

      Vous dites une _énorme_ connerie (désolé je trouve pas d’autre mot).

      « tous les outils privés de web analytics sont soumis à des réglementations draconiennent dans beaucoup de pays, sur la durée de conservation des données, leur stockage, l’anonymisation, etc. » : la NSA est morte de rire et a bien backuppé votre commentaire. Non mais plus sérieusement, vous croyez franchement que la règlementation sur la rétention de données est respectée vous ? Vous devriez vous pencher par exemple sur les opérateurs téléphoniques US comme FR. Vous êtes vous déjà demandé combien de temps Orange conservait les fadettes ?

      Quand vous voyez un lien dans un article avant de flamer l’auteur en brandissant un piwik (ahahahaha), cliquez dessus. En outre j’ai assez causé de Piwik ici, j’ai assez joué avec pour vous réaffirmer que c’est surement très bien poiur un blog ou quand on a une machine en raid à dispo pour aller flinguer un sql en synchrone.

      Bref, c’est un sujet intéressant, mais il mériterait qu’avant de poster un commentaire à l’argumentaire techniquement bancal et factuellement absurde, l’auteur du dit commentaire n’ait pas passé ces 2 dernières années sur Jupiter… mais bravo, c’est courageux de votre part de venir nous expliquer la vie, la surveillance, les super pouvoirs de la CNIL… et là justice qui a du rendre 3 condamnation en 20 ans concernant des manipulations de données illégales issues du Net.

      Ah… et j’oubliais cet article que vous conchiez à peu près de la même manière que je conchie votre commentaire à la con aura permis une chose : que le ministère de la Santé se sorte les doigt du cul et FASSE SUPPRIMER LES MARQUEURS ANALYTICS sur ces pages… probablement pour me faire plaisir, rien qu’à moi… ou parce que lui aussi à compris toute la débilité de votre commentaire.

  19. « L’auteur pourrait vous en apprendre de belles sur la corrélation de trafic, la désanonymisation et le profiling. »

    Je suis tout ouïe, l’expertise de l’auteur me paraît justement très surfaite.

    « [anonymisation des IP] Vous dites une _énorme_ connerie (désolé je trouve pas d’autre mot). »
    Bien, expliquez moi, parce que là question argumentaire, c’est unpeu limité.

     » la NSA est morte de rire et a bien backuppé votre commentaire. »
    Franchement, je ne vois pas le rapport avec la soupe, mais c’est vrai que ça fait haxxor de parler de la NSA en ce moment.

     » vous croyez franchement que la règlementation sur la rétention de données est respectée vous ? »
    Et quand bien même elle ne le serait pas, savoir pendant 15 ans qu’un utilisateur dont le cookie a disparu depuis longtemps a visité le site des impôts, c’est grave ?

    « Vous devriez vous pencher par exemple sur les opérateurs téléphoniques US comme FR. Vous êtes vous déjà demandé combien de temps Orange conservait les fadettes ? »
    Vous mélangez un peu tout là non ? ce ne sont ni les mêmes entreprises ni les mêmes données, ni le même usage…

    « Quand vous voyez un lien dans un article avant de flamer l’auteur en brandissant un piwik (ahahahaha), cliquez dessus »
    Mais non, relisez doucement. Je citais piwik pour illustrer la différence entre log et marqueur. Mais on est bien d’accord que fonctionnellement c’est très limité.

    « En outre j’ai assez causé de Piwik ici, j’ai assez joué avec pour vous réaffirmer que c’est surement très bien poiur un blog ou quand on a une machine en raid à dispo pour aller flinguer un sql en synchrone. »
    Wha, quelle technicité ! Mais pour un site de la taille des impots, une infrastructure loadbalancée et un cluster sql peuvent tout à fait suffire, même si ça atteint très rapidement ses limites.

    « techniquement bancal et factuellement absurde »
    Au moins on a la même vision l’un de l’autre ! Mis à part que je ne ressens pas le besoin de vous insulter.

    Perso que vous mélangiez statistiques et deep packet inspection, ça ne m’empêchera pas de dormir, je trouve ça juste dommage pour vous. D’autant plus que vous avez l’air de monter rapidement dans les tous sur le registre « ah mais moi je sais de quoi je parle, je suis trop fort alors j’ai pas besoin de le prouver, alors tais toi voilà ».

    Vas-y bluetouff, sauve le monde des méchants marqueurs web analytics !

      1. Pardon, je me suis laissé distraire par l’autre billet où vous annoncez que les marqueurs ont disparu alors qu’ils y sont encore. Heureusement que vous êtes un super cybercriminel, sinon j’aurais ri.

  20. La corrélation de trafic se base sur des heuristiques non paramétriques dont la précision est variable. On obtient des ordres de grandeur, pas une désanonymisation. Mais s’il existe des techniques plus précises, n’hésite pas à les détailler au lieu de jeter 2 mots et « haha, je t’ai perdu »…

    Tes groupies sont marrantes aussi.
    « Le Toto s’est ridiculisé en évoquant la lecture du code source quand on sait (un peu) ce que sait faire Bluetouff. »
    Bluetouff sait étaler de jolis mots, surtout, pour le moment.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *