Retrouver des clients de Bygmalion en quelques clics

Capture d’écran 2014-06-29 à 10.48.21Je profite de l’occasion qui nous est offerte à Pas Sage en Seine de croiser quelques journalistes pour vous exposer une méthode très simple pour identifier et recenser des clients de Bygmalion, un sujet qui occupe pas mal la profession en ce moment. C’est très simple et redoutablement efficace… mode d’emploi.

Bygmalion et ses filiales Event et Cie et Ideepole sont principalement des agences de communication. En ce sens, elles assurent le suivi d’audience de leurs clients en utilisant un outil que nous connaissons tous, Google Analytics.

Un compte Google Analytics est lié à un compte Gmail, lui même lié à une identité qui peut être une personne physique ou morale (un mail générique dédié à une utilisation particulière dans une entreprise).

Le concept de Google Analytics est de placer dans le code source d’une page HTML un « tracker », c’est à dire un bout de code qui a le bon goût de contenir un identifiant. Cet identifiant apparait en clair dans le script à placer sur les pages à suivre sous forme :

UA-xxxxxxxx-xx

Si je regarde le code source de la page d’accueil d’un site de Bygmalion, comme http://franckriester.fr/dont nous avons déjà parlé, je vais trouver cet identifiant dans le code :

var _gaq = _gaq || [];
 _gaq.push(['_setAccount', 'UA-2445593-66']);
 _gaq.push(['_trackPageview']);

Et c’est en partant de cet identifiant :

UA-2445593-66

…que nous allons pouvoir retrouver d’autres réalisations de l’agence. Pour cela, nous allons tout simplement nous rendre sur un outil en ligne, Spyonweb pour trouver les autres sites.

le -66 de la fin de l’identifiant nous renseigne déjà sur quelque chose d’intéressant : 66 codes de tracking ont été générés à partir de ce compte Google Analytics…

Supprimons le -66 et entrons juste l’identifiant UA-2445593 dans Spyonweb

Capture d’écran 2014-06-29 à 10.20.47

Notre identifiant Analytics, trouvé sur le site du député Riester, nous permet de retrouver d’autres sites :

Bygmalion.net et .fr, la filiale Doxeo, le site de Jean François Copé, de Laurence Parisot, le site de Mathieu Darnaud … mais aussi notre fameux site Député-UMP à plus de 600 000 euros sur la seule année 2010, le site des Jeunes Actifs de l’UMP ou encore le très cynique… ladepensepublique.fr. Quand ces sites sont encore en ligne, on remarque que la page « crédit » a souvent disparue, mais comme nous venons de le démontrer, un seul tracker Google Analytics, lié à un compte Gmail, suffit parfaitement à nous renseigner.

En utilisant un autre outil, SameID, on retrouve même 61 sites web avec cet identifiant… et attention message subliminal, on retrouve par exemple http://www.aucoeurdelevallois.fr/.

Voici la liste de 61 sites web réalisés ou suivis par Bygmalion au format PDF :  (PS : les premières lettres des domaines sont supprimées car le service SameID est payant, mais on retrouve très facilement ces sites en les recherchant dans un moteur de recherche). Est-il possible de retrouver des perles dans cette liste ? Oui… probablement.

Capture d’écran 2014-06-29 à 10.39.57

Twitter Facebook Google Plus email

49 thoughts on “Retrouver des clients de Bygmalion en quelques clics”

  1. Ah ah ah
    Qu’est ce que je me marre sur ce site et sans ironie, c’est vraiment sincère.
    Résident Meldois (nom des pauvres habitants de Meaux. Eh ouais!) et connaissant Riester par ses concessions Peugeot, je me poile, tu ne peux pas savoir.
    Continue Reflets, mirroir sans tain de l’internet

  2. C’est pas très difficile de remonter les footprints aujourd’hui. C’est d’ailleurs pour cela que beaucoup d’acteurs du web cloisonnent tout; il faut alors être beaucoup plus perspicace pour les tracer (car ce n’est pas parce que spyonweb ou sameid ne renvoient qu’une URL que l’histoire s’arrête là).
    On peut alors utiliser d’autres outils, d’un niveau supérieur, comme Netcomber.

  3. Est ce qu’on pourrait savoir pourquoi Reflets utilise aussi GoogleAnalytics?

    D’un coté Reflets décrie la surveillance de masse dans le contenu de ses article. De l’autre, Reflet demande à tous ses lecteurs d’envoyer leur historique de navigation à Google…

    Le pire, c’est que vous n’êtes pas les seuls dans cette situation : https://tuxicoman.jesuislibre.net/2014/06/webmasters-arretez-de-faire-le-boulot-de-la-nsa.html

    Mais les admins de Reflets ne peut être targués d’ignorants. Le #ONSAVAITPAS ne leur est pas permis.

      1. Au pire pour google analytics, il y a no script qui fonctionne plutôt bien!
        Sinon, je trouve que l’admin fais bien son boulot, là il viens de m’envoyer du rêve (et accessoirement m’apprends quelques petites subtilités :) merci)

        PS : je reçois un 403 quand je veux aller sur ton lien tuxicoman.jesuislibre

        1. On peut certes tous installer Noscript + RequestPolicy + Adblock. Sur les sites bien faits, qui ont peu de script bizarres et ne dépendent pas de sites tiers, ca roule. Par contre, si le site a son contenu sur un CDN, utilise DISQUS pour ses commentaires, Google pour héberger son JS et ses fonts, etc… ben le site est juste inutilisable sans filer ses infos personnelles. Donc on en arrive vite à un choix, soit on donne ses infos et on continue à venir sur le site web, soit on n’y revient plus.

          Pour le 403, c’est du à l’hébergement quelque peu nomade :)

          1. Pas eu de problème pour lire ton article, mais si par la suite certains n’y ont pas accès et ne veulent pas utiliser le cache de Google, ils peuvent utiliser la Wayback Machine d’Archive.org : https://archive.org/web/ ! ;)

      2. Bluetouff,

        Il y à une alternative pas mal a analytics c’est Open Web Analytics (OWA).

        Beaucoup de fonctions sympa, c’est la seule alternative crédible a ma connaissance.
        Mais même avec ça il ne propose pas la moitié de ce dont est capable analytics, et jamais un client n’en a voulu.

        Mais si vous voulez juste quelques stats c’est a tester :)

          1. Non Piwick en l’état n’est pas une solution pour nous pouvant apparaitre comme « crédible ».

            Cf mon commentaire juste en dessous du tien… mais puisque vous tenez tous tant que ça à Piwick, je vais vous expliquer pourquoi nous ne l’avons pas mis en place :

            – Piwick est un outil de geek : un développeur lui n’aurait jamais choisi de compter des clics en synchrone dans un SQL. Ca fonctionne très bien pour un blog à 40 visites par jour, mais Reflets encaissent des pics de connexions qui soit ralentiraient considérablement le site, soit qui nous obligeraient à choper une autre machine dédiée à compter les clics… ce qui est totalement absurde.

            – Les dev de Piwick n’en démordent pas, ils sont très attachés à leur PHP et à leur SQL server side, moi pour comptabiliser des stats, j’émets de grosses réserves sur ce genre de solution, mais tout n’est pas perdu.

            – Pour vous montrer que nous avons un peu regardé comment il fonctionnouille, on en est arrivé à la conclusion que (je cite texto la conclusion d’Athoune, un collègue de Bearstech et donc proche de Reflets qui animait nos débats)… je le rejoins parfaitement dans ses conclusions :

            « Il faudrait déployer le js de Piwik, mais utiliser un code asynchrone et moderne coté serveur pour l’empilement des logs : du Tornado qui pousse tout dans un redis. Ce code ne fait pas grand chose, il se contente de passer les plats. Il faut voir ce que piwik a prévu pour limiter le flood ou le n’importe quoi.

            Ensuite, pour l’analyse, il y a Logstash, qui sait déjà dépiler des logs depuis Redis. De base, il sait analyser les users agents et faire de la geoip. En fait, il manque juste la partie « quelle requête a permis d’arriver ici? »
            Pour la consultation, l’affichage et la recherche, il y a KIbana.

            Donc, pour un POC, il faut donc juste un bout de code python qui récupère les
            messages de piwik et les colle dans redis. Le reste, ça existe, c’est
            juste du paramétrage. »

            Bilan : oui nous viendrons probablement un jour à Piwick, mais certainement pas de la manière dont il est codé actuellement, et pour le moment, je n’ai vraiment pas le temps d’assurer un trunk de fork qui en outre ne manquera pas de se faire flamer par la communauté PHP.

          2. @bluetouff

            Tu auras d’autant plus besoin d’une machine dédiée (voire plusieurs) avec une config Redis / logstash je pense :/

          3. Ca je n’en suis pas convaincu du tout, en tout cas le rapport perf au nombre de connexion sera plus intéressant, et nous avons aussi des machines full python qui ne sont pas exploitées à plein qui feraient l’affaire. En outre ce serait quelque chose de réutilisable et le concept nous plait bien.

          4. Salut,
            Pour la question de la tenue de charge, d’autres ont déployé du Piwik sur des sites à lourde charge et ça marche!
            Par exemple, les sites de la galaxie http://ubuntu-fr.org ont Piwik derrière pour les stats.
            Ensuite, il y a des assos qui avaient peur que Piwik ne fonctionne plus avec la surcharge, et les doutes se sont avérés être infondés.
            Pour avoir un exemple, sur le déploiement chez Frama*: http://www.framablog.org/index.php/post/2014/04/03/bye-bye-google-analytics-bonjour-piwik

    1. Bon passé le troll, plus sérieusement, oui tu as raison c’est pas bien ne pas avoir ses propres fonts, son dédié qui comptes les clics de piwick en synchrone dans le SQL, oui c’est pas bien de ne pas m’être tapé une config Pistash (piwick avec logstash), oui c’est mal de contribuer à envoyer vos ip que vous avez déjà envoyé 4096 fois dans la journée à Google, oui c’est mal d’utiliser les stats de wordpress.com, oui c’est mal d’être sur Twitter… oui tu as raison sur le fond, mais sur la forme, putain qu’est-ce que c’est pratique des fois ;)

      1. Je voulais juste vous faire passer le message. Après vous êtes libres et chacun est juge.

        Et puis allons, qu’est ce qu’on s’en fout des stats détaillées? Un nombre de pages vues par article et un nombre de visiteurs ne vous suffisent pas? Ca, ca ne va pas faire souffrir votre SQL.

        Il n’y a pas de plugin wordpress pour intégrer un flux provenant de twitter?
        Changer un include dans le header de son thème pour héberger ses fonts (quitte à basarder la compatibilité avec les vieux IE) vous rebute?

        Ca me semble vraiment pas insurmontable hormis à une flemmingite aigue.

          1. CF mon commentaire au dessus pour Piwick, qui est parfaitement valable pour Daily Stats : un compteur de clics en PHP/MYSQL c’est absurde.
            Et comme si ça suffisait pas c’est un plugin wordpress… aucun intérêt pour notre utilisation.

      2. J’ai envoyé un mail à Mediapart (je suis abonné) sur le même problème. On m’a répondu « Nous avons bien reçu votre message et nous l’avons transmis à l’équipe technique et à l’équipe de direction. »

        Qui vivra verra.

  4. C’est marrant de voir les différences de traitement de l’actualité d’un canard à un autre.

    Ici, on a la méthode en détail, et une liste de clients.

    sur rue89, on a un vague article du genre: » Bygmalion: c’est la faute a gogleu » . Pourtant c’est censé être un journal de gauche, bygmalion c’est LE scandale financier de l’UMP, et finalement … rien.

    Quelque chose me dit que le PS ne l’ouvre pas parce qu’ils ont pire à cacher …

    Enfin bref, dans tous les cas, on n’entend pas vraiment parler de bygmalion. J’ai vraiment du mal a comprendre pourquoi. J’ai bien mes doutes ceci dit, mais rien de bien concret …

  5. Je t’aime, Bluetouff :)

    Une vraie bande de casse-couilles chez Reflets, le genre de mecs qui ne lâchent pas l’affaire, et je vous avoue que pour moi, à l’heure où tellement de pseudos-journalistes ont abandonné, cela n’a pas de prix.

    Autant le docu récent sur Aaron Swartz que je viens de me faire m’a miné le moral, autant cet article m’a tiré un éclat de rire (oui, je fais partie de ceux qui suivent l’affaire Bygmalion avec une certaine délectation, chacun sa croix quelque part) qui est plutôt bien venu.

    « ladepensepublique.fr » . . . c’était donc eux. ça ne m’étonne pas.

    Merci encore et continuez votre excellent travail.

    01

  6. (Le lien « Répondre » n’apparaît pas sur cette réponse de bluetouff http://reflets.info/retrouver-des-clients-de-bygmalion-en-quelques-clics/#comment-486602 — une histoire d’indentation je présume — je me permets d’y répondre indépendamment.)

    J’avoue ne pas bien comprendre l’intérêt d’ajouter une autre balise JavaScript (ou autre) aux pages web pour en analyser l’audience pour concurrencer Google Analytics.

    Je veux dire : le serveur web comporte déjà des journaux d’activité qui sont mis à jour en temps-réel (ou presque). Il n’y a donc pas de raison, a priori, d’ajouter une balise supplémentaire que celle-ci. Pour avoir des informations supplémentaires, on peut enrichir ces journaux à volonté, en y indiquant les informations supplémentaires que l’on souhaite. Qui plus est, on peut même gérer plusieurs journaux en parallèle, par exemple en fonction du type de ressources servies. Ainsi, on peut avoir un journal sommaire pour les images, et un journal plus étoffé pour le contenu HTML. Les cookies peuvent alors aussi faire partie du journal, bien que cela risque de l’alourdir de manière conséquente.

    Certes, ajouter une balise supplémentaire, JavaScript ou image, puisque c’est la tendance, offre des informations supplémentaires, que l’on ne peut obtenir autrement, ou alors difficilement. Avec une image, on peut notamment estimer le temps de chargement des pages. Avec du JavaScript, on peut déterminer la résolution de l’écran, ou la taille de la fenêtre du navigateur. Avec du Flash, on peut souvent aller encore plus loin.

    Dans la pratique, on s’en sert rarement sur un site de faible ou de moyenne importance, en particulier lorsqu’il ne cherche pas à segmenter son audience pour soit améliorer son interface utilisateur, soit améliorer ses ventes publicitaires aux annonceurs.

    D’un point de vue technique, le principal avantage que je vois à Piwik serait une visualisation aisément et rapidement interprétable des volumes de fréquentation, avec une interface utilisateur déjà faite « out of the box ».

    En effet, techniquement parlant, bluetouff a déjà proposé des alternatives d’analyse des logs natifs du serveur via des solutions techniques prêtes à l’emploi, une solution incomparablement plus performante que l’utilisation d’un Piwik ou, pire, d’une extension WordPress.

    Ceci dit, ce n’est pas la première fois que, sur ce site, les visiteurs débordent du sujet de l’article pour discuter de leur méfiance vis à vis de Google Analytics. Une méfiance purement polémique, car ils ont des solutions techniques de leur côté résolvant le problème une bonne fois pour toutes en bloquant définitivement les scripts Google Analytics via une simple édition de fichier « hosts » !

    * * *

    Enfin, pour en revenir au sujet de l’article, voici quelques solutions d’analyse de réseaux de sites web habituellement utilisées par des professionnels du référencement web (et, en marge, de l’eréputation) : Netcomber, Majestic SEO, Moz (ou Open Site Explorer, pour une version plus sommaire) et Ahrefs, pour les plus communs et les plus réputés. Tous consacrent de très importantes ressources au « crawling » de pages web publiques. Ils peuvent être employés pour de l’intelligence économique ou l’identification de réseaux d’influence, mais ce n’est pas leur emploi premier, ni leur spécialité, notamment d’un point de vue analytique.

  7. En ce moment, c’est la fête dans la presse nationale vis à vis de Bygmalion, et je ne vais pas m’en plaindre, on peut éventuellement se rappeler qu’à l’époque on les entendait un peu moins quand Ben Ali et Moubarak se sont fait dégager comme des merdes, notamment sur les liens qu’entretenaient les principales agences de publicité françaises avec ces deux derniers.

    les seuls qui avaient vraiment balancé c’était Charlie Hebdo.

    On ne va pas scier la branche sur laquelle on est assise, et nos beaux budgets.

  8. Y’a encore quelques perles techniques sur ces sites… Ils adorent la 3.0.x de wordpress chez Bygmalion ou quoi ? C’est à cause de ce genre de pratique qu’on a des botnets qui cassent des records… WordPress est beaucoup trop populaire pour tenter de passer outre ses mises à jours régulière. Enfin encore faut-il avoir un dev qui comprenne un tant soit peu ce qu’il fait et n’aille pas modifier le core ou installer des plugins non maintenus. Ouais, c’est pas gagné…

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *