Journal d'investigation en ligne et d'information‑hacking
par nikoteen

Google : All Your Base Are Belong To Us

Depuis toujours, Google permet de faire des recherche de fichiers par nom d'extension. La syntaxe est simple mais finalement peu connue : "filetype:<ext>". Ceux qui sont familiers de ce type de recherches ont forcément remarqué que tous les fichiers n'étaient pas traités de la même façon. Lesquels et pourquoi ? Des fichiers suspects a priori Les fichiers audio et vidéo ne sont pas proposés par Google. Vérifiez : une recherche sur "filetype:mp3" renvoie moins de 10 000 résultats.

Depuis toujours, Google permet de faire des recherche de fichiers par nom d'extension. La syntaxe est simple mais finalement peu connue : "filetype:<ext>". Ceux qui sont familiers de ce type de recherches ont forcément remarqué que tous les fichiers n'étaient pas traités de la même façon. Lesquels et pourquoi ?

Des fichiers suspects a priori

Les fichiers audio et vidéo ne sont pas proposés par Google. Vérifiez : une recherche sur "filetype:mp3" renvoie moins de 10 000 résultats. En général, ce sont des pages HTML dont l'URL se termine par « mp3 ». Pas de musique. Même chose pour les AVI, les MP4, tous ces fichiers présents en masse sur le web, même en ne considérant que les productions légitimement partagées, ne sont pas indexés.

Les éditeurs de musique et de films ont réussi à convaincre Google d'une chose : si l'ensemble des contenus étaient visibles, l'immense majorité des données disponibles seraient des fichiers soumis au droit d'auteur. Or, les internautes ne respectent généralement pas ce droit.

Le prix de cette suspicion ? Les contenus légaux ne sont pas directement accessibles. Les films et musiques produits sous licence Creative Common, par exemple, sont sacrifiés sur l'autel de la défense des intérêts économiques de quelques sociétés. L'argument est toujours le même : il en va de la survie de la création artistique.

Vos données sont nos données

D'autres fichiers sont beaucoup mieux traités par Google. Parmi eux, certains représentent un réel danger : les extraits de bases de données.

L'immense majorité des sites web actuels repose sur un langage (PHP) qui permet d'interroger une base de donnée (SQL). L'intégralité des contenus se trouve dans la base. Il n'est pas rare que les administrateurs fassent des extractions de leur base de donnée à des fins de sauvegarde ou de test. Très souvent, l'extension attachée à ces "dump" est de type ".sql".

Une recherche de type "filetype:sql" renvoie près d'un million d'entrées (soit 100 fois plus qu'une recherche sur les MP3). Dans ces fichiers, on peut trouver pèle-mêle :

  • des informations personnelles (les vôtres)
  • des données confidentielles (bancaires, médicales)
  • des mots de passe (parfois en clair)
  • des informations financières
  • ...

Dans une société où la sécurité des individus primerait sur les intérêts économiques, on pourrait s'attendre à ce que le principal moteur de recherche mondial filtre ce type d'information. Ce n'est malheureusement pas le cas, et des millions d'informations confidentielles sont disponibles pour qui veut bien les chercher.

Dans ce cas précis, aucune connaissance particulière n'est nécessaire. Les données étant disponibles dans le cache de Google (si !), il n'est même pas nécessaire d'accéder au site concerné. Pas d'injection SQL, pas de brute force... un navigateur et un moteur de recherche suffisent. Effrayant.

All Your Base Are Belong To Us

Longtemps, j'ai alerté les administrateurs des différents sites concernés pour qu'ils suppriment les fichiers incriminés. Et puis je me suis demandé si je ne prenais pas le problème à l'envers. Google a les moyens de protéger ce type d'information. Ils le font pour les fichiers au format MP3, ils pourraient le faire pour les dumps SQL. Chaque jour, de nouvelles bases de données apparaissent sur la toile. Pas une semaine sans que des données privées soient publiées.

Comment alerter le public, les administrateurs et faire pression sur Google pour qu'ils agissent ? J'ai décidé de mettre en avant, chaque semaine, une adresse fournie par Google et qui met en danger nos informations.

Cette semaine, c'est le site "Basaburuko Saskia", un GIE permettant aux consommateurs de se fournir directement auprès d'agriculteurs basques, que Google déshabille. La base du site se trouve ici. Elle apparait sur la première page quand on recherche filetype:sql « 2011-06 »... et est datée du 14 juin 2011.

0 Commentaires
Une info, un document ? Contactez-nous de façon sécurisée