Journal d'investigation en ligne et d'information‑hacking
par Antoine Champagne - kitetoa

Palantir et la France : naissance d'une nouvelle théorie abracadabrantesque ?

Peu avant l'été dernier, le secrétariat général pour la modernisation de l’action publique (SGMAP) lançait un appel d'offres pour un accord cadre relatif à des prestations de data science. Un article de Next Inpact révélait ce projet en août dernier. Cet accord cadre "a pour objet d’assister le SGMAP pour exploiter des données publiques, ouvertes ou non, via des prestations de science des données, dans des domaines ciblés par l’administrateur général des données (AGD)".

Peu avant l'été dernier, le secrétariat général pour la modernisation de l’action publique (SGMAP) lançait un appel d'offres pour un accord cadre relatif à des prestations de data science. Un article de Next Inpact révélait ce projet en août dernier. Cet accord cadre "a pour objet d’assister le SGMAP pour exploiter des données publiques, ouvertes ou non, via des prestations de science des données, dans des domaines ciblés par l’administrateur général des données (AGD)". L'Etat étant un gros producteur de données, il n'est pas incongru qu'il souhaite les exploiter pour améliorer son action. Reste à savoir qui sera retenu pour procéder à cette exploitation...

Le SGMAP a pour mission, selon ses propres mots, d'appuyer la transformation des administrations, la simplification des démarches, l’évaluation et la qualité des services publics. Il regroupe l’ensemble des services en charge de la politique de modernisation de l’action publique. Il instaure une nouvelle cohérence dans la modernisation de l’action publique. Il se compose de la direction interministérielle pour la modernisation de l’action publique (DIMAP), la direction interministérielle des systèmes d’information et de communication de l’Etat (DISIC) et de la mission chargée de la mise à disposition des données publiques (Etalab).

Quelques points marquants de l'appel d'offres méritent d'être soulignés :

Recherche et exploration de données Il s’agit, après une phase de cadrage préalable, de rechercher les données nécessaires à la résolution du problème, qu’elles soient internes à l’administration ou extérieures. En particulier, il s’agit de mobiliser les technologies permettant de collecter de forts volumes de données et de lier entre elles des données jusque-là hétérogènes. A titre d’exemples : - enrichissement de bases de données ; - appariement de données entre elles pour reconstituer un budget, un résultat de politiques publiques; - détection de sources et de bases de données en rapport avec les problèmes à résoudre, tant au sein des administrations que sur des bases de données ouvertes sur Internet ; - formulation de requêtes de données pour chaque analyse à mener ; - mobilisation de logiciels dédiés à la collecte (connecteur, crawler, scraper), l’agrégation et la fusion de données de nature de format et de technologie hétérogènes (web sémantique) ; - création d’entrepôts de données dédiés aux problèmes à résoudre. Exemples de livrables : - jeux de données ; - jeux de données nettoyées et redressées ; - audit des sources de données disponibles ; - étude de cadrage (identification de cas d’usages pertinents, définition de l’architecture pour récupérer, stocker et analyser des données, etc.). Analyse des données Il s’agit de rapprocher les données de façon itérative pour tester plusieurs hypothèses de résolution du problème posé. A titre d’exemples : - méthodes de classification ; - détection de signaux faibles ; - application ou élaboration d’algorithmes ou de modèles prédictifs (machine learning) ; - décomposition des données collectées en mots discriminants pour détecter de nouveaux comportements ou des innovations produits / de services ; - analyses descriptives pour détecter les variables clés influant un résultat de politique publique (service rendu, coûts complets) ; - analyses prédictives pour prédire les résultats d’une politique publique, des comportements bénéficiaires ou le potentiel d’une innovation produits / de service.

Le SGMAP attend de la part des soumissionnaires une grande rigueur. Notamment, une obligation de destruction des données après utilisation dans la mesure ou celles-ci seront souvent non-publiques ("Les données des bénéficiaires (hors données publiques) sont des données internes à l’administration donc soumises au principe de territorialité de leur hébergement.").

Reste à savoir qui peut se positionner et donc, qui risque de remporter l'appel d'offres.

Remember Edward Snowden...

Etant entendu que le gouvernement souhaite faire du prédictif et de l'évaluation des politiques publiques, il semble logique d'imaginer que l'entreprise retenue va avoir accès à des informations très précises sur les français. Sur le plan fiscal ou médical par exemple.

Dans un monde post-Snowden, ce type de possibilité devrait immédiatement faire sonner toutes les alarmes.

En dépit de nos efforts, nous n'avons pas pu savoir qui avait répondu à cet appel d'offres. Le dépouillement est en cours et les responsables de cette consultation sont tenus, expliquent-ils de ne pas s'exprimer. Impossible même de savoir quand le dépouillement sera clos.

Nous allons donc entrer dans une phase d'exploration. Essayer de repérer des "signaux faibles" qui nous permettent de tenter du "prédictif" sur le mode habituel déjà expérimenté avec Amesys et la "théorie abracadabrantesque".

Premier point, il n'existe pas quinze entreprises capables de répondre à un tel appel d'offres, à moins de choisir toute une série de petites start-up (c'est possible selon l'appel d'offre) et de parvenir à les faire travailler main dans la main efficacement.

Celle qui vient immédiatement à l'esprit est Palantir. Selon un article de la Lettre A publié aujourd'hui, Palantir serait positionné sur cet appel d'offres et sur un autre, émis par la Direction générale des finances publiques (DGFiP)...

Cette entreprise américaine (voir sur Wikipedia) est un géant de la data intelligence. Parmis ses clients historiques, la communauté du renseignement américaine, l'armée de l'oncle Sam :

La fuite d'un document vers le site TechCrunch révèle qu'à partir de 2013 les clients de Palantir comprenaient au moins douze groupes au sein de l’administration fédérale, dont la CIA, le DHS, la NSA, le FBI, les US Marines, l' Air force, les Opérations spéciales, West Point, le Joint IED-defeat organization and Allies, le Recovery Accountability and Transparency Board et le National Center for Missing and Exploited Children (centre national pour les enfants disparus et exploités).

L'Observatoire du monde cybernétique, dans sa Lettre n°40 juillet 2015 évoque Palantir et ses premiers investisseurs :

La CIA a créé en 1999 In-Q-Tel14. Ce fond américain de capital-investissement à but non lucratif prend des participations stratégiques dans des entreprises technologiques de pointe, notamment des startups liées à la collecte, l'analyse et au traitement de l'information, en lien avec le renseignement. Les participations permettent souvent d'avoir un siège au conseil d'administration et donc de connaître et de suivre les évolutions technologiques des entreprises. Sa politique d'investissement massif et sans recherche de profits en fait un partenaire privilégié pour les entrepreneurs des domaines de pointe : Gemplus/Gemalto (carte à puce), Recorded Future (cyber threat intelligence), Palantir Technologies (visualisation de données).

Une autre entreprise, avec beaucoup moins de moyens et qui ne joue pas encore dans la cour des grands, mais "française" cette fois, pourrait aussi se positionner : Spallian.

Epinglée par le Canard Enchaîné (numéro du 27/05/2015), Spallian a visiblement tendance à ne pas mégoter sur ses sources d'informations venant nourir son logiciel Corto.

Extrait :

"C’est un joujou très sophistiqué, déjà utilisé par les douanes et Interpol, qui fait tourner la tête de nos élus. Le logiciel Corto a déjà conquis les mairies de Mantes-la-Jolie, Aulnay-sous-Bois, Beauvais, Grigny, Viry-Châtillon et d’autres. Comme la ville de Lyon, qui a claqué 198 000 euros en 2013 pour la mise à jour du gadget. [...] Le logiciel est alimenté en informations allègrement pompées : celles de la police municipale, de la police nationale, comme le Stic, ou le fichier de l’Education nationale, qui recense les actes de violence constatés dans les établissements scolaires. Et encore par les dossiers sécurité des transporteurs, des bailleurs sociaux… Mais pas que. Gardiens d’immeubles un peu fouinards et médiateurs de rue peuvent aussi nourrir la bête informatique de données tout aussi sensibles. Tous les acteurs engagés dans la prévention de la délinquance peuvent ajouter à la tambouille quelques éléments sur les squats de cages d’escalier, sur les rixes familiales, sur les élèves décrocheurs ou les fumeurs de joints. Le logiciel mouline tout ce fatras, et le résultat affiché est censé fournir une cartographie de la délinquance passée et à venir. Magique !"

Spallian sait par ailleurs s'attacher les services d'influenceurs qui peuvent éventuellement aider à suggérer aux décideurs politique un nom...

"Après avoir débauché, en 2012, Olivier Gadan, chargé auprès de Sarkozy des questions numériques, et avoir sollicité Nadine Morano, apporteuse d’affaires, Renaud Prouveur s’est attaché les services de proches de Julien Dray ou de Jean-Jacques Urvoas. Une carte politique presque aussi belle que celle de la criminalité."

Apportons quelques précisions au très intéressant papier du Canard Enchaîné.

Lors d'une démonstration de son logiciel pendant une conférence (ouverte) à l'IHEDN, le patron de Spallian, Renaud Prouveur a fait apparaître de très jolies tâches colorées sur une carte de la ville d'Aulnay. Ces couleurs représentaient "la communauté marocaine". Question évidente : où trouvez-vous ces informations ? Tout simple, selon Renaud Prouveur : les listes électorales que l'on peut acheter.

L'Open Data, ça a vraiment du bon.

Ce qui ne sera pas expliqué dans la démonstration, c'est comment Spallian parvient à déterminer qu'une personne fait partie de "la communauté marocaine" sur la base des listes électorales.

Les listes électorales contiennent par principe les électeurs français. Pas marocains. A moins qu'ils soient bi-nationaux ? Mais dans ce cas, ils seraient une minorité et ne représenteraient plus "la communauté marocaine".

Reste la possibilité de faire des listes sur la base de "l'apparence marocaine" des patronymes dans les listes électorales ?

Palantir : le big boss de la data intelligence

Mais revenons à Palantir. Car cette entreprise a beaucoup plus d'atouts que Spallian pour remporter un tel appel d'offres.

D'une part ses offres sont plus adaptées, d'autre part, elle a déjà de nombreuses expériences à faire valoir au regard de son portefeuille de clients gouvernementaux, privés et militaires aux Etats-Unis.

Mais surtout, elle bénéficie actuellement d'un soutien, sans doute involontaire, de la part de la presse qui la cite désormais assez régulièrement.

Enfin, plusieurs personnes dans l'entourage du patron du SGMAP, ont travaillé ou travaillent pour Palantir.

Henri Verdier, l'homme des décisions

Passé par l'Etalab, Henri verdier a coécrit un livre qui le positionne comme un sachant dans le domaine du numérique. "L'âge de la multitudes", avec Nicolas Colin repose sur l'un des postulats suivants :

"La révolution numérique est derrière nous. Des milliards d’êtres humains sont aujourd’hui instruits et informés, équipés et connectés. Leur désir de créer, de communiquer et de partager n’a jamais rencontré autant de possibilités de passer à l’acte. Ces milliards d’individus composent une « multitude » puissante, mouvante et active, qui bouleverse l’ancien ordre économique et social et ouvre la voie au troisième âge du capitalisme. La multitude est désormais la clef de la création de valeur dans l’économie. Qui sait susciter, capter et redistribuer la créativité de la multitude peut devenir un géant de l’économie numérique. Qui accepte et nourrit la multitude peut gouverner avec une efficacité jamais atteinte. "

Nicolas Colin, le co-auteur, est membre de la CNIL et on le donne favori, qui à la tête de la CNIL, qui à la tête du CNNum dans un avenir proche. La compagne de Nicolas Colin, Laetitia Vitaud a été embauchée il y a quelques mois par Palantir pour un poste de Business developpement. Des indiscrétions la disent actuellement démissionnaire.

Comme nous l'apprend L'Opinion, Heni Verdier est bien entouré : "Son directeur de l'innovation, Romain Lacombe, est un ingénieur talentueux qui sort du MIT et qui a travaillé chez Palantir Technologies".

L'article de L'Opinion évoque par ailleurs l'adjointe d'Henri Verdier, Laure Lucchesi, qui était experte en innovation chez Capgemini consulting. Capgemini allié à Palantir au Canada pour, selon les termes de Capgemini : "fournir aux États des plates-formes techniques destinées à la lutte contre la fraude, le crime et le terrorisme, mais garantissant aussi les libertés individuelles".

La presse à la rescousse

Lorsque toute une série d'articles viennent vanter les mérites d'une entreprise dans plusieurs supports de presse, on peut assez logiquement soupçonner une offensive des services de communication de l'entreprise.

Généralement, cette offensive n'est pas déconnectée d'un "agenda" commercial.

Dans Les Echos du 13 septembre, Michel Levy Provençal (intervenant à Sciences-Po, comme la femme de Nicolas Colin) et Guy-Philippe Goldstein expliquent que Palantir serait un bon outil pour lutter contre Daesh.

Ils ne sont pas les seuls. Dans Ynetnews.com, Ronen Bergman rapporte les propos d'une source anonyme américaine proche des milieux du renseignement et du FBI citée dans un article du quotidien Yedioth Ahronoth. Selon cette source, les Etats-Unis auraient offert leur aide après les attentats de janvier, notamment en proposant à la France d'acheter des outils Palantir. Ce qu'elle aurait refusé.

Sur Widoobiz, on apprend que Palantir est l'outil ultime pour prédire les crimes terroristes. Merveilleux...

Dans Le Monde du 19 novembre, Jacques Follorou, fin connaisseur des services de renseignements et des infrastructures techniques mises en place par la France pour l'écoute massive, nous apprend qu'un "algorithme" existerait, et permettrait de croiser de multiples sources et de surveiller en temps réel les 11.700 personnes "à risque". Cela ressemble à s'y méprendre à des outils Palantir. D'autant que la légende de l'entreprise veut que son système ait été utilisé dans la traque de Ben Laden.

"A en croire le monde du renseignement, la solution résiderait dans la duplication, en France, du système qui a permis aux Etats-Unis de se protéger après le 11 septembre 2001, grâce au Patriot Act, à savoir « une véritable collecte massive de données » et l’interconnexion de tous les systèmes de fichiers. « En croisant les infos et en utilisant un algorithme très puissant déjà connu, nous serions en mesure de surveiller, en temps réel, ces 11 700 personnes, assure la source ministérielle. En croisant des fichiers sociaux, terrorisme, de droit commun et de toute autre forme de collecte de signaux, on aurait le moyen par triangulation de faire des rapprochements et de capter les signaux faibles. »"

Le 13 novembre dernier, La Revue du Digital titrait : "Palantir, le géant controversé du Big Data sécuritaire, recrute en France". Cette action n'est sans doute pas anodine.

Le cloud souverain et la data pas souveraine

Bien entendu, rien ne dit que Palantir sera retenue pour traiter des données françaises pour le compte de l'Etat. Mais tout de même, il y a quelques signaux faibles qui apparaissent sur des points clairs.

Dans le cas improbable où Palantir viendrait à traiter ces données, médicales, fiscales, ou de communication, par exemple, se poserait évidemment la question de la souveraineté numérique du pays. Après les documents Snowden, l'excuse du "on ne savait pas" serait assez malvenue. Particulièrement s'agissant d'une entreprise financée par le bras financier de la CIA.

A l'heure où tout le monde souhaite un cloud souverain, on se demande bien à quoi cela pourrait bien servir si des données essentielles étaient traitées par des entreprises liées à ce point au gouvernement et aux services de renseignement américain.

Cette interrogation était déjà valable il y a vingt ans quand déjà, les entreprises du CAC 40 confiaient aux grands cabinets de consultants anglo-saxons leurs audits financiers et stratégiques. Même réalisés par des filiales européennes ou françaises, les données étaient stockées sur des serveurs accessibles par le siège...

En outre, et on ne le répétera jamais assez, le prédictif à partir de données brutes informatiques compilées depuis plusieurs sources est une porte ouverte à des interprétations totalement erronées. La projection numérique d'une personne n'a parfois rien à voir avec la personne réelle. Ce problème n'est malheureusement pas pris et compte et il faudra peut-être attendre un drame pour que l'on mesure son ampleur. Il sera malheureusement trop tard pour arrêter les expériences des apprentis-sorciers.

0 Commentaires
Une info, un document ? Contactez-nous de façon sécurisée