Image
© Inconnu
Le Projet de loi Renseignement a déjà fait briller beaucoup de pixels. Énormément de choses très justes ont déjà été écrites, mais on m'a demandé de donner mon avis sur le sujet, alors j'ai décidé de faire une sorte de synthèse et d'y ajouter mon grain de sel de doctorant en fin de thèse de sécurité informatique.

Le but annoncé de cette loi est d'élargir les compétences tout en encadrant les pratiques des services de renseignements, particulièrement en ce qui concerne la surveillance des réseaux de télécommunications. Il y a déjà tout un arsenal de lois qui permettent de surveiller ces réseaux: LPM, LCEN, LOPPSI, pour ne citer que les plus connues. Ces lois ne sont visiblement pas efficaces pour lutter contre le terrorisme. À part les stratégies (souvent ridicules) de force brute, il y a peu de choses dont le manque d'efficacité vient du fait qu'on ne les utilise pas assez. Mais admettons que ce soit le cas de la surveillance des réseaux.

L'objectif est donc de surveiller plus et mieux les réseaux. Comment ? Grâce à des « boîtes noires » qui seraient placées (entre autres) chez les fournisseurs d'accès à internet (FAI), c'est-à-dire chez Orange, Free, SFR, et Bouygues. Il existe d'autres FAI bien sûr, mais plus petits et donc moins intéressants, et qui ne sont donc généralement pas concernés par ce genre de mesures. C'est systématiquement le cas avec les blocages administratifs de sites web : par exemple, The Pirate Bay ou T411 ont été bloqués par décisions de justice seulement chez les quatre principaux FAI. Mais admettons que cette fois-ci ce soit sérieux, et que la loi suppose que les terroristes seraient assez malins pour utiliser des FAI alternatifs si ceux-ci n'étaient pas surveillés.

Alors on a des boîtes noires partout. Mais comment font-elles pour surveiller les terroristes et seulement les terroristes ? Elles doivent capter les données qui transitent sur le réseau et les traiter au moyen d'algorithmes. Contrairement à ce que semble croire nos gouvernants, « algorithmes » n'est pas une formule magique qui résout les problèmes. Un algorithme, c'est une suite d'instructions (comme une recette de cuisine) qui travaille sur des entrées (les ingrédients) pour fournir une sortie (le plat réussi) ou une autre (le plat brûlé et la sonnerie du détecteur de fumée). Il leur faut donc des données d'entrées pour travailler. On a beau nous dire que la méthode de récupération relève du secret-défense, la seule solution qui ne relève pas de la magie noire est le deep packet inspection (DPI).

Le DPI est une technologie inventée par des chercheurs français (au LIP6), qui sert à regarder en temps réel à l'intérieur des paquets IP (les données qui circulent sur le réseau sont découpées en ces petits paquets pour des raisons pratiques) qui passent sur le sur le réseau, par exemple pour pouvoir donner la priorité à certains de ces paquets. Donner la priorité à certains types de paquets peut par exemple servir à ce que la télé sur ADSL reste fluide, au détriment de vos visites de pages web (on préfère attendre une seconde de plus le chargement d'une page web que de rater une réplique de sa série télé). Mais le DPI peut aussi servir à espionner ou à censurer. Cette technologie est commercialisée principalement par des entreprises comme Qosmos ou AMESys, qui ont déjà pour clients l'État (via la DIRISI et la DGA) et certains FAI, mais aussi d'autres clients moins recommandables comme le Qatar, la Lybie, l'Arabie Saoudite, le Gabon, le Kazakhstan... qui utilisent évidemment ces technologies à des fins tout à fait démocratiques, pour la sécurité de leur population. Et ces entreprises qui vendent des outils de surveillance de masse à des dictatures sont financièrement soutenues par la Banque publique d'investissement (Bpifrance), et donc avec la complicité de l'État.

Bernard Cazeneuve a prétendu qu'il n'y aurait pas de DPI dans les boîtes noires. C'est pourtant nécessaire à la récupération par ces boîtes noires des fameuses « méta-données ». Les méta-données sont les informations sur les données en transit. Par exemple, le fait qu'un paquet corresponde à un courriel, à une page web, à une discussion Skype, à du trafic chiffré Tor ou OpenVPN, etc. Plus précisément pour un courriel par exemple, les méta-données contiennent entre autres son auteur, son destinataire, sa date d'envoi, son sujet, l'adresse IP de son auteur, le logiciel utilisé pour envoyer le courriel, le chemin que celui-ci a parcouru sur le net depuis son envoi... C'est à dire beaucoup d'informations absolument pas anonymes. Et on nous promet que le contenu lui même ne sera en revanche pas récupéré, mais l'algorithme étant secret, il n'y a aucune raison d'accorder foi à cette affirmation. Pas plus qu'à celle relative à l'absence de DPI.
Une autre chose étrange qu'on nous raconte est cette histoire de « désanonymisation » des données recueillies seulement quand c'est jugé nécessaire. C'est un contresens : si une donnée est anonyme, on ne peut pas la désanonymiser simplement de manière sûre. Si c'est possible c'est qu'il existe encore un lien entre la donnée et l'identité qui lui est associée...
Mais admettons que ces données soit stockées de manière parfaitement sécurisée, et supposons qu'aucune erreur humaine ne permette à des personnes mal intentionnées d'y accéder (en sécurité, ça fait un peu trop de suppositions).

Maintenant qu'on sait à quel genre de données l'algorithme aura accès, on peut essayer de comprendre ce qu'il va en faire. Il y a évidemment plusieurs possibilités, mais deux principales. La première est d'établir un certain nombre de règles, prédéfinies, choisies directement par des humains, qui déclenchent des alarmes. Dans ce cas, il faudrait pouvoir cibler très précisément le comportement d'un (futur) terroriste et le différencier d'un comportement « normal ».
Comment savoir, quand quelqu'un reçoit un courriel étrange, s'il a été sollicité ou non ? Comment savoir, quand un trafic est chiffré avec OpenVPN, si c'est un terroriste qui essaye de se cacher, ou bêtement un employé d'une entreprise qui travaille à distance, ou encore quelqu'un qui essaye de faire croire à YouTube qu'il est dans un autre pays pour avoir accès à une vidéo qui est bloquée dans le sien ? Comment savoir si une personne qui regarde une vidéo de Daesh est un terroriste en devenir, un journaliste, un étudiant qui prépare un dossier, ou un simple curieux ? Définir des règles suffisamment précises est techniquement impossible.
L'autre possibilité est de faire de l'apprentissage, c'est-à-dire laisser l'algorithme faire évoluer ces règles pour les rendre de plus en plus précises. Cela semble une bonne idée à première vue : c'est comme cela que Google ou Facebook vous affichent de la publicité personnalisée et qu'Amazon sait avant vous quel livre vous aurez envie de lire ensuite. Et pour eux, ça fonctionne plutôt bien. Seulement, ce n'est pas aussi simple dans le cas de la lutte contre le terrorisme. D'une part, contrairement aux utilisateurs de ces géants du web, les terroristes vont essayer de se cacher ; et d'autre part, le nombre de terroristes est extrêmement faible. Cela signifie qu'il est impossible d'avoir suffisamment de données fiables pour apprendre et affiner des règles de détection, et il n'est, de plus, absolument pas dit que les comportements des terroristes aient suffisamment de points communs « anormaux » pour pouvoir les différencier du reste des comportements.

Justement, le reste des comportements, quand on veut être précis, il faut aussi apprendre à les reconnaître. Dire que " puisque seuls les terroristes sont recherchés, ce n'est pas de la surveillance de masse", comme le font les défenseurs de ce projet de loi, c'est jouer sur les mots de manière assez hypocrite : « On voit tout, mais on ne vous regarde pas ! ». La vérité, c'est qu'il va bien falloir observer des profils « normaux » pour apprendre à les différencier des terroristes. Même en admettant que tout le monde ne soit pas surveillé, on est bien obligé de se dire que non seulement n'importe qui peut l'être, mais surtout que n'importe qui le sera, et peut-être vous. Il s'agira donc dans les faits de surveillance de masse. Ignorant si vous êtes surveillé à un moment précis, vous serez obligé de vous comporter comme si c'était le cas à tout moment. C'est ce qu'on appelle une société panoptique, précisément ce contre quoi Orwell met en garde dans 1984.

Maintenant, admettons qu'il existe un super algorithme qui fonctionne vraiment très bien, qui donne le bon résultat dans 99,5% des cas (c'est déjà totalement fantaisiste). Imaginons que sur 65 millions de Français il y ait 1 000 terroristes. L'algorithme va détecter 1 000 × 99,5% = 995 terroristes sur les 1000, mais aussi (65 000 000 - 1000) × 0,5% = 324 995 faux positifs ! Bien sûr, pour chaque détection, il faudra nécessairement mener une enquête - coûteuse en moyens humains et financiers - pour être sûr que la détection correspond à un vrai terroriste. Sinon, après un attentat, comment expliquer que le terroriste a fait sonner des alarmes mais n'a pas été l'objet d'une surveillance plus poussée ? Les ressources seront donc massivement utilisées pour des faux positifs, ce qui est profondément contre-productif. En plus de cela, il serait gênant d'ignorer le petit nombre de faux négatifs : 5 terroristes non détectés sur 1000, c'est déjà beaucoup !

Pour finir, rappelons que le droit à la vie privée est une liberté fondamentale, contrairement à ce que semblent penser entre autres Jean-Jacques Urvoas et Bernard Cazeneuve. Ce n'est pas pour rien que la Charte des droits fondamentaux de l'Union européenne le reconnaît comme tel (cf. article 7). C'est dans la nature humaine de se comporter différemment quand on se sent observé sans notre consentement (et on observe même ce comportement chez certains animaux non-humains !). Qui n'a jamais arrêté de chanter ou danser en se rendant compte qu'il n'est pas seul ?

Plus important encore, il faut être conscient qu'une société dans laquelle on ne peut absolument plus enfreindre la loi ni vivre en dehors des bonnes mœurs et des règles de la bienséance est une société qui par définition ne peut plus évoluer : impossible d'y faire quelque chose de nouveau, d'inédit, d'inventif. Une fois mis en place, les dispositifs prévus par la loi Renseignement faciliteront énormément ce genre de dérives. Toute donnée interceptée pourra être conservée pendant 5 ans, voire indéfiniment si elle est chiffrée. Qui sait ce que réservent les modifications des périmètres d'utilisation d'outils de renseignement aussi puissants dans le futur ? Sans même parler du futur, le débat actuel est habilement concentré sur la lutte contre le terrorisme, mais déjà aujourd'hui c'est loin d'être la seule portée de la loi : les moyens de surveillance sont d'ores et déjà prévus pour servir d'autres domaines définis par le projet de loi tels que « l'indépendance nationale », « les intérêts majeurs de la politique étrangère », ou « les intérêts économiques industriels et scientifiques majeurs de la France ».

La séparation des pouvoirs est elle aussi foulée aux pieds : il n'est pas prévu qu'un juge encadre les mises sous surveillance, et l'avis de la Commission nationale de contrôle des techniques de renseignement (CNCTR) est uniquement consultatif. Enfin, la loi n'encadre pas vraiment les pratiques du renseignement français à l'extérieur du territoire, et il n'est pas techniquement impossible (ni si difficile) d'écouter ce qui se passe en France depuis l'étranger, y compris les communications France-France.

On a donc affaire à une loi liberticide et qui aura toutes les chances d'être inefficace.