© Christoph Lippert et al., PNAS 2017
Un nouvel algorithme statistique reconstruit presque votre visage à partir de votre seul code génétique. Ce qui questionne l'anonymisation supposée des données personnelles circulant sur internet.

Peut-on identifier une personne à partir de son seul code génétique ? La question prend d'autant plus de valeur que le monde dématérialisé des Réseaux est un immense réservoir à informations où se côtoient données personnelles, données médicales, etc., détenues par différents organismes et qui circulent sous une forme supposément « anonymisé ».

Or des chercheurs de la firme Human Longevity Inc. viennent de montrer qu'avec un bon algorithme il est possible non pas de tirer le portrait exact d'un individu (du moins pas encore) mais de s'en approcher d'assez près, à partir de sa seule séquence génétique « anonyme ». Un résultat intéressant scientifiquement mais qui surtout pointe les risques pour la vie privée et le droit à l'anonymat des individus.

Une identification réussie dans 80% des cas

Dans ce nouveau travail, les chercheurs ont en effet demandé à 1061 volontaires de fournir leur code génétique (via une prise de sang ou autre), qui ont été entrés dans l'algorithme sous forme anonymisée. Sur la base de calculs statistiques, l'algorithme a alors pu déterminer quel code appartenait à quel individu, avec un taux de réussite de plus de 80%.

Ce nouvel algorithme statistique (dit à entropie maximale) a été conçu sur la base de nombreux modèles bio-informatiques déjà connus liant la génétique à des caractéristiques physiques des individus (traits de visage, age, sexe, taille, poids, origine ethnique, couleurs d'yeux, etc.).

Visage, age, sexe, poids, origine ethnique

Dans un premier temps, grâce à des études antérieures liant 36 marqueurs génétiques à la structure d'un visage, l'algorithme calcule sur la base du code génétique des caractéristiques faciales générales, comme la largeur du nez, l'épaisseur des lèvres, la forme osseuse du haut et du bas du visage, la protubérance du front, etc.

Puis, pour améliorer ce portrait-robot assez vague, l'algorithme se sert d'autres marqueurs génétiques permettant d'estimer l'age de la personne (longueur des télomères), la couleur des yeux, le poids (ou plutôt l'indice de masse corporelle), etc.

Enfin, ces résultats sont utilisés comme données de base pour estimer par exemple le sexe et l'origine ethnique. Résultats qui, à leur tour, permettent d'affiner l'aspect du visage.

C'est un problème !

Bref, si pour des raisons médicales ou autres votre génome est stocké (ou circule) sous forme anonyme dans cette machine planétaire qu'on nomme Réseau, il est presque possible de reconstruire votre visage.

Mieux (ou pire) : en comparant ce quasi-portrait aux photos et autres données également disponibles dans le Web, il n'est pas impossible de vous identifier nommément.

Ce type d'exercice, dit d'ingénierie inverse, en est à peine à ses débuts, et les chercheurs pointent la nécessité de modifier les techniques d'anonymisation et la politique générale de circulation de données médicales et autres.