La tartine

Le machine learning, une nouvelle porte pour les hackers

Émilie Bout · Doctorante
et Valeria Loscrì · Chercheuse à l’Institut national de recherche en sciences et technologies du numérique (Inria)

Mis en ligne le 12 avril 2022

Et si nos objets quotidiens tels que GSM, ordinateurs, thermostats ou caméras de surveillance connectées étaient à la fois des aspirateurs à données et des portes d’entrée pour les hackers ? Ce n’est pas une dystopie et cela pourrait pourrir nos futures vies de connecté.e.s.

Illustration : Philippe Joisson

Au cours des dernières années, les appareils connectés IoT (Internet des objets) ont continué de croître de manière exponentielle dans des domaines variés. D’après le rapport annuel de Cisco¹, le nombre de connexions de ces dispositifs devrait représenter 50 % des 14,7 milliards de connexions prévues en 2023. Présents dans de multiples secteurs tels que la médecine avec les pompes à insuline connectées, l’industrie ou encore le transport avec les voitures connectées, ces outils sont peu à peu devenus une véritable aire de jeu pour les cyberattaquants². À mesure que ces appareils évoluent, ils embarquent par ailleurs avec eux de nouvelles technologies et intègrent notamment des algorithmes de machine learning. Une avancée qui résout certains problèmes mais ouvre aussi des perspectives inédites pour les attaquants.

L’IoT dopé par le machine learning

Avec l’avancée de la technologie, les appareils IoT sont désormais bien plus que de simples capteurs aptes à récupérer des données. Une nouvelle aire combinant l’IoT et le machine learning commence à faire naître des dispositifs de plus en plus intelligents, capables de répondre à des besoins spécifiques pour chaque utilisateur. C’est par exemple le cas de l’Amazon Echo, enceinte qui intègre avec elle des composants supportant le machine learning et qui répond à des requêtes telles qu’allumer une lumière ou jouer une musique. Les voitures autonomes en sont une autre illustration : partant des données récoltées en temps réel, elles arrivent à analyser le trafic et à adapter leur comportement.

Le machine learning résout aussi de nombreux problèmes liés aux appareils en eux-mêmes, en optimisant par exemple leur consommation énergétique ou en adaptant leur connectivité. Des algorithmes de machine learning peuvent ainsi être employés dans les téléphones intelligents afin d’économiser leur énergie. En récupérant des données comme la fréquence et la durée d’utilisation d’une application, il est alors possible de déduire des informations et d’adapter certains éléments en fonction de cela, tels que la luminosité, et par conséquent réduire la consommation énergétique de l’appareil.

Machine learning et cybersécurité

Le développement de solutions de machine learning destinées à la détection d’attaques peut par ailleurs améliorer la sécurité de l’IoT. Les algorithmes d’apprentissage automatique constituent en effet de véritables assistants³ dans différents domaines de la sécurité. Ils servent par exemple à repérer des menaces sur un réseau en surveillant en continu le comportement de ce dernier, permettant de traiter une quantité de données en temps quasi réel. Ils représentent également un soutien essentiel pour les utilisateurs en déduisant les « mauvais comportements » d’un site Web ou d’un e-mail et en les en informant. Enfin, ils nous permettent aussi de protéger nos données stockées en ligne, par l’analyse des activités de connexion suspectes aux applications cloud, en se fondant sur les anomalies de localisation ou d’adresse IP.

Dans le cas de l’IoT, l’effet est néanmoins contrebalancé par la complexité et la variété croissantes des appareils connectés présents sur le marché, qui laissent encore place, au sein des algorithmes de machine learning, à de nombreux vecteurs d’attaques qu’Europol appréhende comme une menace réelle et importante.

Concevoir un algorithme de machine learning

Avant de comprendre comment les attaquants s’y prennent pour déjouer un algorithme de machine learning, il est essentiel d’appréhender le fonctionnement de ce dernier. Dans la plupart des cas, la création se fait en plusieurs phases. La première consiste à entraîner un modèle de machine learning à partir de données prétraitées en amont. Vient ensuite la phase d’utilisation, qui ne commence réellement que lorsque le modèle est fiable. Celui-ci est alors utilisé avec de nouvelles données, dont la provenance dépend du problème à résoudre. Dans le cas d’Amazon Echo, par exemple, il s’agit des instructions fournies par l’utilisateur. Cet éclaircissement fait, penchons-nous sur les trois principaux types d’attaques⁴ visant le machine learning et applicables sur nos objets de l’IoT.

Attaque, mode d’emploi

La première est nommée l’« empoisonnement » : elle a pour but de modifier le comportement de base de l’algorithme. L’attaquant cherche alors à altérer les données utilisées durant la phase d’apprentissage. Une autre attaque particulièrement répandue est l’« évasion » : il s’agit ici de jouer sur les données d’entrée du machine learning en en introduisant une légèrement modifiée tout en restant indétectable afin d’obtenir une décision différente de celle normalement attendue par l’application. L’attaquant tâche de créer l’équivalent d’une illusion d’optique pour l’algorithme.

Les voitures autonomes constituent une cible de choix pour ce type d’attaques. Censées reconnaître, entre autres, les panneaux de signalisation routière, elles peuvent être trompées si une modification en apparence anodine pour l’Homme est introduite. Une étude⁵ a ainsi montré que le simple ajout d’un autocollant sur un panneau stop pouvait mettre l’algorithme en échec, approuvant ainsi à 97 % qu’il s’agissait d’un panneau de limitation de vitesse.

Enfin, il existe l’attaque « par inférence », le but ici étant de déduire le type d’algorithme utilisé, ainsi que les données. Un attaquant teste alors successivement différentes requêtes sur l’application et étudie l’évolution de son comportement – il s’agit dans ce cas d’un vol de données. Cette dernière attaque apparaît particulièrement efficace pour déterminer le comportement d’un système de détection fondé sur du machine learning dans les réseaux IoT.

L’attaque, toujours la meilleure des défenses

Face à leur augmentation constante et inexorable, la clé reste de découvrir et d’étudier en amont les différentes attaques possibles. Les entreprises, la recherche et l’innovation sont ainsi forcées d’anticiper les actions et d’utiliser les mêmes outils et les mêmes techniques que les attaquants afin d’évaluer la sécurité de leurs systèmes IoT ou d’y trouver de nouvelles vulnérabilités.

Se mettre à la place du hacker permet aussi de mieux comprendre le fonctionnement des appareils IoT, en les détournant de leur fonctionnalité première. L’un des objectifs est d’identifier les zones à risques les plus visibles afin de pouvoir créer des solutions le plus rapidement possible. D’ailleurs, élaborer des attaques en laboratoire ne sert pas uniquement à prouver qu’elles sont réalisables. Cela donne également l’occasion de tester les solutions de sécurité existantes, de les améliorer et d’en concevoir de nouvelles.

Si la sécurisation des réseaux IoT est possible, ceux-ci présentent néanmoins encore des faiblesses considérables, alors que le secteur est amené à occuper une place de plus en plus importante dans nos vies. À mesure que ces objets se développent, des failles inédites apparaissent et avec elles les menaces d’attaques, alertant toujours plus sur la nécessité de développer les recherches dans ce domaine.

Article initialement publié sur le site Web de The Conversation le 27 octobre 201 sous le titre sur « Le machine learning, nouvelle porte d’entrée pour les attaquants d’objets connectés » et reproduit avec l’autorisation de The Conversation France.

« Cisco Annual Internet Report », 9 mars 2020. ↩︎
Émilie Bout et Valeria Loscrì, « Appareils connectés et cybersécurité : imaginer des attaques pour apprendre à se défendre », dans The Conversation, 6 juin 2021. ↩︎
Cisco, « What is machine learning in security ? ». ↩︎
Xarole Meziat et Laurent Guille, « Intelligence artificielle et cybersécurité. Protéger dès maintenant le monde de demain », 27 septembre 2019. ↩︎
Kevin Eykholt et al., « Robust physical-world attacks on deep learning visual classification », Cornell University, 10 avril 2018. ↩︎

Sommaire

Intro
Du droit à la vie privée
Parties intimes
Quand les lanceuses d’alerte prêchent dans le désert
L’enjeu écologique des clics
Comment l’État traite-t-il nos données ?
Le machine learning, une nouvelle porte pour les hackers
L’éthique à l’épreuve du numérique