L’INTELLIGENCE ARTIFICIELLE EST-ELLE EN PASSE DE RÉVOLUTIONNER LA DÉTECTION DES CYBER-ATTAQUES ?
Incontestablement, l’Intelligence Artificielle (IA) est devenue en quelques années l’axe d’innovation majeur des grands acteurs de l’Internet et des industriels de défense. En matière d’IA, on distingue trois grandes catégories : l’IA symbolique s’appuyant sur des systèmes à base de règles capables de conduire des raisonnements, l’IA statistique avec le Machine Learning (ML) et enfin l’IA connexionniste à base de réseaux de neurones. Si les algorithmes de l’IA n’ont pas fondamentalement changé en l’espace de plusieurs décennies, l’évolution significative des puissances de calcul et la prolifération des sources de données permettent désormais d’envisager de nombreuses applications du ML dans le domaine de la défense, en particulier en cyber...
En quelques décennies, le cyberespace est devenu un espace de combat à part entière où les grandes puissances sont confrontées non seulement à des cybercriminels motivés par des gains financiers mais également à des acteurs étatiques impliqués dans une guerre économique et informationnelle permanente.
Si l’IA peut être envisagée dans les domaines offensif et défensif, c’est principalement dans le domaine de la détection des attaques et de la Threat Intelligence qu’elle peut jouer un rôle clé.
« DÉTECTER... DES REQUÊTES HTTP SUR UN DOMAINE INHABITUEL... »
Les apports de l’IA en matière de détection des attaques On peut envisager plusieurs champs d’application des algorithmes de l’IA.
D’abord dans le domaine des sondes de détection d’intrusion
(IDS) : de nouveaux types de sondes ou de modules d’analyse de journaux viennent désormais compléter les traditionnels systèmes à base de signatures et de règles de corrélation. Ils permettent d’une certaine façon de s’affranchir des difficultés liées à la gestion des signatures, principales causes d’échec des projets de supervision de la sécurité. Lorsqu’il s’agit de détecter des changements de comportements dans des flux particulièrement prédictibles comme pour les systèmes industriels, l’IA s’avère particulièrement efficace.
Ensuite, l’IA peut être d’une aide précieuse dans les Security Operation Center (SOC) pour aider les analystes à identifier les faux positifs. On pourrait être tenté de penser qu’il suffit d’améliorer les règles de détection traditionnelles pour les rendre plus sélectives mais généralement, cette démarche conduit à augmenter le taux de faux négatifs. Si par le passé, on s’est concentré sur la recherche du meilleur compromis entre faux positifs (alertes remontées à tort) et faux négatifs (attaques avérées non détectées), on peut désormais envisager d’abaisser les seuils de détection et recourir à l’IA pour « filtrer » les faux
positifs remontés par les systèmes traditionnels.
L’IA peut également s’appliquer astucieusement dans le domaine de l’analyse de la menace (Cyber Threat Intelligence ou CTI). Cette discipline permet de constituer et d’exploiter une base de connaissances des modes opératoires d’attaque autour :
- Des outils d’attaque ; • Des infrastructures permettant
de délivrer les charges malveillantes ou de contrôler les codes malveillants déployés ;
- Des catégories de victimes ciblées et leur secteur industriel ;
- De l’identité des attaquants.
De l’analyse de ces modes opératoires sont extraites des signatures destinées aux systèmes de détection traditionnels. Aujourd’hui, les activités de la CTI sont principalement réalisées sur un mode réactif. Les analystes prennent en compte les informations issues d’attaques observées pour en déduire des indicateurs de compromission pertinents. L’IA appliquée à la CTI peut permettre de passer d’un mode réactif à un mode proactif afin de détecter de manière précoce le déploiement progressif des infrastructures d’attaque. Cela passe par exemple par l’analyse automatisée de flux de données liés aux infrastructures de l’Internet (domaines DNS récemment enregistrés...).
L’IA et la détection des attaques : un mariage semé d’embûches Dans le domaine de la détection des attaques, la problématique consiste souvent à détecter des anomalies dans des données d’entrée de différentes natures comme des journaux d’équipements réseau ou des alertes produites par des équipements de sécurité. A de rares exceptions près, les anomalies recherchées correspondent à des phénomènes peu fréquents : requêtes HTTP sur un domaine inhabituel, requêtes DNS sur des noms de domaines à forte entropie, présence d’une bibliothèque système sur un unique ordinateur d’un parc...
La détection de ce type d’anomalies peut traditionnellement se faire à l’aide de techniques de ML supervisées ou non supervisées.
En pratique, la déclinaison du ML à la détection des cyber-attaques se heurte à plusieurs difficultés. D’abord, les algorithmes supervisés sont plus difficilement applicables car ils nécessitent un entraînement sur des données labellisées. Or si les données ne manquent pas, notamment dans les SOC, leur labellisation est déjà plus difficile à obtenir. On peut imaginer de s’appuyer sur les mécanismes de détection traditionnels à base de signatures ou de règles de corrélation pour obtenir une labellisation mais l’algorithme supervisé apprendra souvent des phénomènes déjà connus et détectables par d’autres moyens. Pour ce qui est des attaques ciblées plus complexes, les jeux de données sont encore trop peu nombreux pour alimenter efficacement les algorithmes supervisés. Quant aux algorithmes de détection d’anomalies non supervisés, les phénomènes peu fréquents qu’ils permettent de mettre en évidence sont souvent des exceptions légitimes liées au cycle de vie d’un SI. Identifier les attaques parmi les nombreux phénomènes peu fréquents mis en exergue n’est donc pas une mince affaire. Et pour couronner le tout, le ML est souvent impuissant pour fournir à un analyste une explication rationnelle à une alerte remontée.
Enfin, la conception de modules performants de détection à base d’IA nécessite de constituer un terreau fertile rassemblant 3 éléments essentiels :
- Les data scientists, capables d’identifier les algorithmes les plus efficaces pour une problématique donnée ;
- Les experts en détection d’intrusion et en Threat Intelligence dont la connaissance des modes opératoires d’attaque est incontournable ;
Des données opérationnelles représentatives du fonctionnement normal d’un SI et des attaques qu’il a déjà subies. Or la collaboration entre data scientists et experts en sécurité nécessite une ouverture d’esprit toute particulière pour que les uns comprennent que des jeux de données parfaitement labellisées n’existent pas et les autres que les algorithmes de ML ne s’appliquent pas pas tels quels sur leurs données.
Retour d’expérience de l’application de l’IA à la cyberdétection Au rang des enseignements les plus significatifs, figure incontestablement l’importance de ce que l’on appelle communément le Feature Engineering. Ce dernier consiste à retravailler les variables qui caractérisent chaque donnée d’entrée pour en décliner des variables porteuses d’un signal fort. Il s’agit généralement de :
- transformer les variables (calcul d’une entropie...) ;
- ajouter des variables dérivées issues de bases d’informations contextuelles (localisation géographique...).
Un très bon Feature Engineering repose généralement sur une parfaite collaboration entre data scientists et experts en cybersécurité.
Par ailleurs, les expérimentations montrent que l’IA permet au mieux d’améliorer la qualité du travail des analystes mais en aucun cas de les remplacer pour pallier le déficit actuel d’experts en cybersécurité. Enfin, il ne faut pas oublier que le ML n’est qu’un sous-domaine de l’IA dans lequel les machines produisent un résultat qui n’est ni prouvable ni explicable. Ainsi, combiner ce type d’approche avec des systèmes à base d’IA symbolique est probablement une piste prometteuse à explorer.
Aucun commentaire
Vous devez être connecté pour laisser un commentaire. Connectez-vous.