Maison >Périphériques technologiques >IA >L'apprentissage automatique pour la sécurité est-il un beau mensonge ?

L'apprentissage automatique pour la sécurité est-il un beau mensonge ?

WBOY
WBOYavant
2023-04-15 20:13:011248parcourir

Traducteur | Bugatti

Critique | Sun Shujuan

L'apprentissage automatique (ML) n'est pas une technologie magique. De manière générale, le ML convient à la résolution de problèmes précis avec de grands ensembles de données, et les modèles d'intérêt sont hautement reproductibles ou prévisibles. La plupart des problèmes de sécurité ne nécessitent ni ne bénéficient du ML. De nombreux experts, y compris ceux de Google, recommandent que lors de la résolution de problèmes complexes, vous ne devriez essayer le ML qu'après avoir épuisé toutes les autres méthodes.

ML combine un large éventail de techniques statistiques : le ML nous permet d'entraîner les ordinateurs à estimer la réponse à un problème, même si nous ne sommes pas programmés à l'avance avec la bonne réponse. Si un système de ML bien conçu est utilisé pour résoudre le bon type de problème, il peut révéler des informations qui autrement ne seraient pas disponibles.

L’environnement informatique de chaque organisation a des objectifs, une architecture, des priorités et des tolérances au risque différents. Il est impossible de créer des algorithmes, du ML ou d’autres produits prenant largement en charge les cas d’utilisation de la sécurité dans tous les scénarios. C'est pourquoi les applications les plus réussies du ML en matière de sécurité combinent plusieurs approches pour résoudre un problème très spécifique. Les exemples typiques incluent les filtres anti-spam, l'atténuation des attaques DDoS ou des robots et la détection des logiciels malveillants.

1. Garbage in, garbage out

Le plus grand défi du ML est de disposer de données pertinentes et utilisables pour résoudre de vrais problèmes. Pour le ML supervisé, vous avez besoin d’un ensemble de données volumineux et correctement étiqueté. Par exemple, pour créer un modèle qui reconnaît les photos de chats, vous devez entraîner le modèle avec de nombreuses photos de chats étiquetées « chat » et de nombreuses photos autres que des chats étiquetées « non-chat ». Si vous n'avez pas assez de photos ou si elles ne sont pas étiquetées avec précision, le modèle ne fonctionnera pas bien.

En matière de sécurité, un cas d'utilisation bien connu du ML supervisé est la détection de logiciels malveillants sans signature. De nombreux fournisseurs de plateformes de protection des points finaux (EPP) utilisent le ML pour étiqueter un grand nombre d'échantillons malveillants et inoffensifs afin de former des modèles sur « à quoi ressemblent les logiciels malveillants ». Ces modèles peuvent identifier correctement les logiciels malveillants mutants évasifs et autres subterfuges (fichiers qui ont été falsifiés afin de pouvoir échapper aux méthodes de détection de signature, mais qui restent malveillants). Au lieu de faire correspondre les fonctionnalités, le ML utilise un autre ensemble de fonctionnalités pour prédire le contenu malveillant, détectant souvent les logiciels malveillants qui manquent aux méthodes basées sur les fonctionnalités.

Étant donné que les modèles ML sont probabilistes, il existe des compromis. Le ML peut détecter les logiciels malveillants qui échappent aux méthodes de signature, mais il peut également ignorer les logiciels malveillants qui échappent aux méthodes de signature. C'est pourquoi les outils EPP modernes utilisent une approche hybride, combinant des techniques de ML et basées sur des fonctionnalités pour obtenir une couverture de protection maximale.

2. Problème de faux positif

Même si le modèle est bien conçu, le ML apportera des défis supplémentaires lors de l'interprétation du résultat, notamment :

  • Les résultats sont des probabilités. Possibilités de sortie des modèles ML. Si votre modèle était conçu pour identifier les chats, vous obtiendriez quelque chose comme « Il y a 80 % de chances que cette chose soit un chat ». Cette incertitude est inhérente aux systèmes ML et peut rendre les résultats difficiles à interpréter. Une probabilité de 80 % qu'il s'agisse d'un chat est-elle suffisamment précise ?
  • Le modèle ne peut pas être ajusté, du moins pas par l'utilisateur final. Pour gérer les résultats probabilistes, les outils peuvent les traiter en résultats binaires en utilisant des seuils définis par le fournisseur. Par exemple, un modèle de reconnaissance de chat pourrait signaler que tout « chat » a une probabilité > 90 % d'être un chat. La tolérance de votre organisation dans ce domaine peut être supérieure ou inférieure à la tolérance fixée par le fournisseur.
  • Les faux négatifs (FN), l'incapacité à détecter un contenu véritablement malveillant, sont un inconvénient majeur des modèles ML, en particulier des modèles mal réglés. Nous n'aimons pas les faux positifs (FP) car ils font perdre du temps. Mais il existe un compromis inhérent entre le taux PF et le taux FN. Les modèles ML sont réglés pour optimiser ce compromis, en donnant la priorité au « meilleur » équilibre entre le taux FP et le taux FN. Cependant, le « bon » équilibre variera d’une organisation à l’autre, en fonction de leur évaluation individuelle des menaces et des risques. Lorsque vous utilisez des produits basés sur le ML, vous devez faire confiance au fournisseur pour choisir les seuils appropriés pour vous.
  • Pas assez de contexte pour la classification des alertes. Une partie de la magie du ML consiste à extraire des « caractéristiques » prédictives mais arbitraires saillantes d’un ensemble de données. Imaginez que l’identification d’un chat soit fortement corrélée à la météo. Personne ne raisonnerait de cette façon. Mais c’est tout l’intérêt du ML : trouver des modèles que nous ne trouverions pas autrement, et ce, à grande échelle. Même si la cause prédite peut être exposée à l’utilisateur, elle s’avère souvent inutile dans les situations de tri des alertes ou de réponse aux incidents. Cela est dû à l’optimisation des capacités prédictives par les « fonctionnalités » qui définissent finalement les décisions du système ML.

3. Est-ce que d'autres noms pour les méthodes « statistiques »

sonnent bien ?

En plus des avantages et des inconvénients du ML, il y a encore une chose à noter : tous les « ML » ne sont pas vraiment du ML. Les méthodes statistiques peuvent vous fournir des conclusions sur vos données. ML fait des prédictions basées sur les données dont vous disposez et sur les données que vous n’avez pas. Les spécialistes du marketing s'appuient sur la popularité du « ML » et de « l'intelligence artificielle », affirmant qu'il s'agit de produits technologiques modernes, innovants et avancés. Cependant, les gens ne se demandent souvent pas si cette technologie utilise le ML, et encore moins si le ML est la bonne approche.

4.Le ML peut-il détecter le contenu malveillant ?

ML peut détecter lorsque le « contenu malveillant » est bien défini et de portée limitée. Il peut également détecter les écarts par rapport au comportement attendu dans des systèmes hautement prévisibles. Plus l’environnement est stable, plus le ML est susceptible d’identifier correctement les anomalies. Mais toutes les exceptions ne sont pas malveillantes et les opérateurs ne disposent pas toujours de suffisamment de contexte pour répondre.

La puissance du ML réside dans l’augmentation, plutôt que le remplacement, des méthodes, systèmes et équipes existants pour obtenir une couverture et une efficacité optimales.

Lien original : https://www.darkreading.com/vulnerabilities-threats/the-beautiful-lies-of-machine-learning-in-security

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer