Het verdedigen tegen Adversarial AI-aanvallen: een eerste overzicht
Zo snel als de AI-toepassingen en -mogelijkheden zich ontwikkelen, nemen ook de pogingen om de kwetsbaarheden ervan te exploiteren toe. En hoe langer deze trend zich aanhoudt, hoe belangrijker het onderwerp AI-robustheid wordt voor degenen die Machine Learning-modellen ontwikkelen, implementeren of er gewoon mee werken. Dus, een hot toppic in het onderzoeksveld van Adversarial AI.
Om het potentieel van AI te benutten en de veiligheid te waarborgen, moeten verdedigingen tegen deze Adversarial AI-aanvallen worden ontwikkeld en geïmplementeerd. Ondanks de snelle groei van het huidige onderzoeksveld, ontbreekt het nog aan structuur en duidelijkheid. Hierdoor is het voor de verdedigers moeilijk om de juiste verdedigingen voor hun Machine Learning-modellen effectief te selecteren. Bovendien kan dit gebrek aan overzicht ertoe leiden dat de onderzoeksinspanningen de ontwikkelaars niet goed bereiken.
Verdedigen tegen Adversarial AI-aanvallen
Voortbouwend op het Whitepaper van 2023 (in EN) (pdf) waarin de vijf belangrijkste soorten Adversarial AI-aanvallen worden beoordeeld, levert TNO nu een eerste overzicht van bestaande verdedigingen tegen alle vijf soorten aanvallen die gericht zijn op Machine Learning-modellen in het cyberdomein. Met behulp van de inzichten die dit overzicht biedt, schetst de nieuwe Whitepaper verschillende overkoepelende trends die zich voordoen in het verdedigingsveld. Hiermee bieden we ontwikkelaars en besluitvormers de kennis die nodig is voor het selecteren van de juiste verdedigingen voor hun modellen. Bovendien markeren we voor onderzoekers de aspecten van het verdedigingsveld die nog ontbreken.
Hoewel dit overzicht de eerder ontbrekende structuur en duidelijkheid biedt, is voortdurend onderzoek nodig om de verdedigingen goed te evalueren en hun geclaimde prestaties te verifiëren. Dit blijft een aanzienlijke uitdaging binnen dit veld.
Lees er meer over:
Robustness of Machine Learning Systems: an Overview of Defences against Adversarial AI Attacks.