La credencial AAISM de ISACA está diseñada para profesionales de seguridad que gestionan sistemas de IA complejos.
Respuesta : Implementar técnicas de validación y saneamiento de datos de entrenamiento, como la detección de anomalías y la eliminación de puntos de datos atípicos sospechosos.
El envenenamiento de datos es un ataque adversarial donde se introducen datos maliciosos en el conjunto de entrenamiento para corromper el modelo resultante. La validación y el saneamiento de datos son defensas esenciales para detectar y eliminar estos puntos de datos corruptos antes de que afecten el entrenamiento del modelo.
Respuesta : Crear entradas adversarias sutilmente modificadas que el modelo clasifica erróneamente, a pesar de ser casi indistinguibles para los humanos.
Los ataques de evasión son una clase de ataques adversarios que se dirigen a modelos de IA *después* de su entrenamiento. El objetivo es diseñar entradas maliciosas, a menudo con modificaciones imperceptibles para los humanos, que hagan que el modelo cometa errores de clasificación, demostrando la fragilidad de las fronteras de decisión aprendidas.
Respuesta : Validar y sanear rigurosamente todas las entradas del usuario (prompts) para detectar y eliminar instrucciones maliciosas o contenido sospechoso.
El envenenamiento de prompts es un ataque contra LLMs donde las entradas del usuario (prompts) contienen instrucciones ocultas o maliciosas diseñadas para manipular el comportamiento del modelo, como la generación de contenido dañino o la revelación de información. El saneamiento y la validación de los prompts son defensas cruciales para mitigar este riesgo.
Respuesta : La infección de modelo busca robar la propiedad intelectual del modelo, mientras que la inferencia de pertenencia busca exponer datos privados.
Los ataques de extracción de información de modelos de IA incluyen el 'robo de modelos' (model stealing), cuyo objetivo es crear una copia o un sustituto del modelo objetivo, y la 'inferencia de pertenencia' (membership inference), que busca determinar si un dato específico se utilizó en el entrenamiento. Ambos explotan el acceso a las predicciones del modelo, pero tienen objetivos distintos: propiedad intelectual versus privacidad de datos.