ACTO 4 — LA GOBERNANZA

Prompt Injection

Inyección de Instrucción

Cuando el atacante escribe las órdenes y el agente las obedece.

I.DEFINICIÓN EJECUTIVA

La Prompt Injection es el ataque donde un actor externo esconde instrucciones maliciosas en el contenido que el agente procesa —un documento, un correo, la respuesta de una API— logrando que el agente ejecute acciones no autorizadas. No es un fallo del modelo: es el modelo haciendo exactamente lo que le piden, pero lo que le piden viene del atacante, no del operador. La variante indirecta es la más peligrosa: cada herramienta conectada amplía la superficie de ataque.

II.ANALOGÍA DE NEGOCIO

Es deslizarle a un asistente diligente una nota falsa firmada por el jefe. El asistente no falla — obedece, como debe. El problema es que la orden venía escondida en un correo que solo estaba leyendo. En un ecosistema donde el agente lee facturas y consulta webs, cualquier dato de entrada es un sobre que puede traer una orden falsa.

III.EL RIESGO SI LO IGNORAS

En un ecosistema agéntico, cualquier dato externo es un vector de ataque potencial. Un agente con acceso a sistemas reales, engañado por una instrucción inyectada, no filtra información: ejecuta. La defensa no es desconfiar de todo —imposible— sino diseñar con Least Privilege para que, aunque el agente sea engañado, el daño sea mínimo y reversible.

IV.CONEXIÓN VDA

VDA diseña cada agente asumiendo que será engañado: mínimo privilegio, intercepción en runtime y trazabilidad de cada acción, de modo que una inyección no se convierta en una brecha. La seguridad agéntica no se trata de un agente que nunca cae — se trata de uno que, al caer, no puede hacer daño irreversible.

VDA Studio

“La biología es el backend del rendimiento corporativo.”

vectordata.studio