Neurocientíficos, militares y hasta un preso: así trabaja el equipo que ‘hackea’ la IA de Microsoft antes de que llegue al público

Brad Smith, presidente de Microsoft, se toma un segundo para reflexionar y usa la palabra “guardarraíles” con la naturalidad de quien ha pensado mucho en los precipicios. Se celebran unas jornadas sobre la innovación de la compañía en su sede de Redmond (EE UU), al que han sido invitados este y otros diarios internacionales, y EL PAÍS le pregunta cómo y quién determina si la inteligencia artificial (IA) de la empresa puede ser utilizada en un contexto de guerra, como el actual. Hace tan solo unos días que se ha hecho público que la firma de inteligencia artificial Anthropic ha demandado al Pentágono por vetarla tras marcar líneas rojas en el uso de su tecnología. Es el debate del momento en el mundo de las grandes tecnológicas, y es un asunto muy familiar para Microsoft: en 2021, el Pentágono canceló un acuerdo de 10.000 millones de dólares con la entidad tras las protestas de sus empleados. Microsoft, de hecho, ha apoyado a Anthropic en su pelea con el Pentágono.

Seguir leyendo

La compañía cuenta con un “equipo rojo” que evalúa todas las inteligencias artificiales antes de su lanzamiento, y las frena si es necesario

Smith responde: “Tenemos principios, los definimos y los publicamos. Por definición, esos principios crean guardarraíles. Y nos mantenemos en la carretera dentro de ellos. No se trata solo de cuándo debemos usar la tecnología, sino también de cuándo no debemos usarla”.

Microsoft tiene para ello un equipo que hackea sus propios productos: el “equipo rojo” o red team. El nombre tiene historia militar. Los red teams surgieron en los ejércitos para simular ataques enemigos y detectar vulnerabilidades propias antes de que lo hiciera el adversario real. En ciberseguridad, la práctica lleva décadas establecida. Pero aplicarla a la inteligencia artificial generativa es algo relativamente nuevo, y Microsoft se atribuye haber sido pionera, al formar este equipo en 2018. “Antes de que se lance un producto, los equipos rojos rompen la tecnología para que otros puedan reconstruirla más sólida y segura”, explica Ram Shankar Siva Kumar, “cowboy de datos”, según se autodenomina, y líder del equipo rojo. “La IA puede provocar problemas, desde fallos de seguridad hasta daños psicosociales. La gente usa Copilot [la IA de Microsoft] en momentos de gran vulnerabilidad, así que observar cómo pueden fallar estos sistemas antes de que lleguen al usuario es una cuestión fundamental”, explica.

Esta especie de asuntos internos de la IA ha analizado ya más de 100 productos de la compañía. Microsoft no ofrece datos de cuántas personas trabajan en él, ni sobre si se han parado productos ni cuáles. Pero sí asegura que el equipo tiene el poder para hacerlo: “Ningún sistema de IA de alto riesgo se implementa sin antes someterse a una prueba independiente. Si nuestro equipo identifica riesgos graves que no se han mitigado, el producto no se lanza hasta que se resuelvan esos problemas”, asegura Kumar.

La pregunta que se hace el equipo a la hora de analizar un producto antes de que sea lanzado es: “¿Cómo podría usarse este sistema de IA, para bien o para mal, dentro de meses o años?”.

Los “guardarraíles” que mencionaba Smith son seis principios genéricos que el equipo, sin embargo, cree que son muy claros a la hora de examinar los productos: equidad, responsabilidad, transparencia, confiabilidad y seguridad, inclusión, y privacidad y seguridad. Estos principios se transforman, en el día a día, en herramientas concretas. “Si le das a un ingeniero un documento de cincuenta páginas para que implemente esos principios, se va a abrumar. Tenemos una herramienta de código abierto llamada Pyrit; la construimos para nosotros y luego la pusimos a disposición del mundo, porque creemos en la salud del ecosistema”, dice Kumar.

En el equipo rojo hay neurocientíficos, lingüistas, especialistas en seguridad nacional, expertos en ciberseguridad, veteranos militares e incluso una persona que estuvo en prisión “y se rehabilitó”, explica Kumar. Además, se hablan 17 idiomas , y “algunos dialectos del francés, mongol, tailandés, coreano”, según el jefe del equipo, ya que una de las obsesiones del red team, explica, es que la IA no cometa errores en ningún lugar del mundo.

Junto a Kumar dirige las operaciones del equipo rojo Tori Westerhoff, cuyo perfil combina neurociencia cognitiva —estudió en Yale y fue de las primeras miembros de la Iniciativa de Neurociencia de Wharton— y estrategia de seguridad nacional, ya que ha trabajado en agencias de inteligencia y defensa. “Cuando recibimos un encargo”, explica, “emulamos lo que podría salir mal en los extremos de la curva de uso de esa tecnología. Mi equipo profundiza en cómo utilizar ese producto tal como está previsto, y de maneras no previstas, para obtener los casos más extremos y ayudar al equipo de producto a reproducirlos y mitigarlos antes de que puedan ser utilizados por alguien en el mundo real”, añade.

Un ejemplo de su trabajo fue el red teaming, como denominan internamente a su hackeos, de GPT-5, el modelo de OpenIA (socio de Microsoft) lanzado el pasado agosto. Lo que hicieron fue entrenar a otra IA para que intentara hackear al programa, de forma automática y a una escala imposible para humanos.

Cuando probaron GPT-5, el equipo rojo utilizó Pyrit para generar más de dos millones de conversaciones-trampa de forma automática. La IA atacante intentaba engañar a la IA atacada, sin parar, durante días, explorando combinaciones que a un humano jamás se le ocurrirían. Encontrar esos puntos débiles manualmente es un proceso lentísimo; por eso, entrenaron a esa IA para que intentara romper otra IA, “como en Inception”, dice Kumar, en referencia a la película de Christopher Nolan donde los personajes entran en sueños dentro de sueños.

Sin embargo, Westerhoff, Kumar y Daniel Krutz, que dirige la oficina de IA Responsable de la compañía, insisten en una idea: la automatización tiene un límite. “El red teaming solo puede automatizarse hasta cierto punto, y solo los humanos pueden determinar si una respuesta generada por IA les resulta incómoda o representa un sesgo”, asegura la compañía. El criterio lo pone la persona; la escala, la máquina. Esa división del trabajo define la filosofía del equipo.

Westerhoff cree que, de hecho, solo la mente humana es capaz de “imaginar esos espacios que aún no se han observado, que no se han definido completamente ni explorado; nuestro trabajo consiste en innovar y crear más allá del espacio que se ha sistematizado”.

El equipo identifica tres áreas donde la automatización es ciega por definición y el juicio humano resulta imprescindible. La primera tiene que ver con las materias; se necesitan personas para evaluar el riesgo en áreas como medicina o seguridad. La segunda tiene que ver con los lugares donde se lanza esa IA; “necesitamos humanos para tener en cuenta las diferencias lingüísticas y redefinir qué constituye un daño en distintos contextos políticos y culturales”, dice la empresa. Y la tercera, la inteligencia emocional. En última instancia, solo los humanos pueden evaluar el rango de interacciones que los usuarios podrían tener con los sistemas de IA. Un modelo puede pasar todas las pruebas automatizadas y aun así producir respuestas que resulten perturbadoras para una persona real en una situación concreta.

Este modo de ver la IA coincide con la visión de Mustafa Suleyman, uno de los fundadores de Deepmind (ahora parte de Google) y CEO de Microsoft AI. Hace unos días, escribía en la revista Nature: “Una IA aparentemente consciente se puede convertir en un arma”. A medida que los sistemas de inteligencia artificial imitan cada vez más la estructura del lenguaje humano, argumenta, necesitamos normas de diseño y leyes que impidan que sean confundidos con seres sintientes. “Deben seguir siendo fundamentalmente responsables ante los humanos y estar supeditados al bienestar de la humanidad”, escribe Suleyman. “Los agentes de IA no deberían tener más derechos ni libertades que mi portátil”.

La filosofía central que articula el trabajo del equipo rojo es, en fin, que “la IA responsable no es un filtro que se aplica al final del desarrollo, sino una parte fundacional del proceso”, dice Kumar. Son los guardarraíles de Smith, que no actúan en realidad como frenos, sino como condición para ir rápido sin despeñarse.

Tecnología en EL PAÍS

Neurocientíficos, militares y hasta un preso: así trabaja el equipo que ‘hackea’ la IA de Microsoft antes de que llegue al público

La IA acaba con el anonimato en redes: así de fácil es desenmascarar cuentas con seudónimo

Así viven los adolescentes el acceso a la pornografía en sus móviles: “No recuerdo cuándo fue la primera vez”

¿Censura o gran novedad? Qué es HODIO, la herramienta de Sánchez de la que todo el mundo habla

‘Deepfakes’ para suplantar a trabajadores y robos de cine: así crece el cibercrimen como fuente de ingresos de Corea del Norte

Filmografía de un hombre de acción: Cuestión de Honor, Walker, Ranger de Texas y otros grandes papeles de Chuck Norris en el cine y la televisión

De las amenazas en Australia a la ovación en Teherán: las futbolistas iraníes regresan a su país tras renunciar a pedir asilo

Muere Chuck Norris, el tipo más duro del cine americano

El Supremo activa el embargo de bienes a Ábalos y Koldo al no haber presentado los 60.000 euros de fianza que les reclamó en diciembre

El PP se prepara para apoyar el «decreto de derechas» del Gobierno que rebaja impuestos y rechazar el de «izquierdas» que interviene la vivienda

Ricardo Mauricio Camacho Ramírez emociona con una obra poética sobre la pérdida y la reconstrucción emocional

«El librito para aparentar ser culto e incluso llegar a serlo», una reflexión divertida y educativa

Marcos Sánchez Fernández sorprende con su debut literario en «Una historia corriente»

Dean Onimo irrumpe con Reconquista. Legítima defensa, un thriller de venganza que sacude al lector

Maximilian Kasy, economista: “La IA no es un dios que hayamos creado al que ahora debamos someternos”

Tensión en Castro Urdiales por la coincidencia de manifestaciones a favor y en contra del centro de acogida de menores

Beatriz Conejero Martínez publica «Sospecha cautiva bajo el cielo», una novela de ficción cargada de misterio

Fernando Noguera Ballesta lanza “Susurros en la noche” una novela de ficción y denuncia

«Del suelo al cielo», una guía de superación personal que inspira a cambiar el rumbo de tu vida

Vuelve el ‘No a la guerra’: 150 manifestaciones para este sábado y la embajada de EEUU lanza una «alerta» por riesgo de «violencia»

Nerio José Reyes Faría presenta una ambiciosa novela que fusiona ciencia, tecnología y ficción visionaria