Enlaces rápidos

    El 12 de junio, el laboratorio de inteligencia artificial (IA) Anthropic suspendió el acceso a sus últimos modelos de Claude, Fable 5 y Mythos 5, que se habían publicado tres días antes.

    La medida se produjo en respuesta a una “directiva de control de exportaciones” del gobierno estadounidense que prohibía el uso de los modelos a cualquiera que no fuera ciudadano estadounidense.

    Mythos es el modelo más poderoso, o “frontera”, de Anthropic. Cuando anunció el modelo en abril, la empresa dijo que era demasiado bueno hackeando para lanzarlo de inmediato. En su lugar, Mythos se puso a disposición de un puñado de organizaciones (principalmente empresas tecnológicas estadounidenses) para que solucionara debilidades en sistemas digitales esenciales.

    Fable es el mismo modelo básico, pero con salvaguardas adicionales para evitar que se utilice con fines de ciberseguridad. Esto fue lo que se hizo público la semana pasada y casi de inmediato se cerró.

    Anthropic y la administración Trump enfrentados

    Desde principios de 2025, Anthropic y la administración Trump han estado en un conflicto creciente. La administración ha acusado a Anthropic de crear una “IA woke” y ha calificado al director ejecutivo Dario Amodei de “lunático ideológico”.

    Los primeros desacuerdos se centraron en la regulación de la IA y la política de exportación de semiconductores. La disputa se agudizó cuando Anthropic se negó a permitir que el Pentágono utilizara sus modelos para la vigilancia doméstica y sistemas de armas totalmente autónomos.

    El Departamento de Defensa respondió amenazando con designar a Anthropic como un “riesgo de cadena de suministro”, una clasificación que habría exigido a los contratistas militares cortar lazos.

    Fugas de la cárcel

    El gobierno de Estados Unidos aún no ha declarado públicamente el motivo de la directiva de la semana pasada, pero Anthropic afirma que cree que el gobierno se enteró de una fuga de la cárcel: un método para eludir las salvaguardas de Fable que impiden el uso de sus características más poderosas con fines nefastos.

    Estas salvaguardas clasifican las solicitudes de los usuarios como seguras o inseguras antes de pasarlas al modelo de IA. Cuando se activan, las salvaguardas redirigen la solicitud a un modelo menos potente.

    La preocupación del gobierno, según Anthropic, era que las salvaguardas pudieran ser eludidas para extraer información útil para ciberataques.

    Las barreras de seguridad para grandes modelos de lenguaje no son a prueba de balas. Dependen principalmente de la capacidad del modelo para interpretar las intenciones del usuario al hacer una petición.

    Más allá de la dificultad inherente a esta tarea, una gran comunidad online (a la que mis colegas y yo llamamos la Undersphere) está trabajando duro para sortear las barreras de seguridad de la IA. Anthropic reconoce que “la resistencia perfecta al jailbreak no es alcanzable para ningún proveedor actual de modelos”.

    Te puede interesar: Nobel de Economía defiende que la IA destruirá empleos pero dará crecimiento

    Anthropic afirma que la investigación detrás de la directiva gubernamental parece haber sido producida por ingenieros de Amazon, que es tanto rival de Anthropic como inversor importante.

    Pero esta no fue la única fuga relevante. En menos de 48 horas tras el lanzamiento de Fable, un investigador que usaba el seudónimo “Plinio el Libertador” publicó lo que identificaron como el prompt completo del sistema de Fable 5 en X y el repositorio de GitHub.

    El prompt del sistema es un conjunto oculto de instrucciones que ayuda a determinar el comportamiento de un modelo de IA. No está claro exactamente cómo se podría usar en la práctica el conocimiento del prompt del sistema de Fable, pero ha llamado la atención en el Subterráneo.

    Una sorpresa – y un misterio continuo

    El problema más profundo de hacer seguros grandes modelos de lenguaje como Fable es que no sabemos completamente cómo funcionan. Según el economista de la Universidad de Oxford y experto en aprendizaje automático Maximilian Kasy, funcionan mucho mejor de lo que “deberían”.

    Los grandes modelos de lenguaje tienen miles de millones de parámetros internos y se entrenan sobre montones de datos inimaginablemente vastos usando métodos de aprendizaje automático. Según Kasy, esperaríamos que tales sistemas estuvieran “sobreajustados”: buenos para reproducir patrones en sus datos de entrenamiento, pero malos para generalizar a nuevas situaciones.

    Sin embargo, sistemas modernos como Claude y ChatGPT parecen poder generalizar. Kasy compara el desarrollo moderno de la IA con la alquimia: exitoso por prueba y error, aún sin fundamentarse en la teoría sistemática.

    Como resultado, el comportamiento de los modelos de IA es en parte opaco incluso para sus creadores.

    Difícil de regular

    La opacidad de la tecnología es una de las principales razones por las que es tan difícil de regular. Los gobiernos carecen de acceso independiente a los datos, infraestructuras y experiencia que necesitarían para evaluar modelos fronterizos propietarios.

    La reciente orden ejecutiva de la administración estadounidense sobre seguridad en IA, publicada hace dos semanas, refleja esta constatación. A medida que la administración ha comprendido el poder de los modelos de IA de vanguardia, ha pasado de una postura inicial de no intervención a pedir a los desarrolladores que compartan sus modelos para su revisión antes del lanzamiento.

    Esa exigencia es una admisión implícita de que la administración no confía en que las empresas evalúen, de forma completa y exhaustiva, lo que sus propios modelos pueden hacer ni cómo podrían ser mal utilizados. El público ve aún menos, y la consecuencia es medible: una encuesta realizada el año pasado en 25 países encontró que, en conjunto, la gente está más del doble de preocupada por la IA de la que entusiasmada por ella.

    El futuro de la seguridad en IA

    La IA es una tecnología muy promocionada. Pero no hay duda de que también es extremadamente poderosa e impredecible. Comprensiblemente, esta combinación es muy peligrosa.

    No podemos depender de regulaciones, ya que la tecnología se desarrollará más rápido de lo que puede adaptarse. Tampoco podemos confiar en barreras de seguridad, ya que serán evitadas.

    Necesitamos un marco de gobernanza construido para esa eventualidad: uno que pueda predecir y abordar las consecuencias del fracaso.

    Dicho marco debe ser global, participativo y basarse en la confianza recíproca. Estas son cosas que la actual administración estadounidense ha demostrado poco poder generar.

    *Francesco Bailo es Profesor titular de Análisis de Datos en Ciencias Sociales, Subdirector del Centro de IA, Confianza y Gobernanza de la Universidad de Sídney.

    Este artículo fue publicado originalmente en The Conversation/Reuters

    ¿Te gustan las fotos y las noticias?, síguenos en nuestro Instagram