Tras desatar frenesí en la comunidad IA: no, DeepSeek no es un 'momento Sputnik' • IA • Forbes México

Hasta aquí llegó el pánico provocado por Deepseek. Tiempo después de que la empresa china revolucionara la industria tecnológica con un modelo de IA que rivalizaba con los de las empresas estadounidenses tradicionales con una fracción de los costos de desarrollo, está quedando claro que el pánico que le robó más de 450 mil millones de dólares a Nvidia y desató un frenesí en toda la comunidad de IA fue más un sobresalto desdentado que una amenaza tecnológica legítima.

Para George Morgan, director ejecutivo de Symbolica, una startup con sede en San Francisco que ha trabajado arduamente para diseñar modelos igualmente rentables, todo esto es un poco vergonzoso. “La reacción del mercado a esto es completamente equivocada y desinformada”, dijo Morgan a Forbes . “Francamente, creo que es principalmente una reacción política. Si se tratara de una empresa LLM con sede en Estados Unidos, supongo que no habría recibido tanta atención como DeepSeek”.

La verdad es que diseñar modelos básicos más rentables como el de DeepSeek no es nada nuevo. Se ha estado trabajando en ellos durante años. Pero hay otro problema: DeepSeek afirma que entrenó un gran modelo de lenguaje con una capacidad de procesamiento o computación de apenas 5,6 millones de dólares. Resulta que esa cifra es un poco engañosa.

“Hay que tomar los 5,6 millones de dólares con pinzas”, dijo Richard Socher, director ejecutivo de la herramienta de búsqueda de IA You.com, y agregó que representa el costo de una sola ejecución de entrenamiento (el proceso de enseñarle a un modelo mostrándole una gran cantidad de datos). Pero un modelo de lenguaje grande creado desde cero generalmente requiere muchas más ejecuciones de entrenamiento de este tipo, a veces miles. DeepSeek redujo sus costos al entrenar sobre la base de grandes modelos de lenguaje de código abierto creados por otros, incluido Llama de Meta. El propio documento técnico de la empresa explica que la cifra de 5,6 millones de dólares no incluye el costo de la investigación previa en la que se basa, una admisión de que sus costos de entrenamiento reales son mucho más altos de lo que deja ver.

A principios de esta semana, la directora ejecutiva de Writer, May Habib, puso los ojos en blanco ante el escándalo de DeepSeek precisamente por este motivo. “Esto no sorprende a nadie que haya estado prestando atención”, dijo, y agregó que su empresa emergente de inteligencia artificial empresarial ha entrenado modelos más baratos desde el principio. Itamar Friedman, director ejecutivo de la herramienta de codificación de inteligencia artificial Qodo, se mostró igualmente escéptico. “Tal vez el último botón que [DeepSeek] presionó necesitaba esta cantidad de computación o esta cantidad de hardware”, dijo. “Pero no incluye todo el gasto que condujo hasta ese punto”.

Esto no quiere decir que parte del revuelo en torno a DeepSeek, cuyos modelos ya se están incorporando a algunos productos de inteligencia artificial estadounidenses, no esté justificado. La empresa utilizó una técnica ampliamente conocida llamada aprendizaje de refuerzo para lograr mejores resultados y puso la tecnología de vanguardia a disposición de todos para que la usen y la repliquen. Eso es algo muy importante. Pero quizás hay algo aún más importante que no es técnico en absoluto: DeepSeek ha obligado a iniciar una conversación pendiente sobre cómo hacer más con menos en un momento en que Sam Altman, fundador del gigante de la inteligencia artificial OpenAI, valorado en 157.000 millones de dólares, busca miles de millones de dólares para construir centros de datos en todo el país para sus modelos inteligentes.

“Creo que están rompiendo la burbuja de ‘hay que tener todos los recursos y toda la energía del mundo para construir estos modelos’”, dijo a Forbes Timnit Gebru, fundador del Instituto de Investigación de Inteligencia Artificial Distribuida . “Están haciendo que la gente cuestione sus decisiones. Eso atenúa la histeria en torno a las inversiones en IA porque están diciendo: ‘Aquí, nosotros también podemos hacerlo’”.

No es de extrañar, entonces, que haya surgido una guerra de palabras junto con la batalla por reducir los costos de capacitación. Días después de que el modelo de DeepSeek causara revuelo, OpenAI alegó que la empresa china extrajo resultados de sus modelos propietarios para crear sus sistemas de IA (un proceso llamado destilación ), violando así los términos de servicio de la empresa, según confirmó OpenAI a Forbes . “Sabemos que grupos en la República Popular China están trabajando activamente para utilizar métodos… para tratar de replicar los modelos avanzados de IA de Estados Unidos”, dijo Hannah Wong, directora de comunicaciones de OpenAI, a Forbes en una declaración enviada por correo electrónico. “Tomamos contramedidas agresivas y proactivas para proteger nuestra tecnología y continuaremos trabajando en estrecha colaboración con el gobierno de Estados Unidos para proteger los modelos más capaces que se están construyendo aquí”.

Para OpenAI, que entrenó sus potentes modelos recopilando datos de todo Internet , incluidos los de derechos de autor, y que como resultado fue demandada por empresas de noticias y un grupo de autores, esa es una postura bastante difícil de adoptar. “Es ridículo”, dijo Gebru. “Es un poco risible”. Después de todo, la empresa está argumentando literalmente que es justo utilizar datos públicos para el entrenamiento de la IA en las demandas antes mencionadas.

Pero el verdadero punto aquí es que DeepSeek no es la primera empresa en hacer lo que ha hecho. Microsoft construyó su familia de pequeños modelos de lenguaje llamados Phi entrenándolos con resultados de modelos superiores como el GPT-4 de OpenAI. Como Douwe Kiela, CEO de la startup empresarial Contextual AI, lo expresó escuetamente: “DeepSeek no tuvo un “avance de investigación novedoso”.

“Es un poco sensacionalista, como si dijera: ‘Oh, esto lo cambia todo. Es el momento Sputnik’”, dijo el ex científico investigador de Meta, refiriéndose a una declaración ampliamente citada del fundador de A16, Marc Andreessen. “Creo que está muy lejos del momento Sputnik”.

Este artículo fue publicado originalmente por Forbes US.

Te puede interesar: Elon Musk dice que está dirigiendo sus empresas ‘con gran dificultad’ mientras las acciones de Tesla se desploman

Busqueda

Enlaces Rápidos

Tras desatar frenesí en la comunidad IA: no, DeepSeek no es un ‘momento Sputnik’

MÁS COBERTURA

También te puede interesar

Pérdidas de fabricantes de chips arrastran al Nasdaq

Empresa china DeepSeek está desarrollando su propio chip de IA

DeepSeek busca recaudar 300 millones de dólares en nueva ronda de inversión en IA

DeepSeek busca financiación con una valoración de 10,000 mdd, según The Information

Revelan que el misterioso modelo de IA es de Xiaomi tras sospechar de que se trataba de DeepSeek V4

Empresa china DeepSeek está desarrollando su propio chip de IA

DeepSeek busca recaudar 300 millones de dólares en nueva ronda de inversión en IA

DeepSeek busca financiación con una valoración de 10,000 mdd, según The Information

Revelan que el misterioso modelo de IA es de Xiaomi tras sospechar de que se trataba de DeepSeek V4

Un misterioso modelo de IA tiene a los desarrolladores revolucionados: ¿Será este el último éxito de DeepSeek?

DeepSeek retiene el último modelo de IA de los fabricantes de chips estadounidenses, incluida Nvidia

Un año después del impacto de DeepSeek, habrá una avalancha de modelos chinos de inteligencia artificial de bajo costo

Grok de Elon Musk supera a DeepSeek y se convierte en el tercer chatbot de IA más grande

China aprueba condicionalmente la compra de chips H200 de Nvidia por parte de DeepSeek

DeepSeek retiene el último modelo de IA de los fabricantes de chips estadounidenses, incluida Nvidia

Un año después del impacto de DeepSeek, habrá una avalancha de modelos chinos de inteligencia artificial de bajo costo

Grok de Elon Musk supera a DeepSeek y se convierte en el tercer chatbot de IA más grande

China aprueba condicionalmente la compra de chips H200 de Nvidia por parte de DeepSeek