DeepSeek desencadenó una venta masiva de más de 1 billón de dólares en los mercados mundiales de valores el mes pasado con un modelo de razonamiento de IA de precio reducido que superó a muchos competidores occidentales.
Ahora, la firma con sede en Hangzhou está acelerando el lanzamiento del sucesor del modelo R1 de enero, según tres personas familiarizadas con la compañía.
Deepseek había planeado lanzar R2 a principios de mayo, pero ahora quiere que salga lo antes posible, dijeron dos de ellos, sin proporcionar detalles.
La compañía dice que espera que el nuevo modelo produzca una mejor codificación y sea capaz de razonar en idiomas más allá del inglés. Los detalles del cronograma acelerado para el lanzamiento de R2 no se han informado anteriormente.
DeepSeek no respondió a una solicitud de comentarios para este artículo.
Los rivales todavía están digiriendo las implicaciones de la R1, que fue construida con chips Nvidia menos potentes, pero es competitiva con los desarrollados a costos de cientos de miles de millones de dólares por los gigantes tecnológicos estadounidenses.
“El lanzamiento del modelo R2 de DeepSeek podría ser un momento crucial en la industria de la IA”, dijo Vijayasimha Alilughatta, director de operaciones del proveedor indio de servicios tecnológicos Zensar. El éxito de DeepSeek en la creación de modelos de IA rentables “probablemente estimularía a las empresas de todo el mundo a acelerar sus propios esfuerzos… rompiendo el dominio de los pocos jugadores dominantes en el campo”, dijo.
Es probable que la R2 preocupe al gobierno de Estados Unidos, que ha identificado el liderazgo de la IA como una prioridad nacional. Su lanzamiento puede galvanizar aún más a las autoridades y empresas chinas, docenas de las cuales dicen que han comenzado a integrar modelos de DeepSeek en sus productos.
Poco se sabe sobre DeepSeek, cuyo fundador, Liang Wenfeng, se convirtió en multimillonario a través de su fondo de cobertura cuantitativo High-Flyer. Liang, quien fue descrito por un antiguo empleador como “discreto e introvertido”, no ha hablado con ningún medio desde julio de 2024.
Reuters entrevistó a una docena de exempleados, así como a profesionales de fondos cuantitativos conocedores de las operaciones de DeepSeek y su empresa matriz High-Flyer. También revisó artículos de los medios de comunicación estatales, publicaciones en redes sociales de las empresas y documentos de investigación que se remontan a 2019.
Contaban la historia de una empresa que funcionaba más como un laboratorio de investigación que como una empresa con fines de lucro y que no estaba sujeta a las tradiciones jerárquicas de la industria tecnológica de alta presión de China, incluso cuando se convirtió en responsable de lo que muchos inversores ven como el último avance en IA.
Liang nació en 1985 en una aldea rural de la provincia sureña de Guangdong. Más tarde obtuvo el título de ingeniero de comunicaciones en la elitista Universidad de Zhejiang.
Uno de sus primeros trabajos fue dirigir un departamento de investigación en una empresa de imágenes inteligentes en Shanghái. Su entonces jefe, Zhou Chaoen, dijo a los medios estatales el 9 de febrero que Liang había contratado a ingenieros de algoritmos galardonados y operaba con un “estilo de gestión plano”.
En DeepSeek y High-Flyer, Liang ha rechazado de manera similar las prácticas de los gigantes tecnológicos chinos conocidos por su rígida gestión de arriba hacia abajo, los bajos salarios para los empleados jóvenes y el “996”: trabajar de 9 a.m. a 9 p.m. seis días a la semana.
Liang abrió su oficina en Pekín a poca distancia de la Universidad de Tsinghua y la Universidad de Pekín, las dos instituciones educativas más prestigiosas de China. Regularmente profundizaba en los detalles técnicos y estaba feliz de trabajar junto a los pasantes de la Generación Z y los recién graduados que constituían la mayor parte de su fuerza laboral, según dos ex empleados. También describieron que por lo general trabajaban ocho horas al día en un ambiente colaborativo.
“Liang nos dio el control y nos trató como expertos. Constantemente hacía preguntas y aprendía junto a nosotros”, dijo el investigador Benjamin Liu, de 26 años, quien dejó la compañía en septiembre. “DeepSeek me permitió tomar posesión de partes críticas de la tubería, lo cual fue muy emocionante”.
Liang no respondió a las preguntas enviadas a través de DeepSeek.
Mientras Baidu y otros gigantes tecnológicos chinos competían por construir sus versiones de ChatGPT orientadas al consumidor en 2023 y beneficiarse del auge mundial de la IA, Liang dijo al medio de comunicación chino Waves el año pasado que evitó deliberadamente gastar mucho en el desarrollo de aplicaciones, centrándose en cambio en refinar la calidad del modelo de IA.
Tanto DeepSeek como High-Flyer son conocidos por pagar generosamente, según tres personas familiarizadas con sus prácticas de compensación. En High-Flyer, no es raro que un científico de datos senior gane 1.5 millones de yuanes al año, mientras que los competidores rara vez pagan más de 800,000, dijo una de las personas, un administrador de fondos cuantitativo rival que conoce a Liang.
La generosidad fue financiada por High-Flyer, que se convirtió en uno de los fondos cuantitativos más exitosos de China y, incluso después de una represión gubernamental contra el sector, todavía administra decenas de miles de millones de yuanes, según dos personas de la industria.
El éxito de DeepSeek con un modelo de IA de bajo costo se basa en la inversión sustancial y de una década de High-Flyer en investigación y potencia informática, dijeron tres personas.
El fondo cuantitativo fue pionero en el comercio de IA y un alto ejecutivo dijo en 2020 que High-Flyer estaba apostando “por todas” en la IA al reinvertir el 70% de sus ingresos, principalmente en la investigación de IA.
High-Flyer gastó 1,200 millones de yuanes en dos clústeres de IA de supercomputación en 2020 y 2021. El segundo clúster, Fire-Flyer II, estaba compuesto por alrededor de 10,000 chips Nvidia A100, utilizados para entrenar modelos de IA.
DeepSeek no se había establecido en ese momento, por lo que la acumulación de poder de cómputo llamó la atención de los reguladores de valores chinos, dijo una persona con conocimiento directo del pensamiento de los funcionarios.
“¿Los reguladores querían saber por qué necesitan tantos chips?”, dijo la persona. “¿Cómo lo iban a usar? ¿Qué tipo de impacto tendría eso en el mercado?”
Te puede interesar: Alibaba lanzará una versión de código abierto de su modelo de IA para generar videos
DeepSeek atrajo a algunos de los mejores talentos de investigación de China
Las autoridades decidieron no intervenir, en una medida que resultaría crucial para la suerte de DeepSeek: Estados Unidos prohibió la exportación de chips A100 a China en 2022, momento en el que Fire-Flyer II ya estaba en funcionamiento.
Pekín ahora celebra DeepSeek, pero le ha dado instrucciones de no interactuar con los medios sin aprobación, según una persona familiarizada con el pensamiento oficial chino.
Las autoridades le habían pedido a Liang que mantuviera un perfil bajo porque les preocupaba que demasiada publicidad en los medios atrajera una atención innecesaria, dijo la persona.
El gabinete y el ministerio de comercio de China, así como el regulador de valores de China, no respondieron a las solicitudes de comentarios.
Como una de las pocas empresas con un gran clúster A100, High-Flyer y DeepSeek fueron capaces de atraer a algunos de los mejores talentos de investigación de China, dijeron dos ex empleados.
“La ventaja clave de los vastos recursos (informáticos) es que permiten la experimentación a gran escala”, dijo Liu, el ex empleado.
Algunos empresarios occidentales de IA, como el CEO de Scale AI, Alexandr Wang, han afirmado que DeepSeek tenía hasta 50,000 chips Nvidia de gama alta que están prohibidos para su exportación a China. No ha presentado pruebas para la acusación ni ha respondido a las solicitudes de Reuters para proporcionar pruebas.
DeepSeek no ha respondido a las afirmaciones de Wang. Dos exempleados atribuyeron el éxito de la empresa al enfoque de Liang en una arquitectura de IA más rentable.
La startup utilizó técnicas como la Mezcla de Expertos (MoE) y la atención latente multicabezal (MLA), que incurren en costos de computación mucho más bajos, según muestran sus documentos de investigación.
La técnica MoE divide un modelo de IA en diferentes áreas de experiencia y activa solo aquellas relacionadas con una consulta, a diferencia de las arquitecturas más comunes que utilizan todo el modelo.
La arquitectura MLA permite que un modelo procese diferentes aspectos de una pieza de información simultáneamente, lo que le ayuda a detectar detalles clave de manera más efectiva.
Mientras que competidores como la francesa Mistral han desarrollado modelos basados en el MoE, DeepSeek fue la primera empresa que dependió en gran medida de esta arquitectura al tiempo que logró la paridad con modelos construidos más caros.
El precio de DeepSeek era entre 20 y 40 veces más barato que lo que OpenAI cobraba por modelos equivalentes, estimaron los analistas de la correduría Bernstein a principios de febrero.
Por ahora, los gigantes tecnológicos occidentales y chinos han señalado planes para continuar con el fuerte gasto en IA, pero el éxito de DeepSeek con R1 y su modelo V3 anterior ha llevado a algunos a modificar sus estrategias.
OpenAI recortó los precios este mes, mientras que Gemini de Google ha introducido niveles de acceso con descuento. Desde el lanzamiento de R1, OpenAI también ha lanzado un modelo O3-Mini que se basa en menos potencia de cálculo.
Adnan Masood, del proveedor estadounidense de servicios tecnológicos UST, dijo a Reuters que su laboratorio había realizado pruebas comparativas que encontraron que R1 a menudo usaba tres veces más tokens, o unidades de datos procesadas por el modelo de IA, para razonar que el modelo reducido de OpenAI.
Incluso antes de que la R1 acaparara la atención mundial, había indicios de que DeepSeek había captado el favor de Pekín. En enero, los medios estatales informaron de que Liang asistió a una reunión con el primer ministro chino, Li Qiang, en Pekín como representante designado del sector de la IA, por delante de los líderes de empresas más conocidas.
La fanfarria posterior sobre la competitividad de costos de sus modelos ha impulsado la creencia de Beijing de que puede superar en innovación a Estados Unidos, con empresas y organismos gubernamentales chinos adoptando modelos DeepSeek a un ritmo que no se ha ofrecido a otras empresas.
Al menos 13 gobiernos municipales chinos y 10 empresas energéticas estatales dicen que han implementado DeepSeek en sus sistemas, mientras que los gigantes tecnológicos Lenovo, Baidu y Tencent, propietario de la aplicación de redes sociales más grande de China, WeChat, ha integrado los modelos de DeepSeek en sus productos.
El líder chino, Xi Jinping, y Li “han señalado que respaldan a DeepSeek”, dijo Alfred Wu, experto en formulación de políticas chinas en la Escuela de Políticas Públicas Lee Kuan Yew de Singapur. “Ahora todo el mundo lo respalda”.
El abrazo chino se produce cuando los gobiernos, desde Corea del Sur hasta Italia, eliminan DeepSeek de las tiendas de aplicaciones nacionales, citando preocupaciones de privacidad.
“Si DeepSeek se convierte en el modelo de IA de referencia en todas las entidades estatales chinas, los reguladores occidentales podrían ver esto como otra razón para aumentar las restricciones sobre los chips de IA o las colaboraciones de software”, dijo Stephen Wu, experto en IA y fundador del fondo de cobertura Carthage Capital.
Nuevos límites a los chips avanzados de IA son un desafío que Liang ha reconocido.
“Nuestro problema nunca ha sido la financiación”, dijo a Waves en julio. “Es el embargo a los chips de gama alta”.
Con información de Reuters.
Síguenos en Google Noticias para mantenerte siempre informado










