Enlaces rápidos

    Las empresas de inteligencia artificial como OpenAI están tratando de superar los retrasos y desafíos inesperados en la búsqueda de modelos de lenguaje cada vez más grandes mediante el desarrollo de técnicas de entrenamiento que utilizan formas más parecidas a las humanas para que los algoritmos “piensen”.

    Una docena de científicos, investigadores e inversores de IA dijeron que creen que estas técnicas, que están detrás del modelo o1 lanzado recientemente por OpenAI, podrían reconfigurar la carrera armamentista de la IA y tener implicaciones para los tipos de recursos que las empresas de IA necesitan insaciablemente, desde energía hasta tipos de chips.

    Después del lanzamiento del chatbot viral ChatGPT hace dos años, las empresas de tecnología, cuyas valoraciones se beneficiaron enormemente del auge de la IA, han mantenido públicamente que “ampliar” los modelos actuales mediante la adición de más datos y potencia informática conducirá constantemente a modelos de IA mejorados.

    Pero ahora, algunos de los científicos de IA más destacados están hablando sobre las limitaciones de esta filosofía de “cuanto más grande, mejor”.

    Ilya Sutskever, cofundador de los laboratorios de inteligencia artificial Safe Superintelligence (SSI) y OpenAI, declaró recientemente que los resultados de la ampliación del preentrenamiento (la fase de entrenamiento de un modelo de IA que utiliza una gran cantidad de datos no etiquetados para comprender los patrones y las estructuras del lenguaje) se han estancado.

    A Sutskever se le reconoce ampliamente como uno de los primeros defensores de lograr grandes avances en la IA generativa mediante el uso de más datos y potencia informática en el preentrenamiento, lo que finalmente creó ChatGPT. Sutskever dejó OpenAI a principios de este año para fundar SSI.

    “La década de 2010 fue la era del escalamiento, ahora volvemos a la era de la maravilla y el descubrimiento. Todo el mundo está buscando lo próximo”, dijo Sutskever. “Escalar lo correcto importa ahora más que nunca”.

    Sutskever se negó a compartir más detalles sobre cómo su equipo está abordando el problema, más allá de decir que SSI está trabajando en un enfoque alternativo para ampliar el preentrenamiento.

    Entre bastidores, los investigadores de los principales laboratorios de IA se han encontrado con retrasos y resultados decepcionantes en la carrera por lanzar un modelo de lenguaje de gran tamaño que supere al modelo GPT-4 de OpenAI, que tiene casi dos años, según tres fuentes familiarizadas con asuntos privados.

    Las llamadas “ejecuciones de entrenamiento” para modelos de gran tamaño pueden costar decenas de millones de dólares al ejecutar simultáneamente cientos de chips. Es más probable que tengan fallas inducidas por el hardware dada la complejidad del sistema; los investigadores pueden no conocer el rendimiento final de los modelos hasta el final de la ejecución, que puede llevar meses.

    Otro problema es que los modelos de lenguaje de gran tamaño devoran enormes cantidades de datos, y los modelos de IA han agotado todos los datos de fácil acceso del mundo. La escasez de energía también ha obstaculizado las ejecuciones de entrenamiento, ya que el proceso requiere grandes cantidades de energía.

    Te podría interesar: ¿Será que la inteligencia artificial no sabe pensar?

    Nuevos modelos de IA podrían aumentar las cifras del sector

    Para superar estos desafíos, los investigadores están explorando el “cómputo en tiempo de prueba”, una técnica que mejora los modelos de IA existentes durante la llamada fase de “inferencia”, o cuando se utiliza el modelo. Por ejemplo, en lugar de elegir inmediatamente una única respuesta, un modelo podría generar y evaluar múltiples posibilidades en tiempo real, y finalmente elegir el mejor camino a seguir.

    Este método permite a los modelos dedicar más potencia de procesamiento a tareas desafiantes, como problemas matemáticos o de codificación u operaciones complejas que exigen un razonamiento y una toma de decisiones similares a los humanos.

    “Resultó que hacer que un robot pensara durante solo 20 segundos en una mano de póquer obtenía el mismo rendimiento que aumentar la escala del modelo 100,000 veces y entrenarlo durante 100,000 veces más”, dijo Noam Brown, un investigador de OpenAI que trabajó en o1, en la conferencia TED AI en San Francisco el mes pasado.

    OpenAI ha adoptado esta técnica en su modelo recién lanzado conocido como “o1”, anteriormente conocido como Q* y Strawberry.

    El modelo o1 puede “pensar” en los problemas en varios pasos, de manera similar al razonamiento humano. También implica el uso de datos y comentarios seleccionados por doctores y expertos de la industria. El ingrediente secreto de la serie o1 es otro conjunto de entrenamiento realizado sobre modelos “base” como GPT-4, y la empresa dice que planea aplicar esta técnica con más modelos base y de mayor tamaño.

    Al mismo tiempo, los investigadores de otros laboratorios de IA de primer nivel, como Anthropic, xAI y Google DeepMind, también han estado trabajando para desarrollar sus propias versiones de la técnica, según cinco personas familiarizadas con los esfuerzos.

    “Vemos muchas oportunidades al alcance de la mano que podemos aprovechar para mejorar estos modelos muy rápidamente”, dijo Kevin Weil, director de productos de OpenAI en una conferencia tecnológica en octubre. “Para cuando la gente se ponga al día, vamos a tratar de estar tres pasos más adelante”.

    Las implicaciones podrían alterar el panorama competitivo del hardware de IA, hasta ahora dominado por la demanda insaciable de chips de IA de Nvidia. Los inversores de capital de riesgo destacados, desde Sequoia hasta Andreessen Horowitz, que han invertido miles de millones para financiar el costoso desarrollo de modelos de IA en múltiples laboratorios de IA, incluidos OpenAI y xAI, están tomando nota de la transición y sopesando el impacto en sus costosas apuestas.

    “Este cambio nos llevará de un mundo de clústeres masivos de preentrenamiento a nubes de inferencia, que son servidores distribuidos basados ​​en la nube para inferencia”, dijo a Reuters Sonya Huang, socia de Sequoia Capital.

    La demanda de chips de IA de Nvidia, que son los más avanzados, ha impulsado su ascenso hasta convertirse en la empresa más valiosa del mundo, superando a Apple en octubre. A diferencia de los chips de entrenamiento, donde Nvidia domina, el gigante de los chips podría enfrentar más competencia en el mercado de inferencia.

    Cuando se le preguntó sobre el posible impacto en la demanda de sus productos, Nvidia señaló las recientes presentaciones de la empresa sobre la importancia de la técnica detrás del modelo o1. Su director ejecutivo, Jensen Huang, ha hablado sobre la creciente demanda de uso de sus chips para inferencia.

    “Hemos descubierto una segunda ley de escala, y se trata de la ley de escala en un momento de inferencia… Todos estos factores han llevado a que la demanda de Blackwell sea increíblemente alta”, dijo Huang el mes pasado en una conferencia en la India, refiriéndose al último chip de inteligencia artificial de la empresa.

    Con información de Reuters.

    Suscríbete a Forbes México