Los nuevos datos de entrenamiento de la IA: tus antiguos mensajes de Slack y correos electrónicos del trabajo

Cuando Shanna Johnson estaba cerrando cielo24, la empresa de transcripción y subtitulado que dirigía como CEO, descubrió un activo inesperado: sus residuos operativos, los restos digitales acumulados a lo largo de años de trabajo y colaboración.

Para cerrar la empresa, trabajó con SimpleClosure, una startup especializada en ayudar a las empresas a liquidarse. SimpleClosure la ayudó con el papeleo habitual del cierre: liquidar nóminas e impuestos, obtener los consentimientos de los inversores y presentar la documentación ante la Hacienda Pública.

Luego llegó la parte que nadie incluye en el manual del fundador: vender la huella digital de cielo24 de 13 años —cada chiste de Slack, cada ticket de Jira, correos electrónicos que documentaban victorias o frustraciones internas almacenados en los Google Drive de varios terabytes de los empleados— como datos de entrenamiento para la próxima generación de IA.

Por ello, cielo24 recibió “cientos de miles de dólares”, lo que, según Johnson, la ayudó a pasar de “No sé cómo vamos a pagar las facturas” a “Podemos cerrar esto con broche de oro y desentendernos”. “Todavía me emociona un poco el cierre de la empresa”, declaró a Forbes. “Pero es genial pensar que nuestros datos podrían ser útiles, perdurar y ayudar a otras personas”.

Es un final feliz para una realidad compleja: la empresa no sobrevivió, pero su legado perduró. Y en 2026, ese legado puede valer mucho dinero. La venta de datos de Johnson no es una estrategia de salida aislada; es una nueva frontera en la carrera armamentística de la IA.

“Las empresas de modelos se están dando cuenta de que el ruido en los entornos del mundo real es necesario para probar los modelos con precisión”.

Los laboratorios de IA comenzaron entrenando sus modelos con datos públicos de internet: hilos de Reddit, entradas de Wikipedia, libros digitalizados. Pero agotaron todo ese recurso a finales de 2024, según el ex científico jefe de OpenAI, Ilya Sutskever. Y lo que es más, no es muy útil para construir IA “agente”: modelos que realmente puedan realizar tareas.

Pero ¿qué pasa con el trabajo artesanal que se realizaba en el día a día de empresas desaparecidas como cielo24? Eso es como combustible fósil para los agentes de IA. Resulta que, si se busca la competencia en IA en el entorno laboral, se necesitan muchos ejemplos de cómo se realiza el trabajo en la práctica.

“Las empresas de modelado se están dando cuenta de que el ruido en los entornos del mundo real es necesario para probar los modelos con precisión”, dijo Ali Ansari, cuya empresa micro1 vende un producto a laboratorios de IA llamado “Roots”, una empresa matriz simulada donde los agentes de IA pueden practicar sus habilidades en tareas como servicios financieros y la gestión de calendarios complejos.

Te interesa: Cómo la empresa francesa Mistral construyó un imperio de IA de 14,000 mdd sin ser estadounidense

Una fiebre del oro por los documentos antiguos

La demanda de datos laborales ha sido una bendición para SimpleClosure, cuyo director ejecutivo, Dori Yona, dijo que el nivel de interés que ha despertado entre las empresas de IA ha sido “increíble”.

“Hay una sensación de fiebre del oro entre estas empresas que intentan hacerse con datos reales”, afirmó.

Para satisfacer la demanda, SimpleClosure está lanzando Asset Hub, donde las empresas que cierran pueden vender su inventario de código, archivos de Slack, correos electrónicos y demás. Partes de Asset Hub aún están en fase beta, explicó Yona, porque SimpleClosure elimina toda la información personal identificable de los datos internos de la empresa, un proceso delicado y técnicamente complejo que quieren garantizar que sea totalmente fiable antes de su lanzamiento generalizado.

En el último año, SimpleClosure gestionó casi 100 transacciones en nombre de empresas que cerraron, indicó Yona. Recuperó más de un millón de dólares para los fundadores, pagando normalmente entre 10,000 y 100,000 dólares por empresa.

Un competidor, Sunset, también compra datos de empresas en quiebra a precios similares. El director ejecutivo, Brendan Mahony, declaró a Forbes que el precio depende del tamaño de la empresa, su antigüedad y la “riqueza de los datos”, una medida de la trazabilidad interna y las interconexiones entre plataformas.

Un ticket de Jira vinculado a una confirmación de código específica tiene más valor que un documento independiente, afirmó. Ciertos sectores, como el sanitario o el financiero, tienen precios más elevados, añadió.

“No se trata de datos genéricos. Se trata de personas identificables”.

Mientras que algunos ven este tipo de recuperación como una oportunidad de negocio, otros la ven como una preocupación por la privacidad. Marc Rotenberg, fundador del Centro de IA y Política Digital, señaló que incluso si los empleados cedieran los derechos de propiedad intelectual de los materiales de trabajo, eso no resuelve si se debería permitir a los empleadores vender comunicaciones internas a terceros, especialmente cuando es improbable que los empleados esperen que sus mensajes de Slack puedan ser reutilizados de esta manera.

“Creo que los problemas de privacidad son bastante importantes”, afirmó. “La privacidad de los empleados sigue siendo una preocupación clave, sobre todo porque la gente se ha vuelto muy dependiente de estas nuevas herramientas de mensajería interna como Slack… No se trata de datos genéricos. Se trata de personas identificables”.

La organización de Rotenberg envió una carta al Comité de Comercio del Senado el martes, solicitando a la FTC que examine detenidamente las nuevas prácticas comerciales de IA, citando preocupaciones sobre las medidas de protección de datos personales.

Si bien todas las empresas que adquieren este material afirman tomarse en serio la anonimización, los veteranos de la industria de datos señalan que el proceso dista mucho de ser sencillo. No existe un interruptor para la información de identificación personal vinculada a toda una trayectoria profesional.

“Si la anonimización no se realiza correctamente, existe el riesgo de que las empresas que tengan acceso a los datos puedan ver las actividades de organizaciones y personas individuales, y que, si no se manejan con cuidado, esta información pueda filtrarse a los resultados de los modelos”, declaró Bobby Samuels, cuya empresa, Protege, se especializa en navegar por el complejo panorama regulatorio y legal de los datos del mundo real.

Más allá del anonimato, existe la posibilidad de que los chats de una persona sean “reproducidos” por modelos de IA. Un estudio de 2020 realizado por instituciones como OpenAI y Google demostró que los modelos de lenguaje complejos pueden memorizar involuntariamente secuencias de sus datos de entrenamiento, las cuales pueden extraerse posteriormente con las indicaciones adecuadas.

También lee: Jane Street firma un acuerdo de 6,000 millones de dólares con CoreWeave para la nube de IA

Gimnasios de aprendizaje por refuerzo

La demanda de datos empresariales reales ha impulsado una nueva industria de “gimnasios de aprendizaje por refuerzo”, especializados en utilizar datos de empresas en desuso para crear entornos simulados donde los agentes de IA pueden practicar la navegación en entornos laborales reales. Se está convirtiendo en un negocio muy lucrativo: Anthropic está considerando invertir mil millones de dólares en los llamados “gimnasios de RL” este año, según ha informado The Information.

Ya existen alrededor de 50 startups incipientes en este sector, y empresas de etiquetado de datos como Mercor y micro1, cuyos ingresos provienen principalmente de pagar a personas para generar datos de entrenamiento, también se están sumando a la tendencia.

Algunas startups de gimnasios de RL ya alcanzan valoraciones elevadas: la de Prime Intellect supera los mil millones de dólares, según una fuente cercana al asunto, y Fleet está en conversaciones para obtener financiación con una valoración de 750 millones de dólares, de acuerdo con The Information. Prime Intellect no respondió a la solicitud de comentarios.

Una empresa, AfterQuery, vende una serie de entornos virtuales prediseñados a laboratorios de IA, con nombres como “Mundo de las Grandes Tecnológicas”, “Mundo Financiero” y “Mundo Fiscal”, donde un agente de IA practica la navegación en una oficina digital, interactúa con agentes de usuario simulados y aprende a resolver problemas del mundo real.

Una tarea de ejemplo parece una labor tediosa de un gerente intermedio: se le pide al agente que planifique el cumpleaños de un compañero llamado Bob. Pero, sin que el agente de IA lo sepa, otro compañero también está planeando el suyo. Para colmo, el agente de IA ha olvidado cuándo es el cumpleaños de Bob. Para tener éxito, tiene que contactar con otros empleados, investigar un poco y luego conversar con ellos para decidir si unir fuerzas o abandonar el plan original.

Visto así, quizás las horas que creías estar perdiendo en Slack podrían ser, en realidad, el trabajo más gratificante que hayas realizado. Eso, a menos que el modelo de IA, tras haber memorizado tus datos demasiado bien, revele accidentalmente a la próxima generación de oficinistas que fuiste el compañero de trabajo que olvidó el cumpleaños de Bob.

Este artículo fue publicado originalmente en Forbes US

Suscríbete a nuestro canal de YouTube y no te pierdas de nuestro contenido