Elon Musk

Elon Musk está de acuerdo en que hemos agotado los datos de entrenamiento de IA

Elon Musk coincide con otros expertos en IA en que quedan pocos datos del mundo real para entrenar modelos de IA.

“Hemos agotado básicamente la suma acumulada del conocimiento humano…. en el entrenamiento de IA”, dijo Musk durante una conversación transmitida en vivo con el presidente de Stagwell, Mark Penn, transmitida por X el miércoles por la noche. “Eso sucedió básicamente el año pasado”.

Musk, propietario de la empresa de inteligencia artificial xAI, se hizo eco de los temas del ex científico jefe de OpenAI, Ilya Sutskever. tocado en NeurIPS, la conferencia sobre aprendizaje automático, durante un discurso en diciembre. Sutskever, quien dijo que la industria de la IA había alcanzado lo que llamó “datos máximos”, predijo que la falta de datos de entrenamiento obligará a abandonar la forma en que se desarrollan los modelos hoy en día.

De hecho, Musk sugirió que los datos sintéticos (datos generados por los propios modelos de IA) son el camino a seguir. “Con datos sintéticos… (la IA) se calificará a sí misma y pasará por este proceso de autoaprendizaje”, dijo.

Otras empresas, incluidos gigantes tecnológicos como Microsoft, Meta, OpenAI y Anthropic, ya están utilizando datos sintéticos para entrenar modelos emblemáticos de IA. Gartner estimaciones El 60% de los datos utilizados para proyectos de inteligencia artificial y análisis en 2024 se generaron sintéticamente.

Microsoft fi-4que fue de código abierto la madrugada del miércoles, se entrenó con datos sintéticos junto con datos del mundo real. También lo fueron los de Google Gema modelos. Anthropic utilizó algunos datos sintéticos para desarrollar uno de sus sistemas de mayor rendimiento, Soneto de Claude 3.5. Y Meta afinó su más reciente Llama serie de modelos utilizando datos generados por IA.

La formación sobre datos sintéticos tiene otras ventajas, como el ahorro de costes. La startup de inteligencia artificial Writer afirma que su modelo Palmyra X 004, que fue desarrollado utilizando fuentes casi en su totalidad sintéticas, costó solo $700,000 para desarrollarse. comparado a estimaciones de 4,6 millones de dólares para un modelo OpenAI de tamaño comparable.

Pero también hay desventajas. Algunas investigaciones sugiere que los datos sintéticos pueden conducir al colapso del modelo, donde un modelo se vuelve menos “creativo” (y más sesgado) en sus resultados, comprometiendo finalmente seriamente su funcionalidad. Debido a que los modelos crean datos sintéticos, si los datos utilizados para entrenar estos modelos tienen sesgos y limitaciones, sus resultados estarán igualmente contaminados.

fuente