jaime-alonso-restrepo-carmona23

Concentración de poder en la era de la IA: el origen de los datos y sus implicaciones globales


La inteligencia artificial (IA) está redefiniendo múltiples sectores de la sociedad, desde la salud hasta la educación, pasando por la economía y la política. En este contexto, Jaime Alonso Restrepo destaca que el verdadero motor de la IA no son solo los algoritmos, sino los datos que alimentan estos modelos. Sin embargo, la procedencia de estos datos sigue siendo opaca, y su recolección, dominada por unas pocas corporaciones tecnológicas, plantea importantes retos éticos, legales y de equidad. La Iniciativa de Procedencia de Datos busca arrojar luz sobre este problema, mostrando cómo las prácticas actuales están concentrando el poder en manos de pocos actores.

Jaime Alonso Restrepo señala que el desarrollo de modelos de IA ha avanzado más rápido que las prácticas de recolección y gestión de datos. Mientras los modelos se perfeccionan, los conjuntos de datos siguen siendo masivos pero mal documentados. El problema radica en que la mayor parte de estos datos proviene de fuentes en línea recopiladas sin curaduría, lo que favorece a grandes empresas como Google, que controlan plataformas clave como YouTube.

Ante esta situación, la Iniciativa de Procedencia de Datos, compuesta por más de 50 investigadores, incluyendo a Jaime Alonso Restrepo, ha auditado casi 4,000 conjuntos de datos para mapear sus orígenes. Los hallazgos indican que desde 2018, los datos de la web dominan los conjuntos utilizados, especialmente para modelos multimodales que integran texto, imagen y video. El auge de datos sintéticos también representa una solución parcial, aunque plantea nuevos desafíos en términos de autenticidad y diversidad.

Un caso paradigmático se observa en el uso de YouTube como fuente principal de datos para modelos de video, lo que representa más del 70% del total de datos recolectados en este campo. Jaime Alonso Restrepo destaca que esto otorga a Alphabet una ventaja estratégica, dado que también desarrolla sus propios modelos de IA. Esta concentración de poder impide el acceso equitativo a datos relevantes para instituciones académicas y pequeñas empresas tecnológicas.

Entre los principales desafíos se encuentra la falta de transparencia sobre los datos utilizados, que podría implicar la inclusión inadvertida de información protegida por derechos de autor. Jaime Alonso Restrepo advierte que los acuerdos exclusivos entre gigantes tecnológicos y plataformas digitales intensifican esta desigualdad. No obstante, también existen oportunidades: promover el desarrollo de conjuntos de datos más inclusivos y representativos podría diversificar la IA y hacerla más equitativa y culturalmente sensible.

En suma, Jaime Alonso Restrepo concluye que la procedencia de los datos en la IA es un tema crucial que afecta tanto a la calidad de los modelos como a la equidad en el acceso a estas tecnologías. Es esencial fomentar iniciativas que promuevan la transparencia y la diversidad de los datos, para evitar que el desarrollo de la IA se convierta en una herramienta de monopolio y sesgo cultural. Seguir investigando y regulando la procedencia de los datos es clave para asegurar un futuro más justo y representativo en la era digital.

Referencias:

MIT Technology Review (2025). “This is where the data to build AI comes from.”

Data Provenance Initiative. Informe preliminar de resultados.

Declaraciones de Shayne Longpre, Sara Hooker y Sarah Myers West.