¿De dónde vienen los datos que usa la IA generativa?

Para entrenar los algoritmos que hacen ‘pensar’ a la IA se necesita gran cantidad de datos y potencia computacional. Existe la duda de si el crecimiento exponencial de los últimos años podrá mantenerse.

Marc Cortés

Este artículo forma parte de la newsletter de Marc Cortés IA 4 Business.


Desde hace dos años, muchos de nosotros nos hemos lanzado a usar las herramientas de inteligencia artificial generativa (ChatGPT, Copilot, Midjourney…). Sin entender muy bien cómo funcionan, viéndolas como si de un truco de magia se tratara, les hacemos preguntas y demandas para que creen un texto, un discurso, una traducción, que pongan la información en una tabla o representen un texto en formato de imagen. Además, hemos podido ver como día a día la precisión, calidad y funcionamiento de estas herramientas mejoraba de forma exponencial. 

Y en esta carrera por el uso de estas herramientas, en la satisfacción de ver que permiten que hagamos en pocos minutos cosas que antes tardábamos horas, quizás hemos olvidado hacernos algunas preguntas. 

  • ¿De dónde salen los datos que estas herramientas usan? 
  • ¿Tiene límite su uso? 
  • ¿Cómo mejoran tan rápido? Y, ¿podrán seguir mejorando tan rápido? 

Os propongo parar tres minutos y tratar de poner en perspectiva estas preguntas. 

¿De dónde salen los datos?

Para que herramientas como ChatGPT o Copilot funcionen como lo hacen necesitan ser entrenadas con una gran cantidad de datos. Decimos aquello de “usan todo lo que hay en internet”. Pero ¿de dónde lo sacan? 

En 2007 se fundó en California Common Crawl, una fundación que tiene como objetivo que cualquiera pueda acceder a todos los datos de internet. De esta forma esta fundación mantiene un repositorio abierto y gratuito de datos de rastreo web que cualquiera puede utilizar. Cada tres meses se descargan Internet (es decir, hacen un crawling de toda la web que, medido en tokens, serían unos cinco trillones de tokens), lo ordenan (eliminan duplicidades, páginas no entradas…) y lo ponen en abierto y de forma gratuita para todo aquél que quiera utilizarlo. 

Y aquí acuden todas las organizaciones que necesitan datos para entrenar a sus algoritmos. Además de estos datos, que pueden representar entre el 70%-80% de la totalidad de los que usan, muchas de ellas llegan a acuerdos con repositorios (medios de comunicación, agencias de noticias…) para obtener también sus datos (a menudo “cerrados”) y completar el entrenamiento de sus algoritmos. 

¿No te parece curioso que estas herramientas que hacen magia usen los datos descargados por una fundación y puestos a disposición de forma abierta y gratuita

¿Tiene límite la escalada de la IA generativa?

La IA no es nueva. De hecho, se considera que sus inicios fueron durante la década de los años 50. Entre otros motivos, su ‘lenta’ evolución hasta los últimos 10 años se debió a que, para que los sistemas de IA función en todo su potencial, necesitan mucha capacidad de cálculo. Hay que recordar que la IA generativa es un proceso de correlación entre datos, de manera que se necesita poder calcular a la vez la correlación entre millones de datos para poder obtener una respuesta. 

Entre 2012 y 2014 se inició un crecimiento exponencial de la capacidad de cálculo de los ordenadores

Una simple pregunta a ChatGPT va a requerir millones de cálculos para correlacionar las palabras a usar en su respuesta y poder mostrarlas y ordenarlas de forma adecuada para que tengan sentido. 

Después de un crecimiento prácticamente lineal en la capacidad de cálculo que los ordenadores ofrecían, entre 2012 y 2014 se inicia un crecimiento exponencial de la capacidad de cálculo y el desarrollo de superordenadores, lo que permite prácticamente doblar cada año la capacidad total. 

Pero ahora nos encontramos en un momento, como afirma Pep Martorell, director del Barcelona SuperComputing center —donde está alojado el que hoy en día es el superordenador con mayor capacidad de cálculo de Europa, el MareNostrum 5— en el que es lógico pensar que es físicamente imposible que esta evolución pueda continuar. Con la tecnología actual no es posible construir chips (la base que permite el cálculo) para poder seguir creciendo al ritmo de la capacidad de cálculo (situada en parámetros de 106). 

La conclusión es que no podemos esperar una evolución masiva en los próximos dos a cuatro años a la misma velocidad que hemos vivido en los últimos tres. Y, como afirma el Dr. Martorell, quizás estamos ante el momento en el que veremos una especialización. Esta IA generativa tan potente dejará de correr como un caballo desbocado para empezar a especializarse y ofrecer soluciones concretas para sectores de actividad, ámbitos de investigación o, por qué no, desarrollo de productos y servicios

Todo el contenido está disponible bajo la licencia Creative Commons Reconocimiento 4.0 Internacional.