Por el bien común: La economía política de los datos en las ciencias de la vida
Un estudio longitudinal de seis años demuestra cómo las asociaciones público-privadas moldean y comparten sus datos, manteniendo un equilibrio entre los intereses comerciales y científicos de sus socios.
Tradicionalmente, la recopilación y el análisis de cantidades ingentes de datos se ha considerado un recurso competitivo que hay que proteger cuidadosamente y tratar como una mercancía. Pero la datificación de todos los ámbitos de la vida ha hecho que las organizaciones públicas y privadas reconozcan que la colaboración puede crear un valor que va más allá del beneficio y genera un bien común.
Con frecuencia, los socios de las comunidades basadas en la nube que recopilan y gestionan datos beneficiosos para todos —los denominados data commons (bienes comunes de datos)— tienen objetivos enfrentados en muchas áreas de investigación y desarrollo. Por ello, ¿de qué forma los datos y pruebas que gestionan pueden seguir siendo neutrales y aplicarse a todos ellos?
El estudio de la profesora Laia Pujol Priego —lamentablemente fallecida en 2023— y del profesor Jonathan Wareham de Esade, publicado en la revista MIS Quarterly, examina esta cuestión. Los investigadores consiguieron acceder a una cantidad de información privilegiada de Open Targets (OT), una asociación público-privada líder mundial, gracias a lo cual pudieron analizar cómo se generan y transforman los data commons en función de los diferentes propósitos de las entidades científicas y comerciales.
Intereses compartidos, resultados opuestos
Los data commons están conformados por una serie de organizaciones científicas y comerciales que generan, aportan y vinculan datos de distintos sectores y temas. Pero, a pesar de tener intereses compartidos en los datos propiamente dichos, los resultados que buscan los distintos miembros de la comunidad pueden variar mucho.
Los datos científicos no son neutrales ni independientes
Esto tiene especial relevancia cuando se tiene en cuenta en el contexto de los recursos de datos que representan tanto la propiedad privada como la común. Conocidos como ‘semicommons’ (semicomunes), estos datos se generan y comparten colectivamente con el objetivo del bien social o público, a la vez que sigue siendo necesaria su comercialización para los socios privados de la alianza.
Para poner de manifiesto la naturaleza política del recorrido que siguen estos datos, Pujol y Wareham llevaron a cabo un estudio longitudinal de seis años de Open Target (OT), que utiliza datos genéticos y genómicos de seres humanos para identificar y priorizar de forma sistemática dianas farmacológicas —es decir, el lugar del organismo donde el fármaco ejerce su acción—.
OT está formado por su socio fundador, el Instituto Europeo de Bioinformática (EMBL-EBI), la fundación de investigación sin ánimo de lucro Wellcome Sanger Institute y las empresas privadas GSK, Biogen, Takeda, Celgene (posteriormente adquirida por Bristol Meyers Squibb), Sanofi, Pfizer y Genentech.
El detallado y exhaustivo estudio de los investigadores sobre el recorrido a través del que se construyen los datos y se les otorga valor probatorio ilustra de forma gráfica las distintas exigencias de cada socio de este data commons.
El recorrido político de los datos
Con el objetivo de analizar más de cerca el recorrido de los datos, Wareham y Pujol siguieron y mapearon uno de los experimentos de OT, que denominaron con el seudónimo BI01.
En BI01 se investiga la interacción de la función génica en el cáncer de mama triple negativo (CMTN) y el cáncer de colon (CAC con mutación del gen KRAS). Los investigadores se introdujeron de lleno en las formas en las que los científicos de OT y de todos los laboratorios y comunidades asociados trabajaron, discutieron y debatieron durante la generación de los datos, y analizaron las acciones mediante las que se diseñaron, agregaron, desagregaron y reconfiguraron dichos datos.
Entender la evolución y la dinámica política de la creación de data commons ayudará a maximizar el valor público de estas colaboraciones
Conforme empezaban a surgir los temas, Wareham y Pujol se dieron cuenta de cómo los patrones de datos privados se superponían o yuxtaponían a los datos comunes, y de cómo se entablaban continuas negociaciones sobre su configuración.
A medida que el recorrido de los datos avanzaba, Pujol y Wareham empezaron a codificar formalmente sus observaciones en todas las etapas que afectaban a su estructura, especificación y técnicas computacionales. Este análisis detallado evidenció la naturaleza política de los datos de BI01, reflejando sus estrategias, controversias y negociaciones.
Del origen a la difusión
Tras acordar centrarse en el CMTN y el CAC con mutación del gen KRAS, los participantes farmacéuticos y científicos de OT se propusieron llegar a un acuerdo sobre las bases comunes (conjuntos de datos que contienen secuencias genéticas establecidas y validadas empíricamente) y las bibliotecas de datos (conjuntos de datos que incluyen posibles asociaciones genéticas). Gracias a este proceso realizado al inicio, los debates sobre la gestión de los datos, la negociación de los participantes y la comprensión científica, los participantes pudieron superar las dificultades de crear una base de datos fundacional sin revelar investigaciones confidenciales.
A esto le siguió una fase experimental en la que se clasificó, agrupó y reestructuró BI01 para priorizar los intereses concretos. A cada participante se le dio la oportunidad de alinear la estructura de los datos con sus propias líneas terapéuticas: las empresas farmacéuticas, con sus cuantiosos recursos económicos, defendieron sus propios intereses comerciales, mientras que la experiencia y los conocimientos únicos de la comunidad científica aportaron un equilibrio esencial en el proceso de toma de decisiones.
Los datos están moldeados por el recorrido que siguen y por los participantes que contribuyen al ciclo, cada uno de ellos con sus propios fines
Se utilizó un algoritmo para puntuar las combinaciones de genes en una escala de 0 a 100, de acuerdo con una serie de categorías y criterios previamente acordados, y se dio prioridad para continuar con su progresión a las combinaciones de genes que obtuvieron una mayor puntuación. Finalmente, un proceso de difusión permitió a los participantes compartir los datos filtrados resultantes (limpios, categorizados y lo suficientemente consolidados como para tener valor probatorio) con otros socios de OT. Tras un periodo mínimo de 18 meses, los datos se publicaron para pasar a ser de dominio público.
Un recorrido dinámico
En este proceso, Wareham y Pujol identificaron tres dinámicas entrelazadas y complementarias que resultaron fundamentales para establecer qué datos tenían valor probatorio: patching (parcheado), deconstructing (deconstrucción) y scaffolding (andamiaje).
El parcheado consistió en importar fuentes de datos adicionales al experimento BI01 y alinear y agregar los conjuntos de datos. Esto permitió a los participantes de OT complementar los datos de los experimentos con fuentes de datos privadas para alcanzar sus objetivos, al tiempo que seguían protegiendo la confidencialidad. A continuación, la deconstrucción de los datos en el recorrido de BI01 requirió realizar un proceso detallado consistente en descomponer los datos resultantes para definir su significado, superponer nuevas categorías basadas en los criterios individuales que se habían establecido y, finalmente, reconstruirlos a lo largo del tiempo para generar un significado para la priorización.
Por último, el andamiaje de los datos garantizó una coherencia formal que facilitaría su progresión a lo largo del recorrido y, con el tiempo, su difusión al dominio público. Esta fase afectó a las formas en las que era posible analizar los datos y contribuyó a mantener su integridad, especialmente cuando se compartían con públicos desconocidos.
Conforme a la creación de data commons y semicommons empieza a extenderse en los distintos sectores, entender la evolución y la dinámica política del proceso ayudará a maximizar el valor público de estas colaboraciones.
El nivel de conocimientos que Wareham y Pujol adquirieron con su detallado análisis confirma que los datos científicos no son neutrales ni independientes. Los datos están moldeados por el recorrido que siguen y por los participantes que contribuyen al ciclo, y cada uno de ellos tiene sus propios fines.
Profesor ordinario, Departamento de Operaciones, Innovación y Data Sciences en Esade
Ver perfil- Compartir en Twitter
- Compartir en Linked in
- Compartir en Facebook
- Compartir en Whatsapp Compartir en Whatsapp
- Compartir en e-Mail
¿Quieres recibir la newsletter de Do Better?
Suscríbite para recibir nuestro contenido destacado en tu bandeja de entrada..