Proyecto de proteínas utiliza IA para aumentar el tratamiento con enfermedades

Desbloquee el resumen del editor de forma gratuita
Roula Khalaf, editora del FT, selecciona sus historias favoritas en este boletín semanal.
La proteómica, el estudio de las proteínas que son los componentes básicos de la vida, se ha convertido en un nuevo arma con potencia digital en los esfuerzos de los científicos para comprender y tratar mejor las enfermedades.
Un proyecto lanzado este año por la base de datos genética del BioBank del Reino Unido y las 14 compañías de medicamentos tienen como objetivo aprovechar los avances ya logrados en el diagnóstico de cánceres, afecciones autoinmunes y demencia.
La iniciativa Proteomics es un ejemplo emblemático de cómo las computadoras avanzadas y los modelos de inteligencia artificial pueden aprovechar grandes conjuntos de datos biológicos para mirar más profundamente en cómo funciona el cuerpo humano y puede funcionar mal. El potencial de la proteómica se encuentra en el nivel adicional de sofisticación que ofrece: permite a los científicos ir más allá del análisis de genes para examinar las proteínas cuya producción instruyen los genes.
Un objetivo central es utilizar el tamaño del conjunto de datos de biobanco del Reino Unido para entrenar modelos de IA para identificar los subtipos de enfermedades con mayor precisión, lo que permite que los tratamientos se adapten y cronometren la máxima efectividad.
«(Los investigadores) podrán ver cómo el estilo de vida, el medio ambiente y la genética conducen a través de proteínas para algunas personas que desarrollan enfermedades particulares y otras no», dice el profesor Sir Rory Collins, investigador principal y director ejecutivo de Biobank del Reino Unido. “Luego podemos ver las formas en que evitar esas condiciones antes de que se desarrollen. Y también las proteínas. . . nos ayudará a identificar nuevos objetivos, nuevas formas para tratar la enfermedad «.
Si los genes son los planes necesarios para la construcción del cuerpo humano, las proteínas son los materiales utilizados para construirlo. La proteómica permite a los científicos mirar más de cerca que nunca en el proceso de ensamblaje. Debería permitirles ver detalles cruciales como si algunos genes están presentes, pero que su función de instrucción apagada.
El Biobank del Reino Unido, que se estableció hace casi 20 años, es la base de datos de investigación genética líder en el mundo debido a su combinación de tamaño y longevidad. Cuanto más antiguo se toque de información, el valor más analítico tiene, porque ha transcurrido más tiempo para observar cómo aparecen las enfermedades y el progreso en su cohorte humana.
El BioBank desplegará su información genética de medio millón de personas y combinará esto con muestras secundarias tomadas de 100,000 de esos voluntarios hasta 15 años después. Juntos, estos permitirán a los científicos monitorear el impacto en la enfermedad de los cambios en los niveles de hasta 5,400 proteínas en la vida media a tardía.

El consorcio de compañías farmacéuticas que financian el proyecto incluye algunos de los nombres más importantes de la industria. Comprende a Alden Scientific, Amgen, AstraZeneca, Bristol Myers Squibb, Calico Life Sciences, Roche, GSK, Isomorphic Labs, Johnson & Johnson, MSD, Novo Nordisk, Pfizer, Regeneron y Takeda. Tendrán acceso a los resultados nueve meses antes de que se publiquen a los investigadores de todo el mundo.
La industria y los investigadores académicos están entusiasmados con los hallazgos de un proyecto piloto de proteómica de biobanco que publicó resultados en 2023, que analizó casi 3,000 proteínas en 54,000 participantes.
El estudio permitió a los investigadores hacer más de 10,000 vínculos previamente desconocidos entre las variantes genéticas comunes y los cambios en los niveles de proteínas. Los científicos han utilizado los resultados para mejorar la predicción de la enfermedad y para dirigir los tratamientos para el cáncer de mama, la enfermedad cardiovascular, la enfermedad de Parkinson y otras afecciones cerebrales.
La nueva iniciativa es casi 10 veces mayor en escala. Ofrece el potencial de obtener información al referencias cruzadas de datos genéticos de BioBank con información de otras fuentes. Una de las cuales serían imágenes de resonancia magnética de los cerebros, corazones y otras partes del cuerpo de 100,000 de los participantes de BioBank.
Se espera que el proyecto impulse el desarrollo de modelos de inteligencia artificial mejorados para abordar mejor las enfermedades, en parte al investigar cómo los niveles de proteínas cambian con la enfermedad y con el tiempo. Estos se basarían en los usos existentes de la tecnología que ayudan a predecir la probabilidad de algunas condiciones mediante el uso de biomarcadores, escaneos de imágenes o factores de riesgo genético.
El estudio de las proteínas ha sido impulsado en gran medida por los avances en tecnología analítica en los últimos años. Uno es el modelo Alfafold AI desarrollado por Google DeepMind para la predicción de la estructura de proteínas. El trabajo, que condujo en 2022 a la base de datos más completa y precisa de casi todas las proteínas conocidas, ganó la mitad de Deepmind’s Sir Demis Hassabis y John Jumper de la mitad del año pasado Premio Nobel de Química.
Alphafold lanzó su tercera iteración el año pasado con la promesa de que permitiría una exploración más detallada de cómo las redes bioquímicas que involucran proteínas funcionan para mantener las células de nuestros cuerpos.
Hassabis describió la innovación de Alfafold en marzo pasado como una forma más eficiente «buscar la aguja en un pajar».
Alphafold 3 extiende su análisis a los códigos genéticos de ADN y ARN, así como a los ligandos, moléculas que se unen a otros y pueden ser marcadores importantes de la enfermedad.
Alphafold y otros desarrollos prometen turbocar esfuerzos de larga duración como el Proyecto de proteoma humano Eso se lanzó en 2001 y se marca como «traducir el código de vida». Esta colaboración de investigación internacional busca encontrar e identificar todas las proteínas en el cuerpo humano. Para 2023, afirmó haber encontrado 18,397 de 19,778 proteínas predichas codificadas por el genoma humano, o el 93 por ciento del total.
La escala del esfuerzo proteómico tiene paralelos a la búsqueda completada en 2003 para secuenciar el genoma humano. El estudio de genética asistido por computadora ha impulsado muchos descubrimientos de salud desde entonces. La ambición ahora es promover que la revolución aplicando aún más técnicas digitales al mundo biológicamente fundamental de las proteínas.