La inteligencia artificial descubre la base de datos más amplia para conocer las proteínas del organismo humano
DeepMind, el sistema de inteligencia artificial de Google, y el Laboratorio Europeo de Biología Molecular publican datos de 20.000 proteínas.
Qué compone una proteína humana, uno de los grandes (inmensos) misterios de la vida, más cerca que nunca de tener respuesta. La inteligencia artificial está detrás de un hallazgo fundamental que cuenta con nombres propios: la empresa DeepMind y el Laboratorio Europeo de Biología Molecular (EMBL) han empleado el sistema AlphaFold, propiedad de Google, para publicar la base de datos más completa y precisa de las predicciones de las estructuras de las proteínas humanas.
La prestigiosa revista Nature se ha hecho eco de este trabajo y describe el funcionamiento de estas predicciones para proporcionar la imagen más completa de las proteínas que componen el proteoma humano (el conjunto de proteínas codificadas por el genoma humano).
“Nuestro objetivo en DeepMind siempre ha sido construir IA y luego usarla como una herramienta para ayudar a acelerar el ritmo del descubrimiento científico en sí, mejorando así nuestra comprensión del mundo que nos rodea”, ha señalado la fundadora y directora ejecutiva de DeepMind, Demis Hassabis.
Para la experta, “AlphaFold genera la imagen más completa y precisa del proteoma humano. Creemos que esto representa la contribución más significativa que ha hecho la IA al avance del conocimiento científico hasta la fecha, y es un gran ejemplo de los tipos de beneficios que la IA puede aportar a la sociedad”.
Este avance, inmenso en lo que a conocimiento humano se refiere, podría tener un efecto vital en la salud y la medicina. Saber qué compone cada proteína, su estructura y funcionamiento interno puede conllevar el avance de diversos campos y, a largo plazo, el desarrollo de fármacos.
Descubiertas las proteínas de la E. coli, el ratón o la mosca de la fruta
La base de datos, abierta para la comunidad científica y que estará alojada en el Instituto Europeo de Bioinformática (EMBL-EBI), incluirá alrededor de 20.000 proteínas expresadas por el genoma humano. Entre las primeras 350.000 estructuras publicadas, además del proteoma humano, están las proteínas de 20 organismos biológicamente significativos como E. coli, la mosca de la fruta, el ratón, el pez cebra, el parásito de la malaria y las bacterias de la tuberculosis.
Los autores del estudio vieron que el algoritmo AlphaFold era capaz de predecir “con confianza” la posición estructural del 58% de los aminoácidos del proteoma humano. De ellos, la posición de un subconjunto del 35,7% se predijo con un grado de confianza “muy alto”, lo que supone el doble del número cubierto por las estructuras experimentales, explicó la revista.
Aclaran los investigadores que el uso de la inteligencia artificial, con su capacidad de predecir computacionalmente la forma de una proteína a partir de su secuencia de aminoácidos, permite que no se tenga que determinar de forma experimental con el uso de técnicas laboriosas y a veces costosas.
AlphaFold ha sido desarrollado con datos de recursos públicos creados por la comunidad científica, por lo que tiene sentido que sus predicciones sean públicas, ha precisado la directora general del EMBL, Edith Herad. Para ella se trata de “una verdadera revolución para las ciencias de la vida, así como fue la genómica hace varias décadas”, y está siendo ya usada por la Iniciativa de Medicamentos para Enfermedades Desatendidas.
Los investigadores consideran que la predicción de estructuras a gran escala y con precisión se convertirá “en una herramienta importante que permitirá abordar nuevas cuestiones científicas desde una perspectiva estructural”, y las predicciones de AlphaFold ayudarán a esclarecer aún más el papel de las proteínas.Además un grupo de la Universidad de California en San Francisco ha utilizado las predicciones de ese algoritmo para estudiar la biología del SARS-CoV-2.