Publicidad
Comparte esto en:

DeepMind agrega un mecanismo de difusión al último software de plegamiento de proteínas
Google DeepMind

La mayoría de las actividades que ocurren dentro de las células (las actividades que nos mantienen vivos, respirando y pensando como animales) se llevan a cabo mediante proteínas. Permiten que las células se comuniquen entre sí, realicen el metabolismo básico de la célula y ayuden a convertir la información almacenada en el ADN en aún más proteínas. Y todo esto depende de la capacidad de la cadena de aminoácidos de la proteína para plegarse en una forma tridimensional complicada pero específica que le permita funcionar.

Publicidad

Hasta esta década, comprender esta forma tridimensional implicaba purificar la proteína y someterla a un proceso laborioso y largo para determinar su estructura. Pero eso cambió con el trabajo de DeepMind, una de las divisiones de inteligencia artificial de Google, que lanzó Alpha Fold en 2021, y un esfuerzo académico similar poco después. El software no era perfecto; tuvo problemas con proteínas más grandes y no ofreció soluciones de alta confianza para todas las proteínas. Pero muchas de sus predicciones resultaron ser sorprendentemente precisas.

Aun así, estas estructuras sólo cuentan la mitad de la historia. Para funcionar, casi todas las proteínas tienen que interactuar con algo más: otras proteínas, ADN, sustancias químicas, membranas y más. Y aunque la versión inicial de AlphaFold podía manejar algunas interacciones proteína-proteína, el resto seguían siendo cajas negras. Hoy, DeepMind anuncia la disponibilidad de la versión 3 de AlphaFold, en la que partes de su motor subyacente se modificaron en gran medida o se reemplazaron por completo. Gracias a estos cambios, el software ahora maneja varias interacciones y modificaciones de proteínas adicionales.

Publicidad

Intercambio de piezas

El AlphaFold original tenía dos funciones de software subyacentes. Uno de ellos tuvo en cuenta los límites evolutivos de una proteína. Al observar la misma proteína en múltiples especies, se puede tener una idea de qué partes son siempre iguales y, por lo tanto, es probable que sean fundamentales para su función. Esta centralidad implica que es probable que siempre estén en la misma ubicación y orientación en la estructura proteica. Para hacer esto, el AlphaFold original encontró tantas versiones de una proteína como fuera posible y alineó sus secuencias para buscar las porciones que mostraban poca variación.

Sin embargo, hacerlo es costoso desde el punto de vista computacional, ya que cuantas más proteínas alinees, más restricciones tendrás que resolver. En la nueva versión, el equipo de AlphaFold todavía identificó múltiples proteínas relacionadas, pero comenzó a realizar alineamientos utilizando en gran medida pares de secuencias de proteínas dentro del conjunto de proteínas relacionadas. Probablemente no sea tan rico en información como un alineamiento múltiple, pero es mucho más eficiente desde el punto de vista computacional y la información perdida no parece ser crítica para descubrir estructuras proteicas.

Utilizando estas alineaciones, un módulo de software independiente descubrió las relaciones espaciales entre pares de aminoácidos en la proteína objetivo. Luego, estas relaciones se tradujeron en coordenadas espaciales para cada átomo mediante un código que tenía en cuenta algunas de las propiedades físicas de los aminoácidos, como qué porciones de un aminoácido podían rotar en relación con otras, etc.

En AlphaFold 3, la predicción de las posiciones atómicas se realiza mediante un módulo de difusión, que se entrena recibiendo una estructura conocida y versiones de esa estructura donde se ha agregado ruido (en forma de cambios en las posiciones de algunos átomos). Esto permite que el módulo de difusión tome las ubicaciones inexactas descritas por las posiciones relativas y las convierta en predicciones precisas de la ubicación de cada átomo en la proteína. No es necesario que le digan las propiedades físicas de los aminoácidos, porque puede descubrir qué hacen normalmente observando suficientes estructuras.

Publicidad

(DeepMind tuvo que entrenar en dos niveles diferentes de ruido para que el módulo de difusión funcionara: uno en el que se cambiaban las ubicaciones de los átomos mientras se dejaba intacta la estructura general, y un segundo en el que el ruido implicaba cambiar la estructura a gran escala. de la proteína, afectando así la ubicación de muchos átomos).

Durante el entrenamiento, el equipo descubrió que se necesitaban alrededor de 20.000 instancias de estructuras de proteínas para que AlphaFold 3 obtuviera aproximadamente un 97% de precisión en un conjunto de estructuras de prueba. En 60.000 visitas, también comenzó a alcanzar las interfaces proteína-proteína a esta frecuencia. Y, lo que es más importante, también comenzó a formar complejos correctamente con proteínas con otras moléculas.


Comparte esto en:
Publicidad

Publicaciones Similares

Deja un comentario