Las proteínas son esenciales para la vida, soportando prácticamente todas sus funciones. Son grandes y complejas moléculas, formadas por cadenas de aminoácidos, y lo que hace una proteína depende en gran medida de su estructura tridimensional única. La determinación de la forma en que se pliegan las proteínas se conoce como el "problema del plegamiento de las proteínas", y ha constituido un gran desafío para la biología en los últimos 50 años. En un importante avance científico, la última versión de nuestro sistema de IA AlphaFold [...]
Comentarios
Podria ser uno de los avances mas signifativos en ciencia en los ultimos años.
Mohammed AlQuraishi, un experto en el campo, envio el siguiente tweet en el que decia que cree que el problema se ha solucionado a excepcion de algunos casos particulares:
#1 Sin lugar a duda una noticia increíble. Ya habían logrado resultados asombrosos hace 2 años, pero este es realmente un antes y después en la predicción de estructuras terciarias (y la biología computacional en general).
https://www.nature.com/articles/d41586-020-03348-4
En esta noticia se puede comprobar la importancia de este avance: una proteína para la que llevaban una década tratando de obtener su estructura, el algoritmo lo ha realizado en media hora. Ademas de la rapidez, esto también va a abaratar muchos costes (tanto la cristalográfica de rayos X como la cryo-EM son procesos muy caros y costosos).
Se espera que ayude a encontrar proteínas de las que se desconoce su estructura. Para hacerse una idea, están secuenciadas unos 8 millones de proteínas distintas (no redundantes), de las cuales se conoce la estructura de unas 170K.
#2 O sea, hacerte con unos cuantos ordenadores tochos, descargarte el genoma humano y empezar a predecir el plegamiento de cualquier gen que codifique para una proteína.
#3 Puedes coger también las variantes más comunes del genoma, y ver si tiene algún efecto en el plegamiento de las proteínas que genera.
O también ver qué diferencias hay con el "alternative splicing".
#3 Las cadenas de genes son las encargadas de proporcionar la información para la producción de las cadenas de aminoácidos que componen las proteínas. Dados los 20 aminoácidos distintos que hay, según el orden y el tamaño de la secuencia, adquieren plegados distintos debido a las interacciones que se producen entre ellos. Digamos que este algoritmo actúa en una “capa” superior a la genética.
Pero si que se podrá descargar la base de datos de secuencias de aminoácidos y descubrir estos plegados, lo cual seguramente repercuta en el nivel de conocimiento que tenemos de los genes cómo dice #11.
#1 #2 ¿Y esto podría ayudar a entender mejor las enfermedades priónicas y posibles soluciones a ellas?
#4 Bueno, imagino que podrian sintetizar proteinas que capturen los priones libres. Aunque tambien tienen que conseguir que estos pasen la barrera hematoencefalica por ejemplo...
#4 No creo que tenga mucho impacto en este tipo de enfermedades. El problema de los priones deriva de la incapacidad del organismo de eliminarlos por su enorme robustez molecular (aparte de provocar degeneración en tejidos y demás). Es un tema relacionado, pero no igual.
#8 según leo, los priones se deben a una malformación en la estructura terciaria (más concretamente en los elementos de estructura secundaria). En ese sentido si que podría tener cierta repercusión conocer más sobre estas malformaciones en la estructura y los resultados de este algoritmo podrían ayudar. Cómo dices, es un tema relacionado pero no igual, aunque veremos qué aplicaciones se le pueden llegar a encontrar.
Muy buena noticia para la biología estructural. Esto va a producir muchísimos avances significativos en los próximos años.
Plegamiento de proteínas y ARNmensajero. El nuevo renacimiento.
No, si al final vamos a salvar el año.
Impresionante, esto marca un antes y un después en biología.
De paso, y aunque no lo digan explícitamente, también corroboran el postulado de Christian Anfinsen:
In his acceptance speech for the 1972 Nobel Prize in Chemistry, Christian Anfinsen famously postulated that, in theory, a protein’s amino acid sequence should fully determine its structure
Edito: El artículo es una pasada, y se entiende perfectamente sin grandes conocimientos en biología, como es mi caso. Muy recomendable.
#14 Realmente es teoria. Luego hay otros determinantes que pueden incidir enormemente. Hay proteinas que interaccionan con canales de cationes y cuando aumenta la concentracion local de estos cationes se produce un cambio conformacional en la proteina. Tambien hay muchas proteinas cuya estructura esta determinada por las interacciones que tiene, o por modificaciones postranslacionales (fosforilacion, ubiquitinacion, lipidacion...).
Pero entender las reglas basicas del plegamiento "natural" nativo es un avance enorme, de eso no hay duda alguna.
Saludos
#16 Como bien dices, conocer el plegamiento natural es un avance enorme. Imagino que tiene que ser en un altísimo porcentaje muy similar para cada "instancia" de cada tipo de proteína, o de otro modo se vería comprometida su función.
El resto de situaciones del entorno también explicarán cómo se comporta en según qué circunstancias, e imagino que eso también determinará su función ( o disfunción ), y su capacidad de interacción.
Comprendo que de comprender 'la pieza' a comprender 'la máquina' va un mundo, y que tratas de decirme que esto no es la piedra Rosetta, que sólo tenemos el alfabeto y nos falta toda la gramática, y tienes toda la razón. Las interacciones en 3D del mundo bioquímico son complejas. Pero en este caso el hecho de poder predecir la estructura en 3D a partir de la secuencia, si bien no nos aporta todo ese significado 'gramatical', sí nos permite generar proteínas que no existen para experimentar con su posible funcionalidad, y quién sabe, si entender cómo corregir alguna otra que nos esté amargando la vida.
Entiendo que cuando estudias todo el tema más a fondo, se pierde mucho del sensacionalismo, porque se conocen muchas más limitaciones, pero en este caso - del que tengo un conocimiento muy somero y limitado - creo que se ha dado un gran paso. No sólo por el 'descubrimiento', sino por los métodos utilizados para llevarlo a cabo, y que pueden abrir muchas otras puertas en la biología molecular.
#21 Vamos, lo que he dicho en #19 con mucho menos criterio
Es broma, muchas gracias por tu comentario, que aporta muchísima información, sobre todo del 'cómo' han llegado a enseñar a la 'máquina' a aprender de patrones de proteínas anteriores, los mapas de densidad y un largo etcétera. El mejor comentario que he leído en mucho tiempo en menéame.
Sobre el paso inverso que comentas, me pregunto si no nos encontraremos con algún problema similar a la factorización de primos, que complique sobremanera el proceso.
#16 Y no nos olvidemos de las chaperonas, que ayudan al plegamiento de las proteínas, por lo que aquellas que necesiten de chaperonas para plegarse, en una simulación sin las chaperonas adecuadas deberían agregar. Por lo que veo, el algoritmo no resuelve el problema del plegamiento, sino el de la estructura, que no es poco, pero no es lo mismo. Habrá que esperar a más detalles para ver cómo funciona el algoritmo, especialmente en casos con motivos estructurales no descritos, lo cual cada vez es más difícil de encontrar. Soy escéptico por el momento pero el paper dirá qué parte de este comunicado es ciencia y qué parte es márketing.
#25 Yo creo que en cuanto a predicción directa de estructura de proteínas si que va pasarse a utilizar el nuevo método de Google (cuando libere el código... y veremos si lo hace al completo, en la primera versión de AlphaFold no lo hizo). Pero de todas formas, todavía hay trabajo que hacer en ese campo. Por ejemplo, los resultados de AlphaFold2 muestran que no son del todo buenos cuando la estructura de la proteína cambia por la influencia de la interacción con otras proteínas. También, como dice #20, se ha avanzado en la predicción de la estructura, pero no en el proceso temporal de plegamiento, por lo que queda mucho trabajo que hacer en ese aspecto para avanzar en el conocimiento sobre las proteínas.
Además, Rosetta (el proyecto del que forma parte rosetta@home), no solo es predicción de proteínas. Es un software que proporciona un modelo estructural de proteínas (el cual utiliza AlphaFold, por ejemplo), una función energética, etc... y es utilizado para distintos problemas como diseño de proteinas, refinamiento de estructuras, "docking" (juntar 2 o mas proteínas maximizando la interacción entre ellas), incluso RNA. También se utilizar para pruebas masivas de benchmark. Vamos, que el poder computacional de rosetta@home se va seguir utilizando y colaboras en que los laboratorios académicos podamos compensar un poco esa limitación de recursos que hay, por ejemplo, con Google. Hay que tener en cuenta que la red de Google fue entrenada con unos 180 cores durante "unas pocas semanas". Dicho así no suena mucho, pero todas las pruebas que han tenido que hacer hasta que funcionase... es una ingente cantidad de recursos.
#14 y sin conocimientos de inglés como es mi caso, gracias también a la IA
#17 Siento que la IA te haya hecho tanto daño
( Edito: sin ánimo de ofender, es que me encanta mal-entender las frases )
#18
Por si a alguien le interesa lo que significa este avance desde una perspectiva computacional:
Tal y como dice #14, el problema de prediccion de estructuras se basa en el postulado de Anfinsen que dice que la estructura terciaria se puede encontrar utilizando sólo información de la estructura primaria (la cadena de aminoácidos). Y la estructura terciaria nativa (la forma que adquiere), es la conformación con la más baja energía libre de Gibbs (aunque luego hay matices…). Por lo tanto, la cuestión es, dada una secuencia, minimizar este espacio energético hasta encontrar el mínimo global y el problema se puede considerar un problema de búsqueda u optimización.
El problema es que hasta ahora se utilizaba un modelo energético que tenía muchos problemas: por un lado tenia términos energéticos que se corresponden a factores geométricos o físicos de la proteína muy generales (como el grado de compactación o las fuerzas de van der waals), pero también términos obtenidos en base a estadísticas de las proteínas resueltas. Se utilizaban algoritmos de búsqueda local (como Monte Carlo) o búsqueda global (como algoritmos genéticos), guiados por la función de energía de este modelo energético, pero al contener múltiples mínimos locales (y en algunas ocasiones era engañoso), los resultados obtenidos variaban mucho y, aunque prometedores, no acaban de alcanzar resultados que se puediesen considerar significativos a la hora de compararlos con las estructuras que se resuelven mediante técnicas de laboratorio (cristalografía de rayos X o cryo EM, principalmente)
Lo destacable de este trabajo (AlphaFold y AlphaFold2), es que rompe con este concepto de guiar la búsqueda por una función. En su lugar, utiliza técnicas de Deep Learning para extraer características geométricas de la base de datos de proteínas ya resueltas. Al fin y al cabo, las proteínas suelen adoptar patrones de plegado muy similares (combinaciones de láminas y hélices), y las redes neuronales artificiales se ha comprobado que son maravillosas para detectar patrones. El plegado, en lugar de guiarse por una función de energía, se guía por esos patrones encontrados por la red neuronal. En el primer trabajo, obtienen relaciones entre pares de aminoácidos (por ejemplo, a que distancia se suelen encontrar los aminoácidos Alanina y Valina), construyendo matrices de 20x20 (los 20 tipos de aminoácidos) o “mapas de densidad” que guiaban el proceso. En este caso, aunque está pendiente de publicar el trabajo, parece que han utilizado grafos para extraer esas características geométricas. Esta es la primera vez que se logra obtener unos resultados que si que se pueden comparar con los obtenidos mediante las técnicas de laboratorio.
El siguiente paso: ¿Pueden soñar las redes neuronales con proteínas que no existen?
Esto no acaba aquí. Ahora lo interesante será el proceso inverso: dada una estructura tridimensional, tratar de intentar diseñar una secuencia de aminoácidos que obtenga esa estructura (y sea estable). Por ejemplo, para algunas enfermedades no conocemos ninguna proteína en la naturaleza que nos pueda ayudar. Para esto sería necesario crear una desde cero que sepamos que va tener las características geométricas que buscamos (y por lo tanto, la función que deseamos). Eso significaria un avance para el diseños de fármacos o para la creación de nuevos materiales. ¿Por qué me pregunto si pueden las redes neuronales soñar con estas nuevas proteínas? porque, como hemos visto recientemente, existe una forma “sencilla” de que una red pueda crear/soñar una imagen realista (DeepFaceDrawing, por ejemplo), solo basándose en patrones que ha observado anteriormente. Por eso este trabajo es tan importante, ademas de los resultados, abre la puerta a la aplicación de DeepLearning en otros problemas de biología estructural computacional y el siguiente paso seguramente sea en esta dirección: utilizar esos patrones observados por el nuevo algoritmo de AlphaFold para crear proteínas “realistas” que no existen en la naturaleza.
#21 Diseñar la estructura de la proteína y obtener su secuencia de aminoácidos... no tengo ni idea de biología pero suena super interesante, y factible como problema de deep learning. Gracias por tus comentarios.
#21 Supongo que conoces el proyecto de computación distribuida rosetta@home ¿Me voy dando ya de baja de ese proyecto?
Es que entiendo que a partir de ahora van a ser vatios gastados sin mucho sentido y que se pueden destinar a cosas más útiles. ¿Para qué utilizar métodos de fuerza bruta para resolver proteínas si se puede resolver de forma mucho más eficiente con una red neuronal?
" La determinación de la forma en que se pliegan las proteínas se conoce como el "problema del plegamiento de las proteínas"
Les falta alguien de marketing. Vendería mas algo como "el problema del pliegue de dios"
#5 realmente también se le conoce cómo “el santo grial del desarrollo de medicamentos”. Not bad.
https://www.thetimes.co.uk/article/deepmind-finds-biology-s-holy-grail-with-answer-to-protein-problem-htg6s7qlq