
Algoritmos de IA y supercomputadores colaboran en estudios sobre cáncer y envejecimiento
6/02/2025Estos dispositivos de alto desempeño permiten pasar del análisis tradicional “binario” a encontrar hallazgos mucho más sofisticados, que son cruciales para el avance de los estudios en ciencia básica en ámbitos como la expansión de los tumores o la neurodegeneración.
El Dr. Alberto Martín se dedica a tomar, procesar y depurar estos datos para generar nuevo conocimiento, contribuyendo a lograr resultados que hasta hace años estaban lejos del alcance del trabajo humano.
“El uso de algoritmos de inteligencia artificial nos ayuda a encontrar relaciones que no son tan evidentes”, señala el académico, quien dirige un doctorado de Biología Computacional y recientemente obtuvo una publicación de importancia global en la materia.
El uso de supercomputadores –o computadores de alto rendimiento– en los estudios científicos es crucial para avanzar a la exploración de nuevas asociaciones complejas de obtener con métodos tradicionales y que conducen a hallazgos de mayor complejidad. Todo esto en la búsqueda de proporcionar las bases acerca de cómo funcionan los seres vivos, comprender los mecanismos que fallan en contextos patológicos y contribuir, en el futuro, al desarrollo de nuevos tratamientos.
En el Centro Basal Ciencia & Vida, de la Universidad San Sebastián, el Dr. Alberto Martín es jefe del Grupo de Redes Biológicas, parte del laboratorio de Biología Computacional, una unidad que utiliza herramientas computacionales de alto desempeño para apoyar investigaciones en múltiples campos, entre ellos varios tipos de cáncer o diversas enfermedades relacionadas con el envejecimiento.
“Lo que hacemos es tomar grandes volúmenes de datos, procesarlos, limpiarlos y transformarlos en nuevo conocimiento. El uso de algoritmos que aprenden por sí solos de los datos nos ayuda a encontrar relaciones que no son tan evidentes”, señala este investigador español, afincado en Chile hace más de diez años y nuevo director del Doctorado en Biología Computacional de la Fundación Ciencia y Vida y la USS.
El equipo que lidera el Dr. Martín –biólogo de formación– colabora con grupos científicos en el propio Centro Basal y también en el exterior. Su campo de especialidad es la ciencia de datos, provenientes de fuentes biológicas, biomédicas o de experimentación, principalmente relacionados con el control de la expresión de los genes y cómo los seres vivos regulan este mecanismo fundamental. Los hallazgos más prometedores obtenidos son luego validados en los laboratorios de sus colaboradores.
El investigador explica que en las bases de datos de enfermedades como el Alzheimer o ciertos tipos de cáncer hay una gran variedad de información sobre los niveles de expresión de genes en modelos animales, seres humanos e incluso plantas. El análisis tradicional interpreta estos datos determinando cuáles de todos los genes se relacionan más con individuos sanos o enfermos.
Sin embargo, con el uso de algoritmos de inteligencia artificial, la capacidad de análisis evoluciona exponencialmente.
“La computación de alto rendimiento significa usar de manera coordinada un grupo de computadores dedicados para resolver una tarea. El poder de cálculo que necesitamos para lidiar con las cantidades de datos biológicos disponibles hoy en día es muy alto. Las herramientas que utilizamos están optimizadas para exprimir al máximo tanto los datos como el desempeño, utilizando todos los núcleos de cada procesador”, añade el académico, quien es Magíster en Bioinformática y Doctor en Ciencias de la Computación de la University College de Dublín, en Irlanda.
De acuerdo a la definición de la compañía tecnológica Google, la computación de alto rendimiento (también conocida por su sigla en inglés HPC) es la práctica de agregar recursos de procesamiento para obtener un rendimiento mayor que de solo una estación de trabajo, un servidor o una computadora.
La HPC puede tomar la forma de supercomputadoras personalizadas o grupos de computadoras individuales llamadas clústeres, así como también ejecutarse de forma local, en la nube o como un híbrido de ambas. “Permite a empresas e investigadores agregar recursos de procesamiento a fin de resolver problemas que son demasiado grandes para que las computadoras estándar los procesen de manera individual o que tardarían demasiado en procesarlos”, precisa el gigante norteamericano.
Entre la computación y la biología
La computación de alto desempeño contribuye a dar sentido a los millones de datos que hay disponibles en distintos repositorios de interés científico en Internet. Gracias al uso de modelos matemáticos y algoritmos de inteligencia artificial, los científicos pueden encontrar potenciales marcadores de sus investigaciones a partir del procesamiento de esa información.
“Nuestro foco principal en la investigación es entender cómo los seres vivos regulan la expresión de sus genes. Un genoma es como una biblioteca de manuales. Los genes que lo componen son cada uno de esos manuales. Lo asimilo al manual de un juguete Lego. Lo tomas y empiezas a construir un auto, tomas otro y construyes un avión. Las células hacen lo mismo con los genes; la pregunta es por qué este manual se lee en un momento y no el otro”, puntualiza el Dr. Martín.
Además de procesar la información, los biólogos computacionales trabajan en la representación de los datos a través de redes. Al organizar un sistema como una red, las simulaciones permiten aplicar algoritmos para identificar asociaciones de manera automática. Es una suerte de convivencia entre dos mundos: la ciencia de datos y la informática, por un lado; y la biología molecular y la biomedicina por el otro.
En algunos casos, explica el académico de la USS, los mismos algoritmos sirven para predecir el comportamiento del mercado o el clima de los próximos días. “En este caso, nos ayudan a determinar que es muy probable que un gen no esté funcionando de forma adecuada o que esté relacionado con una determinada bacteria dentro de un tumor, y que esto pueda significar malas noticias para un paciente”.
El científico de datos comenta que los algoritmos que realizan estas tareas no se caracterizan por su gran complejidad. De hecho, son más bien sencillos. Sin embargo, cuando se aplican a problemas complejos permiten validar estudios en modelos experimentales o dilucidar por qué algunos pacientes no responden a tratamientos. “Buscamos siempre casos de aplicación para describir la utilidad de los métodos que diseñamos y usamos”.
Una vez que el modelo algorítmico demuestra su confiabilidad, el conocimiento queda disponible para ser utilizado por cualquier miembro de la comunidad científica gracias a una licencia Creative Commons (una herramienta legal de carácter gratuito que permite a los usuarios utilizar obras protegidas por derecho de autor, con un rango más flexible de permisos para los usos catalogados como “justos”).
“A día de hoy estamos trabajando en varios tipos de tumores y en varias enfermedades neurodegenerativas. Pero también estamos haciendo cosas para entender cómo las plantas regulan la expresión de sus genes, a fin de entender qué bacterias hay que poner juntas en un reactor para que creen un determinado metabolito, es decir, una molécula de interés comercial o médico. O entender si esas bacterias se entienden o si se perjudican entre ellas compitiendo por los recursos que necesitan para proliferar.”
La incorporación de herramientas de frontera como la inteligencia artificial hace posible multiplicar la cantidad de parámetros de una muestra como un examen de sangre, pasando de 40 datos a más de 30 mil por muestra.
“Cargar esa información en la memoria de un supercomputador y empezar a aplicar algoritmos es lo que permite explorar asociaciones más complejas. Este tipo de algoritmos de IA solo resuelven esa tarea en particular o en algunos casos puedes forzarlo para gestionar dos o tres. Por decirlo de otra manera, los algoritmos que usamos en el laboratorio de Biología de Redes nunca van a dominar el mundo, porque solo resuelven una tarea específica, es decir están diseñados para determinar un diagnóstico y clasificar a un paciente en lugar de actuar de manera inteligente”, acota el Dr. Martín.
El código epigenético
La revista Briefing in Bioinformatics –una de las más importantes del campo de la Biología Computacional a nivel mundial-, publicó el último trabajo desarrollado por el equipo del Dr. Alberto Martín y su grupo de redes biológicas.
El artículo “Comprensión de las relaciones entre las marcas epigenéticas y su aplicación a la asignación robusta de estados de cromatina” responde al objetivo de comprender los mecanismos de control de la expresión de los genes en el genoma humano. Normalmente, este control depende del contexto en que esta se encuentra, pero aún sigue habiendo un gran desconocimiento sobre los millones de datos que pueden derivar del comportamiento de los 35 mil genes que componen la secuencia de ADN humano.
“Esto ocurre porque hay unas proteínas llamadas factores de transcripción que se unen a cada gen y hacen que este se lea, se exprese o que se quede ignorado como un libro en una estanteria de una biblioteca. Ese mecanismo regulatorio, que cada vez se entiende mejor, no obedece solo a que la proteína reguladora esté allí, sino a muchas otras cosas que están ocurriendo en las células. Entre otras cosas, y una de las más importantes, es la acumulación de otros tipos de señales químicas asociadas a regiones específicas a lo largo de todo el material genético del genoma”, explica el biólogo del Centro Basal Ciencia y Vida de la USS.
El ADN de las células se agrupa alrededor de proteínas denominadas histonas, que son las que lo mantienen organizado. Distintas modificaciones químicas en distintas histonas cambian la organización del genoma. En esta “biblioteca”, los genes se organizan con etiquetas que serían estas modificaciones de histonas que refieren a su participación en distintos procesos al igual que los libros en un estante. Sin embargo, la combinación de estas categorías, de distintas modificaciones químicas de histonas y qué implican para expresar un gen u otro es uno de los grandes misterios para la ciencia, añade el especialista.
La exploración de las etiquetas, su vinculación con determinadas condiciones y la exploración experimental demanda enormes recursos humanos, logísticos e incluso económicos. El trabajo del Dr. Martín indaga 33 marcadores (que cambian la forma en que se expresan los genes) en cuatro líneas celulares, en dos contextos distintos. “Usamos nuestros algoritmos para entender las relaciones de estas marcas. Antes de esto, había poco más que correlaciones y apenas se entendían las asociaciones entre estas marcas”.
“Sin embargo, nosotros empezamos a ver nuevas asociaciones entre modificaciones de histonas, utilizando muchísimos recursos computacionales durante un largo período de tiempo, lo que nos aportó evidencia nueva sobre la existencia del código epigenético. Si estas combinaciones que encontramos entre modificaciones químicas de histonas son un código, significa que hay un mensaje que transmitir; y que este mensaje primero se codifica y después se decodifica para poder llevar a cabo las instrucciones que transmite el mensaje”.
El especialista añade que, utilizando su cascada de algoritmos, han descubierto que es posible predecir, en base a la presencia de algunas modificaciones, la existencia de otras, demostrando su redundancia. “Es decir, unas pocas marcas transmiten la misma información que muchas de ellas. También hemos encontrado evidencia para poder decir que el código epigenético es degenerado, que hay varias combinaciones de marcas que permiten determinar la presencia o ausencia de varias otras marcas, lo que significa que el mismo mensaje se puede codificar de distinta manera”.
El trabajo –que fue parte de una tesis de doctorado– contribuirá a reducir, por intermedio del uso de algoritmos de inteligencia artificial y el uso de computadores de alto desempeño, el costo de experimentos que demandan elevados recursos económicos. “Para llegar a estos resultados se requiere manejar y organizar de manera eficiente grandes volúmenes de información y el uso coordinado de muchos recursos computacionales”, concluyó el especialista.
Texto por: Luis Francisco Sandoval. Agencia Inés Llambías Comunicaciones.