Computational perspectives in the development of graph neural network models of human variation pathogenicity
El machine learning (ML) se ocupa de desarrollar mecanismos para realizar una cierta tarea, usando para aprender una cierta experiencia que necesita que esté dispuesta en forma tabular. Por ejemplo, aprender a jugar a ajedrez a partir de una serie de partidas jugadas.
¿Qué ocurre cuando la tarea no presenta un conjunto de estas características? Para esto, se han desarrollado técnicas más modernas donde se pueden explorar conjuntos de estructuras más diversas. En nuestro caso, nos interesan los problemas donde el conjunto de experiencias está dispuesto en forma de grafo.
En este contexto, las redes neuronales sobre grafos suponen en la actualidad uno de los campos de investigación más excitantes dentro del Deep Learning (DL).
Aplicaciones en Ontologías y Medicina
Uno de los campos donde se puede aplicar de manera natural es en las ontologías, representaciones de información y conocimiento estructurado en grafos dirigidos cuyos nodos son conceptos, atributos de esos conceptos o entidades correspondientes a dichos conceptos o atributos.
En el campo de la medicina se han desarrollado un gran número de ontologías, como la Gene Ontology (GO), la Disease Ontology (DO) o la Human Phenotype Ontology (HPO). La mayoría de ellas son modelos incompletos y, posiblemente, imprecisos, de la realidad. Esto sucede por factores como el avance de la medicina y la biología, por el desconocimiento de nueva información o los errores humanos al establecer las relaciones.
En este contexto existe la posibilidad de usar ML para ayudar a completarlas mediante predicción de nuevos nodos y sus arcos.
Genética Humana
El campo de la genética humana es particularmente paradigmático en estos escenarios. Constantemente se producen descubrimientos de nuevos genes asociados a enfermedades concretas mediante mutaciones de su código genético.
Es posible predecir el carácter dañino de esa función con métodos computacionales. En la actualidad, estos modelos se han construido a partir de datos tabulares, como los predictores CADD y REVEL.
Sin embargo, muchos de los modelos usados para describir conocimiento asociado con salud y enfermedades, también las genéticas, tiene naturaleza de grafo. Aquí es donde queremos trabajar, porque las redes neuronales sobre grafos, como su nombre indica, están especialmente diseñadas para aprovechar esto.
Fenotipos y Epilepsias
Esta tesis se va a centrar en los fenotipos relacionados con las epilepsias. Trabajar con todas las variantes que producen enfermedad puede repercutir en la calidad de las predicciones del modelo.
Con los métodos actuales se han mostrado más precisos sistemas de predicción de patogenicidad de las variantes cuando se centran en enfermedades concretas. Además, como esta sería la primera vez que se utilizan las redes sobre grafos para la predicción de patogenicidad, y por motivos de obtener una mejor explicación de las predicciones del modelo, trabajaremos también con todas las variantes comparando que hace único a las epilepsias del resto de enfermedades con base genética.
Deep Learning en Entornos Médicos
Una de las principales dificultades que nos encontramos con el DL cuando lo aplicamos en entornos médicos, consiste en que las predicciones realizadas por dichos modelos pierden efectividad si no somos capaces de explicar qué lleva al proceso de inferencia a generarlas.
El ML explicable estudia cómo desarrollar predicciones que puedan explicarse a los usuarios receptores de dichas predicciones. En esta tesis contamos con esta dificultad por ser crítica en entornos médicos. Por tanto, abordaremos desde el principio desarrollando técnicas específicas del modelo de red neuronal para proporcionar explicaciones.