Algoritmos para el análisis de información genómica.
Se desea comprender cuáles son los mecanismos que rigen el que unos individuos presenten o no una determinada característica y se parte de la hipótesis de que existe una correlación no determinista entre dicha característica y la información genómica aportada por uno o varios SNPs, pero no se conoce cuáles son los conjuntos de SNPs que tienen una influencia mayor en la característica que se desea estudiar y el objetivo es descubrir dichos conjuntos de SNPs.
A día de hoy este programa es realizable siempre que se considere un único SNP y, a pesar de que la influencia genética se ve enmascarada por la influencia de factores medio ambientales, en multitud de estudios se ha puesto de manifiesto una correlación estadística significativa entre la información en un SNP y algún fenotipo mediante estudios de asociación caso/control.
El hecho de que la mayoría de los resultados positivos conocidos que han sido comprobadas se refiera a la influencia de un único SNP no significa, que la acción de más de un SNP no tenga una influencia en las características de los seres vivos, sino que sugiere que las enfermedades complejas (alzheimer, cáncer, etc.) probablemente están regidas por la interacción de más de un SNP, situados en varios genes, junto con factores medio ambientales. Por desgracia, el número de SNPs a considerar en los estudios de asociación caso/contol es demasiado grande para realizar un análisis exhaustivo.
Más concretamente, el número de SNPs que se analiza para su influencia en una enfermedad es cercano a medio millón. En consecuencia, realizar un test considerando los SNPs uno a uno es computacionalmente posible. Sin embargo, el análisis de la influencia de dos SNPs requiere considerar más de cien mil millones de parejas de SNPs, lo que requiere un gasto computacional enorme, sólo realizable con ayuda de computación de altas prestaciones.
Además la salida de estos análisis exhaustivos proporciona multitud de falsos positivos de difícil detección, consecuencia de las múltiples desviaciones estadísticas que razonablemente han de darse en semejante cantidad de casos. Finalmente, el análisis exhaustivo de la influencia de más de dos SNPs es simplemente irrealizable computacionalmente, incluso con superordenadores, pues requeriría años de computación.
Para poder superar estas dificultades computacionales es necesario desarrollar algoritmos inteligentes. Una estrategia obvia para la búsqueda de un conjunto significativo de SNPs está basada en la razonable hipótesis de que un subconjunto de un conjunto significativo de SNPs ha de tener una influencia detectable. Por ejemplo, para la búsqueda de una pareja de SNPs correlacionada con una característica podríamos hacer primero un análisis exhaustivo de SNPs individuales y descartar los SNPs que no muestren un mínimo de influencia.
Por desgracia, en diversos estudios se ha observado como los efectos de un gen en un rasgo biológico son a menudo enmascarados por la acción de otros genes. Este fenómeno recibe el nombre de epistasis.
Nuestro objetivo consiste en desarrollar algoritmos de búsqueda de conjuntos de al menos tres SNPs combinando técnicas estadísticas con técnicas de Teoría de Códigos y de Teoría de la Información. Por el momento hemos desarrollado algunas simulaciones con ordenadores personales con conjuntos pequeños de SNPs. Para analizar casos reales, considerando alrededor de medio millón de SNPs, sería necesario utilizar equipos de altas prestaciones.