Región de Murcia
Fundación Séneca
Ficha descriptiva

Resumen de patrones en minería de intervalos.

En este proyecto estamos trabajando con tareas propias de Minería de Datos (MD). La MD se centra en extraer conocimiento implícito en grandes cantidades de datos (bases de datos). Una importante rama de la MD es la Minería de Datos Temporal (MDT), en la que este análisis de de bases de datos, una componente temporal es de suma importancia.

Más concretamente, en nuestra tesis nos planteamos hacer un estudio incremental, de las distintas abstracciones de patrones temporales que pueden extraerse de distintas bases de datos que se someten a estudio. Los principales inconvenientes que presentan las técnicas existentes hasta la fecha (estudiadas la mayoría de ellas sobre el tipo de patrones más simple), se dirigen a una necesidad de recursos en cuanto a memoria y tiempo de ejecución, que sobrepasa la tecnología presente en nuestros días, así como el ingente número de patrones que se deduce de estos algoritmos (los cuales son en su mayoría de poca importancia). Estos inconvenientes están directamente relacionados con el problema combinatorio que hay tras la búsqueda de patrones frecuentes en los datos sometidos a análisis. Además de lo anterior, conforme se aumenta en abstracción y en complejidad de los patrones, estos problemas cada vez se agudizan más, con lo que nuevas soluciones serían de una gran ayuda.

Entre las distintas formas de solucionar los principales inconvenientes que presenta el problema de búsqueda de patrones en bases de datos temporales, hay dos principales vertientes:

  1. Aquellos que añaden restricciones a la hora de encontrar los patrones frecuentes: de esta forma menos patrones superaran las restricciones a los que los sometamos (dependerá de cómo de rígidos-flexibles sean estas restricciones para encontrar más o menos patrones).
  2. Encontrar patrones que cumplen ciertas particularidades: los conocidos como patrones Closed, Maximales o No-Derivables. Se trata de patrones a partir de los cuales se pueden deducir otros patrones. Ahora, la tarea de búsqueda consistirá en buscar estos patrones "peculiares" y en una sencilla fase de post-procesado, encontrar aquellos otros que son fácilmente deducibles de los primeros.

El año pasado hicimos nuestra primera estancia con el grupo ADReM, y más concretamente con su Investigador principal Bart Goethals. En aquella estancia nos planteamos intentar aplicar técnicas de resumen de patrones (punto (2) ) a los algoritmos con los que venimos trabajando en el desarrollo de esta tesis doctoral. Fruto de aquella interesante estancia resultó la escritura de un Survey sobre el estado del arte desarrollado hasta este momento en minería de datos temporal, así como la creación de un nuevo algoritmo de búsqueda de patrones Closed a patrones cuya abstracción temporal es basada en puntos temporales.

En esta próxima y futura estancia nos planteamos ampliar esa búsqueda y extenderla a un conjunto de patrones más complejos como son los que representan los datos temporales como intervalos de tiempo en vez de como puntos temporales. De esta forma, el objetivo que se espera alcanzar en esta estancia es encontrar el conjunto de patrones resultado más representativo que nos resuma de la mejor forma los patrones encontrados por nuestros algoritmos. Un buen conjunto de patrones resultado nos posibilitará encontrar las mayores y mejores conclusiones de las bases de datos concretas a los que los estemos aplicando, que en nuestro caso corresponderá, principalmente, a las bases de datos de crono-biología e inteligencia ambiental.

Programa

Talento Investigador y su Empleabilidad

Convocatoria

Ayudas para estancias cortas en centros distintos al de aplicación de los becarios-contratados FPI. 2012 .

Área

Tecnologías de la información y de las comunicaciones (TIC) / Ciencia de la computación e inteligencia artificial (075)

Expediente

18615/EFPI/12

Investigador

Gomariz Peñalver, Antonio

Grupo de Investigación

AIKE