Asistente virtual para facilitar la usabilidad de recursos semánticos biomédicos
El proyecto está motivado por la gran cantidad de repositorios y grafos de conocimiento biomédicos producidos tanto en el grupo de investigación Tecnomod de la universidad de Murcia (UMU), de otros grupos con los que colaboramos como el grupo de investigación de Prof. Martin Kuiper de la universidad de ciencia y tecnología de Noruega (NTNU) con la plataforma de libre acceso BioGateway y la aplicación Cytoscape, y recursos externos como los de la nube de datos abiertos enlazados [3] que ofrecen acceso libre a diferentes recursos. x000D
Estas fuentes de información están caracterizadas por utilizar tecnologías de la web semántica, como RDF y ontologías OWL, para representar formalmente tanto las instancias como el conocimiento del dominio en las que se aplica. Esto tiene como ventaja que la información representada tiene asociado su contexto, lo que favorece su interpretación, ampliación de contenido y su correspondencia con repositorios externos. x000D
A pesar de las ventajas del uso de tecnologías semánticas, la usabilidad de los recursos semánticos por parte de usuarios no expertos es limitada por su falta de experiencia en dichas tecnologías o por el modelo del conocimiento del dominio utilizado. Así, la curva de aprendizaje de los usuarios es mayor ya que es necesario que aprendan a cómo utilizar dichos recursos y los lenguajes de consulta de repositorios semánticos, como SPARQL. Para solventar este problema, se han utilizado varios métodos como complejos formularios o búsquedas a través de interfaces gráficas sobre grafos de conocimiento. x000D
En este proyecto se pretende investigar en métodos que mejoren la usabilidad de los grafos disponibles de BioGateway y de los resultados obtenidos junto con los responsables de BioGateway. Para ello se investigará el uso de métodos como embeddings, modelos de aprendizaje (transformers), modelos de lenguaje grandes (LLMs) y procesamiento de lenguaje natural (PLN) para reducir la necesidad de aprendizaje de las tecnologías semánticas utilizadas para la representación y consulta de los recursos biomédicos.
El plan de trabajo del proyecto se organiza en cuatro fases. La primera fase "Recopilación de Fuentes de Datos y Grafos de Conocimiento", se centra en recopilar fuentes de datos y grafos de conocimiento de aplicación en el proyecto. La segunda fase "Generación de Datos de Consultas en Lenguaje Natural y Traducciones a Lenguaje de Consulta Semánticos", aborda la generación de datos de consultas en lenguaje natural y su traducción a lenguajes de consulta semánticos para el entrenamiento de modelos de lenguaje. La tercera fase "Aplicación de Modelos de Lenguaje y Transformers para la Traducción de Consultas", se enfoca en aplicar modelos de lenguaje y transformers para la traducción de consultas en lenguaje natural a consultas en lenguaje de consultas propios de los grafos de conocimiento utilizados. La cuarta fase "Integración de los Modelos para la Implementación de un Asistente Virtual", es donde se integrarán los modelos generados para implementar un asistente virtual que facilite la usabilidad. Por último, la difusión de los resultados obtenidos se realizará como una actividad trasversal al desarrollo del proyecto.