Extracción de información semántica de un corpus multilingüe.
La desambiguación semántica es uno de los principales retos que se presentan a la hora de instanciar una ontología y el uso de corpora textuales para llevar a cabo dicha tarea es una de las técnicas más utilizadas. Durante la estancia la becaria procederá a la anotación de un corpus multilingüe de definiciones de glosario, siguiendo una metodología establecida por el grupo.
Una vez anotado el corpus los términos extraídos se mapearán a como instancias de los conceptos de la ontología (si procede) y las relaciones se mapearán como instancias de las propiedades de la ontología, esta tarea se realizará de forma semiautomática supervisada por la becaria hasta que se consiga un grado aceptable de exhaustividad y precisión.
La becaria ya se familiarizó en una estancia precedente con algunas de las herramientas desarrolladas por el grupo, de manera que vistas las ventajas y limitaciones de las mismas, se procederá a incorporar en dichas aplicaciones el resultado de la investigación llevado a cabo por la becaria, supervisada por la investigadora principal del grupo.