Región de Murcia
Fundación Séneca
Ficha descriptiva

Word embeddings to support inter-rater reliability of annotations with snomed ct+fhir

La asignación de códigos de una terminología a un término médico es una estrategia habitual para captar y normalizar la semántica de un problema clínico. Esto lo puede hacer directamente el trabajador clínico, pero requiere mucho tiempo y esfuerzo.

El problema de capturar la totalidad de la intención del clínico es de particular importancia para las descripciones de problemas clínicos, ya que se ha demostrado empíricamente que los problemas clínicos a menudo no pueden ser descritos suficientemente por un solo concepto, sino que requieren un conjunto de conceptos para capturar modificadores y otros contextos relacionados.

SNOMED CT es la terminología clínica multilingüe más completa, precisa e importante desarrollada en el mundo. SNOMED CT puede utilizarse para codificar, recuperar, comunicar y analizar datos clínicos, lo que permite a los profesionales clínicos representar la información de forma adecuada, precisa e inequívoca.

La terminología se compone de conceptos, descripciones y relaciones, para representar con precisión la información y la semántica clínica. Además, HL7 FHIR es una especificación emergente diseñada para permitir el intercambio de información sobre la asistencia sanitaria. Incluye datos clínicos, administrativos, de salud pública y de investigación. La especificación FHIR está dirigida a desarrollar soluciones interoperables.

La especificación FHIR no trata de definir buenas o mejores prácticas clínicas, ni ofrece orientación sobre interfaces de usuario o flujos de trabajo. Ambos productos, SNOMED CT y HL7 FHIR pueden ser utilizados conjuntamente para la representación semántica de textos clínicos. Sin embargo, es necesario el desarrollo de guías para la anotación que favorezca la uniformidad de cómo la semántica es representada.

Los métodos de análisis de la fiabilidad y acuerdo entre anotadores son una medida adecuada para evaluar cómo de buenas son unas guías de anotación respecto a otras. Métodos tradicionales como el índice Alpha de Krippendorff, índice Kappa de Cohen, o el coeficiente de correlación intra-clases, pueden medir el acuerdo entre diferentes anotadores sobre un mismo texto clínico. Para la aplicación de dichos métodos se debe evaluar cómo de similares son dos anotaciones de anotadores independientes. Dicha tarea puede ser complicada cuando hay una gran variabilidad de anotaciones adecuadas para un mismo texto médico. Una buena guía de anotación tiene como objetivo reducir esta variabilidad, pero no siempre es posible.

En este trabajo de investigación se pretende desarrollar una metodología que utilice métodos recientes de Word embeddings para la representación de términos clínicos y sus anotaciones como vectores numéricos y que capturen su semántica a partir de un corpus de textos clínicos en lenguaje natural. Así, se investigará la integración de los vectores numéricos para evaluar la similitud entre anotadores y su utilización para el cálculo semiautomático de los índices de análisis de fiabilidad entre anotadores. Como resultado, la metodología desarrollada pretende ser utilizada para favorecer la evaluación de guías de anotación de textos clínicos con SNOMED CT y FHIR.

Programa

Movilidad Investigadora

Convocatoria

Estancias de Investigadores de la Región de Murcia en Centros Internacionales 2023

Área

Tecnologías de la información y de las comunicaciones (TIC) / Ciencias de la computación y tecnología informática (INF)

Expediente

22205/EE/23

Investigador

Miñarro Giménez, Jose Antonio

Grupo de Investigación

TECNOMOD