Análisis de autocorrelación espacial en estimaciones con algoritmos de aprendizaje automático: la problemática de la validación cruzada
El presente proyecto de tesis investiga cómo la autocorrelación espacial puede sesgar las predicciones por medio de algoritmos de aprendizaje automático y propone un marco teórico para reducir este sesgo. Para ello, nos enfocamos en datos georreferenciados, donde la relación espacial entre observaciones es crítica.
Estto se debe a que la autocorrelación espacial genera dependencias no consideradas por los algoritmos convencionales, lo que afecta a la precisión de las estimaciones. Además, la validación cruzada tradicional no se adapta bien a los datos espaciales, lo que genera problemas de sobreajuste.
De este modo, proponemos el desarrollo de nuevas técnicas que incorporen variables espaciales y ajustes en los modelos de aprendizaje automático para captar mejor las dependencias espaciales. Asimismo, desarrollaremos un sistema de validación cruzada ajustado a la estructura espacial de los datos.
Una vez desarrollado el estudio metodológico, el siguiente paso es aplicar dicha metodología a contextos de importante relevancia social, como la economía digital, el cambio climático en el contexto agrícola o los precios de la vivienda, entre otros.
De este proyecto de tesis se espera mejorar la precisión de las predicciones en contextos espaciales y ayudar a crear herramientas aplicables a diversas disciplinas como la economía, la geografía o la epidemiología.