Millones de páginas de documentos de la dictadura cívico-militar todavía no han sido analizadas en su totalidad. Para cambiar esta realidad, investigadores, docentes y estudiantes de distintas facultades de la Universidad de la República (Udelar) llevan adelante el proyecto Cruzar, que aplica técnicas de inteligencia artificial para procesar y examinar este material, con el objetivo de contribuir a la memoria histórica.
La propuesta involucra a la Facultad de Ingeniería, la Facultad de Información y Comunicación, la Facultad de Ciencias Sociales, el Centro Interdisciplinario en Ciencia de Datos y Aprendizaje Automático (Cicada) y a Madres y Familiares de Uruguayos Detenidos Desaparecidos.
Uno de los documentos trabajados fue el Archivo Berrutti, que contiene unas tres millones de páginas generadas por organismos de seguridad durante y después de la dictadura. Se trata de escaneos digitales de rollos de microfilm, en muchos casos de mala calidad, con manchas y letras borroneadas que dificultan su análisis. También se abordaron colecciones parcialmente digitalizadas, como el Archivo Histórico de la ex Dirección Nacional de Información e Inteligencia y el del Cuerpo de Fusileros Navales.
Entre sus contenidos hay recortes de prensa, listas de personas y lugares, fichas personales, fotografías, pasaportes y afiliaciones políticas.
En una primera etapa, el equipo se enfocó en el procesamiento de imágenes para mejorar la calidad y precisión de las transcripciones. Luego se adaptaron herramientas de reconocimiento óptico de caracteres (OCR) para convertir el texto de las imágenes con mayor exactitud. Se procesaron más de 2,2 millones de imágenes y se creó LUISA, una plataforma colaborativa para que la comunidad aporte transcripciones manuales.
La información se almacenó en LUZ, un sistema que permite búsquedas rápidas, y se desarrolló AMALIA, una herramienta para análisis cualitativos. También se aplicaron “técnicas de procesamiento de lenguaje natural” para extraer conceptos clave y se construyeron grafos de conocimiento, que organizan y relacionan datos para facilitar la navegación por grandes volúmenes de información.
“Hemos logrado extraer información de fichas personales (…) Buscamos generar un mapa que reconstruya las trayectorias de las personas y sus vínculos, y que ayude a descubrir conexiones ocultas. Las herramientas están disponibles a través del Repositorio Luisa Cuesta”, explicó Lorena Etcheverry, responsable del proyecto, docente de la Facultad de Ingeniería e integrante del Grupo Coordinador de CICADA.
“Este proyecto se basa en el procesamiento de imágenes y en la extracción de información de los textos contenidos en los documentos. (…) Comenzamos usando herramientas de OCR basadas en redes neuronales, y ahora estamos probando con modelos multimodales”,
En paralelo, se consolidó una red regional de investigación en IA y derechos humanos, con instituciones de Argentina, Chile, México y Uruguay.
Según los investigadores, este enfoque podría aplicarse a otros archivos documentales, siempre con supervisión humana, para preservar y estudiar el patrimonio histórico desde una mirada innovadora.
El Cicada organizará su primer Congreso Regional de Ciencia de Datos, Aprendizaje Automático e Inteligencia Artificial, que se realizará del 5 al 7 de noviembre en la Facultad de Ingeniería.