«Uno de los objetivos más importantes del proyecto era estudiar el alcance de técnicas de aprendizaje automático para clasificar imágenes no transcritas según sus contenidos textuales» Entrevista a Enrique Vidal, coord. del Proyecto Carabela (1a Parte)

Hoy queremos dar a conocer el Proyecto Carabela, consiste en la indexación probabilística de colecciones de manuscritos de los siglos XV – XVI con el fin de proteger nuestro patrimonio histórico subacuático. Para que nos explique en qué consiste y cómo ha sido el desarrollo de este proyecto, tenemos el placer de entrevistar a Enrique Vidal, uno de sus coordinadores.

(Archivoz) Vuestro proyecto se basa en la indexación probabilística, contadnos en qué consiste

(Enrique Vidal) Para cada imagen de texto, creamos una especie de «mapa de calor de palabras». En cada píxel la imagen, este «mapa» indica la mayor o menor probabilidad de que ese píxel forme parte de una o generalmente de muchas palabras o secuencias de caracteres plausibles. Para una imagen típica de las que hemos procesado en el proyecto Carabela, el índice probabilístico que representa este «mapa» contiene alrededor de 4,000 hipótesis de posibles palabras o secuencias de caracteres posiblemente escritas en la imagen, con sus correspondientes probabilidades y posiciones en la imagen. Como en una imagen suelen haber alrededor de 200 palabras realmente escritas, esto corresponde a una «densidad media de indexación» de unas 20 hipótesis por palabra
real.

En la WEB del proyecto carabela hay algunas presentaciones con figuras que ilustran este concepto. Es importante entender que un índice probabilístico de una imagen de texto es algo radicalmente diferente de una transcripción automática de la misma. Para empezar, la transcripción sería algo mucho más simple y «pequeño»: alrededor de 1000 bytes por imagen (200 palabras a 5 bytes por palabra en promedio). En comparación, el índice probabilístico correspondiente requiere alrededor de 60,000 bytes (4,000 hipótesis a unos 15 bytes por hipótesis, en promedio). Y lo más importante: los errores de una transcripción automática son irreversibles. En la mayoría de documentos que se han procesado en Carabela, el 30 por cien de las palabras (y a veces muchas más) que se obtienen mediante transcripción automática son erróneas. Si solo esas palabras se usaran para indexar la colección, los resultados de la mayoría de búsquedas de información serían decepcionantes… Por contra, un índice probabilístico contiene muchas hipótesis de cada posible palabra. Si una palabra está claramente escrita, sin ambigüedades lingüísticas, y la imagen es de buena calidad, el número de hipótesis que se indexan es muy pequeño; quizás una sola hipótesis en muchos casos. Sin embargo, en partes deterioradas de documentos,con tipos de escritura complejos y/o ambigüedades lingüísticas (causadas por ejemplo por el uso de abreviaturas y/o arcaicismos), se pueden llegar a indexar hasta varios millares de hipótesis por cada posible palabra real. Es gracias a esta «densidad adaptativa de indexación» que finalmente es posible encontrar información textual precisa incluso en las peores condiciones de los documentos considerados.

En resumen, los índices probabilísticos tratan de preservar la incertidumbre inherente en la interpretación como texto de los trazos que se observan en las imágenes; de esta forma se evita que se pierdan posibles interpretaciones que quizás puedan parecer poco plausibles a primera vista pero que pueden ser justamente las que interesen cuando se busque información en esas imágenes.

(Archivoz) … y cómo surgió la idea.

(EV) Hace más de 10 que años empezamos a trabajar en el desarrollo de tecnologías para facilitar el acceso a los contenidos textuales de manuscritos históricos. Entonces asumíamos que el objetivo primordial debía ser la obtención de transcripciones textuales precisas de las
imágenes de estos documentos. Pero estaba bastante claro que, para la mayoría de colecciones históricas de interés, iba a ser imposible conseguir transcripción automáticas con precisión cercana al 100%. Así las cosas dedicamos unos 5 años al desarrollo de tecnologías interactivas de transcripción asistida. Ya que un experto humano ha de acabar verificando los resultados de transcripción automática y corrigiendo sus errores (que frecuentemente son muchos), desarrollamos sistemas que permiten una estrecha colaboración entre el experto y la máquina. La máquina sugiere como comenzar o continuar la transcripción de una línea o párrafo y el experto valida o corrige una parte de la transcripción sugerida. Las correcciones ayudan al sistema a mejorar su predicción en el resto de la línea o párrafo. De esta forma, el trabajo de revisión y corrección del experto es mucho menor y más amigable que si tuviera que transcribir todo sin asistencia, o incluso que si tuviera que corregir uno a uno los errores de transcripción puramente automática.

Cuando intentamos aplicar esta interesante tecnología en bibliotecas y archivos, pronto quedó muy claro que, incluso con la asistencia de transcripción, el coste humano del proceso es demasiado alto. La producción de transcripciones suficientemente precisas solo parece viable para casos concretos de documentos más o menos icónicos y siempre que estemos hablando de unos pocos cientos, miles o quizás decenas de miles de páginas. Pero en la mayoría de colecciones históricas de interés no se habla de miles o decenas de miles, sino de centenares de miles o de millones de páginas, o simplemente de kilómetros de estanterías en las que se conserva la colección original.

Así pues, decidimos reorientar nuestros desarrollos hacia tecnologías totalmente automáticas (o sea, sin intervención de operadores humanos) que hicieran posible la búsqueda de información textual en manuscritos no transcritos. Así llegamos al concepto de índices probabilísticos cuyo éxito ha quedado patente en colecciones como Carabela (así como en otras grandes colecciones en diversas lenguas que se pueden encontrar a través de la dirección WEB).

(Archivoz) Según se puede leer en vuestra web que: “se desarrollarán nuevas técnicas de recuperación de la información que permitan la extracción efectiva de información valiosa de imágenes de texto sin transcribir” ¿En qué consiste estas novedosas técnicas?

(EV) Cuando antes decía «totalmente automático» hay que tener en cuenta que todas las tecnologías que desarrollamos en nuestro centro de investigación deben su éxito al uso de metodologías de Aprendizaje Automático («Machine Learning», en inglés). Bajo este enfoque siempre se necesitan «muestras» o ejemplos de aprendizaje que necesariamente han de ser producidos por expertos en la tarea a realizar. En este caso, tanto si se trata de transcripción como de indexación probabilística, las muestras son imágenes manualmente transcritas con el tipo de transcripción deseado: diplomático o «modernizado», con abreviaturas expandidas o no, etc. Para indexar las 125,000 imágenes del proyecto Carabela, ha sido necesario transcribir de forma «modernizada y con abreviaturas expandidas alrededor de 400 imágenes de aprendizaje. Para llevar a cabo esta tarea de forma eficiente y amigable se han usado las herramientas de transcripción asistida que he mencionado antes.

El objetivo primario de los indices probabilísticos, tanto en Carabela como en otros proyectos, es hacer posible la búsqueda efectiva de información textual en imágenes de texto sin transcribir. No obstante, la información que se almacena en un índice probabilístico puede ser de enorme utilidad para un gran número de aplicaciones típicas de analítica de datos textuales a gran escala («Big Data»).

Aún sin tener la transcripción de una colección de manuscritos, pueden aplicarse técnicas más o menos sofisticadas de análisis estadístico para determinar diversos parámetros interesantes de esa colección a partir de sus índices probabilísticos. Por ejemplo, se puede estimar con bastante precisión el número total de palabras escritas, el número de palabras diferentes y cuales son exactamente esas palabras (o sea el vocabulario), etc.

Siguiendo esta dirección, en Carabela nos propusimos dar un paso más arriesgado pero también importante. Concretamente, uno de los objetivos más importantes del proyecto era estudiar el alcance de técnicas de aprendizaje automático para clasificar imágenes no transcritas según sus contenidos textuales. Se trataba de etiquetar automáticamente expedientes de los considerados en Carabela (que pueden contener entre unas pocas páginas y unos pocos miles de páginas cada uno) en «clases de riesgo de exposición pública». En los primeros experimentos hemos considerado solo tres clases, que hemos llamado «verde» (V), «amarillo» (A) y «rojo» (R), correspondientes al riesgo de que esos expedientes pudieran ser utilizados con éxito para fines ilícitos de expolio del patrimonio histórico sumergido (es decir, riesgo de que empresas o individuos «cazatesoros» puedan obtener información útil para localizar pecios valiosos).

Los alentadores resultados que hemos obtenido en estos experimentos nos permiten pronosticar que sería perfectamente viable procesar de forma totalmente automática una colección tal como el Archivo General de Indias y asignar a cada expediente su etiqueta V, A, o R con una precisión suficiente como para evitar más del 90% del riesgo.

A %d blogueros les gusta esto: