Sistema para almacenar y recuperar textos de manera estructurada manteniendo su semántica usando teoría de grupos

Autor: Edgardo Samuel Barraza Verdesoto

Doctorado en Informática

Actualmente, la información no estructurada se almacena en repositorios No-SQL para reducir la complejidad de los procesos de almacenamiento, pero la eficiencia de recuperación se reduce. Esta investigación tiene como objetivo convertir información textual en información estructurada con la ayuda de la teoría de grupos permitiendo su almacenamiento en bases de datos SQL las cuales son muy eficientes en almacenamiento y recuperación. Esta es una investigación aplicada con un enfoque cuantitativo porque el modelo construido debe conducir a una implementación que arroje estadísticas de éxito o fracaso. La implementación usó heurísticas propias para luego probarlas con un corpus de información textual en idioma español que incluía 2 textos de entretenimiento, 3 textos de noticias y 3 textos de turismo. Los dos primeros contenían 65 y 332 oraciones, el segundo grupo 64, 109 y 116, y el último 125, 128 y 325. La división textual en núcleos verbal y nominal tuvo un error del 8,8% y del 10,3% en dos de los ocho corpus. El error más significativo fue que el analizador sintáctico no clasificó correctamente algunas palabras como verbos o sustantivos formando grupos incorrectos. La información disociada se guardó en la base de datos MySQL y su recuperación se realizó mediante palabras claves. El modelo propuesto tanto en disociación como en recuperación tuvo bastante éxito, presentándose como una estrategia novedosa para almacenar textos en bases de datos SQL.

Descargar pdf