Evaluación comparativa entre técnicas de optimización de procesamiento masivo de datos en un sistema web

Autor: José Sebastián Aguilar Silva

Maestría en Ingeniería del Software

En esta investigación se desarrolló un sistema web de procesamiento de datos masivos con dos enfoques de optimización utilizados en tareas de filtrado, agrupación y agregación de tipos de datos numéricos y de texto. Los datos fueron recopilados de repositorios públicos de datos masivos reales y sintéticos, y se realizaron mediciones de consumo de CPU, memoria RAM y tiempo de ejecución con cada enfoque implementado. Las mediciones métricas correspondientes fueron implementadas considerando un impacto mínimo en el procesamiento de las tareas ejecutadas.

El sistema fue construido con dos secciones principales: la interfaz gráfica desarrollada con el marco de desarrollo “Next.js” y la infraestructura “Backend” desarrollada en el lenguaje de programación Python con paquetes externos como Pandas, FastAPI, entre otras, para el manejo de rutas, autenticación, permisos y la lógica de implementación de los enfoques correspondientes. Los procesos de optimización se desarrollaron considerando técnicas de procesamiento por lotes, paralelismo, uso de librerías de bajo nivel y aplicación de máscaras para unificación de tareas.

Las tareas de procesamiento realizadas se repitieron con 6 repositorios de entre 23500 – 50000000 de datos, y se realizaron iteraciones para garantizar la fiabilidad de los datos obtenidos. Posteriormente, se llevó a cabo el análisis de los resultados obtenidos con base en varios aspectos: enfoque de optimización, tamaño de conjuntos de datos, tipo de proceso y número de operaciones.

Descargar pdf