Precisión del rasgo país en las muestras de usuarios de Twitter: propuesta metodológica

Autor: Damián Enrique Quijano Abad

Doctorado en Informática

Los estudios de opinión, a partir de los datos de las redes sociales, cuyo propósito es predecir resultados de votaciones, son parte de una línea de investigación desafiante, sujeta a enfrentar muchos obstáculos y aún por demostrar la certeza y constancia de sus resultados. Se encuentra en constante evolución, lo cual se comprueba al revisar nuevas publicaciones científicas que proponen diferentes metodologías cuyo propósito es alcanzar resultados reproducibles y precisos. Uno de los mayores desafíos es lograr una muestra significativa que aporte validez a los estudios de opinión y que reúna la mayor cantidad posible de cuentas pertenecientes a una nacionalidad. Las coordenadas de localización de los mensajes no implican necesariamente que la nacionalidad del usuario que publicó los mensajes, sea de dicha localización, un ejemplo son los turistas o personas en tránsito por un país o el caso de nacionales que viven fuera de su país, pero tienen la opción de votar por correo electrónico o en consulados. Se requiere de un gran esfuerzo en tiempo y recursos para identificar la nacionalidad de los usuarios de una red social que son parte de un estudio de intención de votos.
Este trabajo propone una metodología que automatiza el proceso de etiquetamiento de la nacionalidad de usuarios de la red social de Twitter mediante el uso de la técnica Bosques Aleatorios de Aprendizaje Automático a partir de una muestra pequeña etiquetada manualmente de usuarios que son parte de tres países centroamericanos. Este trabajo se realizó en dos aproximaciones: la primera que logró una metodología que utilizó la regresión lineal para acotar agrupamientos de usuarios dentro de una muestra y que, si bien no alcanzó un porcentaje de proporción deseado, parte del trabajo orientó y aportó experiencia a la segunda aproximación que logró construir una metodología que alcanzó los objetivos. A partir de las descargas de datos iniciales, el estudio calculó un promedio de 77.4% de nacionales identificados claramente y, por tanto, un 22.6% de usuarios que no son o no se pueden identificar como parte de los nacionales, una proporción muy alta que resta validez a los estudios de opinión.
Como resultado al aplicar la metodología resultante del estudio, se procesaron más de 5 millones de mensajes, a partir de ellos se extrajeron muestras mayores de 1000 usuarios (1,343 en Nicaragua, 3,886 en Costa Rica y 6,392 en Panamá) con una proporción mayor al 89% de nacionalidad (94.03% Panamá, 91.17% Costa Rica y 89.61% Nicaragua) logrando una mejora de proporción aceptable dentro de los intervalos de confianza que usualmente se aplican en los estudios científicos.

Descargar pdf