Un conjunto de datos de más de 140 millones de tuits sobre COVID-19 podría ayudar a representar la propagación y los efectos de la pandemia mundial de coronavirus.

bigrams_wc_black

Este gráfico muestra los bigrams más comunes (dos palabras que aparecen juntas) en los tweets. (Crédito: Georgia State U.)

 

Banda, Juan M., Tekumalla, Ramya, Wang, Guanyu, Yu, Jingyuan, Liu, Tuo, Ding, Yuning, & Chowell, Gerardo. (2020). A Twitter Dataset of 150+ million tweets related to COVID-19 for open research (Version 4.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.3738018

 

El trabajo es parte de una investigación que recopila y rastrea las conversaciones en las redes sociales para aclarar los patrones de movilidad durante los desastres naturales.

Juan Banda, profesor asistente de ciencias de la computación en la Universidad Estatal de Georgia, dirige el proyecto y trabaja con epidemiólogos y científicos de datos. Los investigadores actualizarán el conjunto de datos cada dos días y podrían tener implicaciones de gran alcance.

“En un escenario futuro, contar con estos datos permitirá a los investigadores estar mejor preparados y construir sistemas para detectar la transmisión comunitaria, e idear intervenciones para no estar en la situación que estamos ahora”, dice Juan Banda

 

El trabajo proporciona una visión única del brote, que incluye información sobre viajes, desplazamiento, diagnósticos, tratamiento y un registro histórico del momento.

“Este conjunto de datos”, dice Chowell, “permitirá a los investigadores investigar la propagación de información errónea relacionada con COVID-19, estudiar el cambio en los comportamientos y sentimientos de la población a medida que el virus se propaga en diferentes áreas geográficas y cuantificar los efectos de los esfuerzos de distanciamiento social y cambios en los patrones de movilidad humana en el transcurso de la pandemia “.

“Estos datos proporcionan otra visión del impacto de la pandemia”, dice Banda. “Si bien la mayoría de los esfuerzos se centran en las tasas de infección, las hospitalizaciones y el número de muertes por uso epidemiológico, nuestro conjunto de datos se puede utilizar para medir de dónde obtienen la información las personas (o la desinformación) y medir el sentimiento de las personas con respecto a las medidas que nuestro gobierno es tomar y más “.