Diseño de metodología de un algoritmo de web scraping para la adquisición de datos de clima a partir de BeautifulSoup

Contenido principal del artículo

Briant A. Gauna
Fabricio Pasinato
Nancy Ganz

Resumen

 Este artículo explora la relevancia de los datos en la era digital, enfatizando cómo el internet actúa como una vasta fuente de información que los investigadores deben navegar para extraer datos útiles. Se centra en la técnica de web scraping, utilizando Python y la librería BeautifulSoup, como herramienta esencial para la adquisición de datos estructurados a partir de la web. El ensayo propone una metodología basada en la teoría de la "V" de Big Data, que abarca desde la selección de fuentes de información hasta la limpieza y almacenamiento de datos en formatos como CSV. Se aplicó esta metodología en un ejemplo práctico, utilizando el sitio Wunder Underground para extraer datos meteorológicos de Posadas durante dos años.


Los resultados subrayan la efectividad del web scraping, aunque requiere un esfuerzo considerable en la limpieza de los datos extraídos. Las conclusiones indican que es posible establecer criterios claros para la selección de webs adecuadas para scraping y que la sistematización de este proceso es factible. Finalmente, se sugiere explorar nuevos criterios de clasificación de webs y comparar diferentes herramientas y técnicas en futuros estudios para optimizar la adquisición y procesamiento de datos a partir de web scraping. 

Detalles del artículo

Sección
Articulos - Trabajos de Investigación

Referencias

Ortega Candel, J. M. (2022). Big data, machine learning y data science en Python: (1 ed.). RA-MA Editorial. https://elibro.net/es/ereader/elibrounam/230290?page=8.

Sarasa Cabezuelo, A. (2017). Gestión de la información web usando Python: ( ed.). Barcelona, Editorial UOC. Recuperado de https://elibro.net/es/ereader/elibrounam/114201?page=10 el 05 de Junio de 2024.

Gábor László Hajba (2018). "Website Scraping with Python: Using BeautifulSoup and Scrapy". Apress Berkeley, eBook ISBN 978-1-4842-3925-4CA. https://doi.org/10.1007/978-1-4842-3925-4.

Ryan Mitchel (2024). " Web Scraping with Python, 3rd Edition". O'Reilly Media, Inc. ISBN: 9781098145354

Jacqueline Kazil, Katharine Jarmul (2016). "Data Wrangling with Python". O'Reilly Media, Inc. ISBN: 9781491948774

Base de Datos OPAD del Centro de Posadas: https://www.wunderground.com/dashboard/pws/IPOSAD6. (consultado entre el 01 al 15 de Abril de 2024)

Base de Datos OPAD de Itaembé Miní: https://www.wunderground.com/dashboard/pws/IPOSAD12. (consultado entre el 01 al 15 de Abril de 2024)

Wes McKinney (2017). "Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython". Editor O'Reilly Media, Inc. ISBN 9781491957639

Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009). “The Elements of Statistical Learning, Data Mining, Inference, and Prediction, Second Edition”. Springer New York, NY. https://doi.org/10.1007/978-0-387-84858-7.

Artículos similares

También puede Iniciar una búsqueda de similitud avanzada para este artículo.