Diseño de metodología de un algoritmo de web scraping para la adquisición de datos de clima a partir de BeautifulSoup
Contenido principal del artículo
Resumen
Este artículo explora la relevancia de los datos en la era digital, enfatizando cómo el internet actúa como una vasta fuente de información que los investigadores deben navegar para extraer datos útiles. Se centra en la técnica de web scraping, utilizando Python y la librería BeautifulSoup, como herramienta esencial para la adquisición de datos estructurados a partir de la web. El ensayo propone una metodología basada en la teoría de la "V" de Big Data, que abarca desde la selección de fuentes de información hasta la limpieza y almacenamiento de datos en formatos como CSV. Se aplicó esta metodología en un ejemplo práctico, utilizando el sitio Wunder Underground para extraer datos meteorológicos de Posadas durante dos años.
Los resultados subrayan la efectividad del web scraping, aunque requiere un esfuerzo considerable en la limpieza de los datos extraídos. Las conclusiones indican que es posible establecer criterios claros para la selección de webs adecuadas para scraping y que la sistematización de este proceso es factible. Finalmente, se sugiere explorar nuevos criterios de clasificación de webs y comparar diferentes herramientas y técnicas en futuros estudios para optimizar la adquisición y procesamiento de datos a partir de web scraping.
Detalles del artículo
Usted es libre de:
Compartir— copiar y redistribuir el material en cualquier medio o formato para cualquier propósito, incluso comercialmente.
Adaptar— remezclar, transformar y construir a partir del material para cualquier propósito, incluso comercialmente.
La licenciante no puede revocar estas libertades en tanto usted siga los términos de la licencia
Bajo los siguientes términos:
Atribución— Usted debe dar crédito de manera adecuada, brindar un enlace a la licencia, e indicar si se han realizado cambios . Puede hacerlo en cualquier forma razonable, pero no de forma tal que sugiera que usted o su uso tienen el apoyo de la licenciante.
No hay restricciones adicionales — No puede aplicar términos legales ni medidas tecnológicas que restrinjan legalmente a otras a hacer cualquier uso permitido por la licencia.
Referencias
Ortega Candel, J. M. (2022). Big data, machine learning y data science en Python: (1 ed.). RA-MA Editorial. https://elibro.net/es/ereader/elibrounam/230290?page=8.
Sarasa Cabezuelo, A. (2017). Gestión de la información web usando Python: ( ed.). Barcelona, Editorial UOC. Recuperado de https://elibro.net/es/ereader/elibrounam/114201?page=10 el 05 de Junio de 2024.
Gábor László Hajba (2018). "Website Scraping with Python: Using BeautifulSoup and Scrapy". Apress Berkeley, eBook ISBN 978-1-4842-3925-4CA. https://doi.org/10.1007/978-1-4842-3925-4.
Ryan Mitchel (2024). " Web Scraping with Python, 3rd Edition". O'Reilly Media, Inc. ISBN: 9781098145354
Jacqueline Kazil, Katharine Jarmul (2016). "Data Wrangling with Python". O'Reilly Media, Inc. ISBN: 9781491948774
Base de Datos OPAD del Centro de Posadas: https://www.wunderground.com/dashboard/pws/IPOSAD6. (consultado entre el 01 al 15 de Abril de 2024)
Base de Datos OPAD de Itaembé Miní: https://www.wunderground.com/dashboard/pws/IPOSAD12. (consultado entre el 01 al 15 de Abril de 2024)
Wes McKinney (2017). "Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython". Editor O'Reilly Media, Inc. ISBN 9781491957639
Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009). “The Elements of Statistical Learning, Data Mining, Inference, and Prediction, Second Edition”. Springer New York, NY. https://doi.org/10.1007/978-0-387-84858-7.