Diseño de metodología de un algoritmo de web scraping para la adquisición de datos de clima a partir de BeautifulSoup

Briant A. Gauna; Fabricio Pasinato; Nancy Ganz

Texto completo .PDF

Publicado: Feb 13, 2025

Palabras clave:

Algoritmos, Big Data, Web Scraping, Beautiful Soup, Minería de Datos, Ciencia de Datos

Briant A. Gauna

Universidad Nacional de Misiones. Facultad de Ingeniería

Fabricio Pasinato

Universidad del Gran Rosario (UGR) – U. Acad. Diseño y Tecnologías, Rosario, Santa Fe, Argentina

Nancy Ganz

Universidad Nacional de Misiones. Facultad de Ingeniería

https://orcid.org/0000-0002-9891-3371

Resumen

Este artículo explora la relevancia de los datos en la era digital, enfatizando cómo el internet actúa como una vasta fuente de información que los investigadores deben navegar para extraer datos útiles. Se centra en la técnica de web scraping, utilizando Python y la librería BeautifulSoup, como herramienta esencial para la adquisición de datos estructurados a partir de la web. El ensayo propone una metodología basada en la teoría de la "V" de Big Data, que abarca desde la selección de fuentes de información hasta la limpieza y almacenamiento de datos en formatos como CSV. Se aplicó esta metodología en un ejemplo práctico, utilizando el sitio Wunder Underground para extraer datos meteorológicos de Posadas durante dos años.

Los resultados subrayan la efectividad del web scraping, aunque requiere un esfuerzo considerable en la limpieza de los datos extraídos. Las conclusiones indican que es posible establecer criterios claros para la selección de webs adecuadas para scraping y que la sistematización de este proceso es factible. Finalmente, se sugiere explorar nuevos criterios de clasificación de webs y comparar diferentes herramientas y técnicas en futuros estudios para optimizar la adquisición y procesamiento de datos a partir de web scraping.

Número

Núm. 14 (2024): Jornadas de Investigación y Desarrollo Tecnológico, Extensión, Vinculación y Muestra de la Producción - JIDeTEV

Sección

Articulos - Trabajos de Investigación

Derechos de autor 2025 Briant A. Gauna, Fabricio Pasinato, Nancy Ganz (Autor/a)

Usted es libre de:

Compartir— copiar y redistribuir el material en cualquier medio o formato para cualquier propósito, incluso comercialmente.

Adaptar— remezclar, transformar y construir a partir del material para cualquier propósito, incluso comercialmente.

La licenciante no puede revocar estas libertades en tanto usted siga los términos de la licencia

Bajo los siguientes términos:

Atribución— Usted debe dar crédito de manera adecuada, brindar un enlace a la licencia, e indicar si se han realizado cambios . Puede hacerlo en cualquier forma razonable, pero no de forma tal que sugiera que usted o su uso tienen el apoyo de la licenciante.

No hay restricciones adicionales — No puede aplicar términos legales ni medidas tecnológicas que restrinjan legalmente a otras a hacer cualquier uso permitido por la licencia.

Referencias

Ortega Candel, J. M. (2022). Big data, machine learning y data science en Python: (1 ed.). RA-MA Editorial. https://elibro.net/es/ereader/elibrounam/230290?page=8.

Sarasa Cabezuelo, A. (2017). Gestión de la información web usando Python: ( ed.). Barcelona, Editorial UOC. Recuperado de https://elibro.net/es/ereader/elibrounam/114201?page=10 el 05 de Junio de 2024.

Gábor László Hajba (2018). "Website Scraping with Python: Using BeautifulSoup and Scrapy". Apress Berkeley, eBook ISBN 978-1-4842-3925-4CA. https://doi.org/10.1007/978-1-4842-3925-4.

Ryan Mitchel (2024). " Web Scraping with Python, 3rd Edition". O'Reilly Media, Inc. ISBN: 9781098145354

Jacqueline Kazil, Katharine Jarmul (2016). "Data Wrangling with Python". O'Reilly Media, Inc. ISBN: 9781491948774

Base de Datos OPAD del Centro de Posadas: https://www.wunderground.com/dashboard/pws/IPOSAD6. (consultado entre el 01 al 15 de Abril de 2024)

Base de Datos OPAD de Itaembé Miní: https://www.wunderground.com/dashboard/pws/IPOSAD12. (consultado entre el 01 al 15 de Abril de 2024)

Wes McKinney (2017). "Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython". Editor O'Reilly Media, Inc. ISBN 9781491957639

Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009). “The Elements of Statistical Learning, Data Mining, Inference, and Prediction, Second Edition”. Springer New York, NY. https://doi.org/10.1007/978-0-387-84858-7.

Barra lateral del artículo

Contenido principal del artículo

Resumen

Detalles del artículo

Referencias

Artículos similares