сотрудник
студент
студент
студент
студент
В статье рассматриваются теоретические и практические аспекты использования web scraping для автоматизированного сбора данных в экономике. Web scraping позволяет извлекать информацию с веб-ресурсов в больших объемах, что делает его особенно востребованным для анализа цен, мониторинга рыночных трендов и оценки конкурентной активности. Основное внимание уделено применению современных инструментов, таких как Python и его библиотеки (BeautifulSoup, Scrapy, Selenium), а также использованию аналитических платформ, баз данных и облачных решений для хранения и обработки данных. В статье описаны ключевые этапы процесса web scraping, включая идентификацию источников, извлечение, парсинг, сохранение данных и их анализ. Особое внимание уделено правовым и этическим аспектам, таким как соблюдение авторских прав и конфиденциальности данных, а также рекомендации по законному использованию технологий. Практические примеры показывают, как web scraping применяется для мониторинга цен на российском рынке, анализа отзывов потребителей и прогнозирования ценовых изменений. Рассмотрены перспективы развития web scraping, включая интеграцию с искусственным интеллектом и машинами обучения, что делает этот инструмент важным элементом цифровой трансформации экономики.
web scraping, анализ данных, цены, экономика, мониторинг, автоматизация, информационные технологии
1. Mitchell, R. Web Scraping with Python: Collecting More Data from the Modern Web. 2nd ed. O'Reilly Media, 2018. 394 p.
2. Crummy, K. Beautiful Soup Documentation. URL: https://www.crummy.com/software/BeautifulSoup/ (дата обращения: 23.12.2024).
3. McKinney, W. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. 2nd ed. O'Reilly Media, 2017. 550 p.
4. Pandas Development Team. Pandas Documentation. URL: https://pandas.pydata.org/ (дата обращения: 23.12.2024).
5. NumPy Community. NumPy Documentation. URL: https://numpy.org/ (дата обращения: 23.12.2024).
6. Scrapy Project. Scrapy Documentation. URL: https://docs.scrapy.org/ (дата обращения: 23.12.2024).
7. Selenium Project. Selenium Documentation. URL: https://www.selenium.dev/documentation/ (дата обращения: 23.12.2024).
8. Федеральный закон от 27 июля 2006 г. № 152-ФЗ "О персональных данных". СПС "КонсультантПлюс".
9. Гражданский кодекс Российской Федерации (часть четвертая) от 18 декабря 2006 г. № 230-ФЗ (в ред. от 1 июля 2021 г.). СПС "КонсультантПлюс".
10. Tableau Software. Tableau Public Documentation. URL: https://public.tableau.com/ (дата обращения: 23.12.2024).
11. Google Cloud. BigQuery Documentation. URL: https://cloud.google.com/bigquery/ (дата обращения: 23.12.2024).
12. LinkedIn vs. HiQ Labs Inc. Case No. 19-1116, Ninth Circuit Court of Appeals, 2020.
13. Величко А. В., Иванов С. А. Влияние цифровых технологий на развитие экономики // Цифровая экономика и управление. 2022. Т. 5. № 2. С. 45–51.
14. Институт развития интернета. Прогнозы цифровой трансформации в России // Экономика и технологии будущего. 2022. Т. 12. № 3. С. 22–29.
15. Open Data Handbook. What is Open Data? URL: https://opendatahandbook.org/ (дата обращения: 23.12.2024).