Использование методов web scraping для анализа ценовых данных в экономике
Аннотация и ключевые слова
Аннотация (русский):
В статье рассматриваются теоретические и практические аспекты использования web scraping для автоматизированного сбора данных в экономике. Web scraping позволяет извлекать информацию с веб-ресурсов в больших объемах, что делает его особенно востребованным для анализа цен, мониторинга рыночных трендов и оценки конкурентной активности. Основное внимание уделено применению современных инструментов, таких как Python и его библиотеки (BeautifulSoup, Scrapy, Selenium), а также использованию аналитических платформ, баз данных и облачных решений для хранения и обработки данных. В статье описаны ключевые этапы процесса web scraping, включая идентификацию источников, извлечение, парсинг, сохранение данных и их анализ. Особое внимание уделено правовым и этическим аспектам, таким как соблюдение авторских прав и конфиденциальности данных, а также рекомендации по законному использованию технологий. Практические примеры показывают, как web scraping применяется для мониторинга цен на российском рынке, анализа отзывов потребителей и прогнозирования ценовых изменений. Рассмотрены перспективы развития web scraping, включая интеграцию с искусственным интеллектом и машинами обучения, что делает этот инструмент важным элементом цифровой трансформации экономики.

Ключевые слова:
web scraping, анализ данных, цены, экономика, мониторинг, автоматизация, информационные технологии
Список литературы

1. Mitchell, R. Web Scraping with Python: Collecting More Data from the Modern Web. 2nd ed. O'Reilly Media, 2018. 394 p.

2. Crummy, K. Beautiful Soup Documentation. URL: https://www.crummy.com/software/BeautifulSoup/ (дата обращения: 23.12.2024).

3. McKinney, W. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. 2nd ed. O'Reilly Media, 2017. 550 p.

4. Pandas Development Team. Pandas Documentation. URL: https://pandas.pydata.org/ (дата обращения: 23.12.2024).

5. NumPy Community. NumPy Documentation. URL: https://numpy.org/ (дата обращения: 23.12.2024).

6. Scrapy Project. Scrapy Documentation. URL: https://docs.scrapy.org/ (дата обращения: 23.12.2024).

7. Selenium Project. Selenium Documentation. URL: https://www.selenium.dev/documentation/ (дата обращения: 23.12.2024).

8. Федеральный закон от 27 июля 2006 г. № 152-ФЗ "О персональных данных". СПС "КонсультантПлюс".

9. Гражданский кодекс Российской Федерации (часть четвертая) от 18 декабря 2006 г. № 230-ФЗ (в ред. от 1 июля 2021 г.). СПС "КонсультантПлюс".

10. Tableau Software. Tableau Public Documentation. URL: https://public.tableau.com/ (дата обращения: 23.12.2024).

11. Google Cloud. BigQuery Documentation. URL: https://cloud.google.com/bigquery/ (дата обращения: 23.12.2024).

12. LinkedIn vs. HiQ Labs Inc. Case No. 19-1116, Ninth Circuit Court of Appeals, 2020.

13. Величко А. В., Иванов С. А. Влияние цифровых технологий на развитие экономики // Цифровая экономика и управление. 2022. Т. 5. № 2. С. 45–51.

14. Институт развития интернета. Прогнозы цифровой трансформации в России // Экономика и технологии будущего. 2022. Т. 12. № 3. С. 22–29.

15. Open Data Handbook. What is Open Data? URL: https://opendatahandbook.org/ (дата обращения: 23.12.2024).

Войти или Создать
* Забыли пароль?