Автоматизируем парсинг данных с сайта на Python
В видео рассматриваем 3 шага парсинга данных на примере получения статей с сайта techcrunch.com:
1️⃣ получение данных с сайта с помощью requests и beautifulsoup и преобразование в pandas dataframe 2️⃣ загрузка полученного датафрейма в таблицу базы данных PostgreSQL 3️⃣ автоматизация первых 2-х шагов с помощью Cloud Functions
Уверен, что большинство из вас раньше не слышали или не использовали Cloud функции для своих задач, поэтому 3️⃣ пункт из видео будет для вас очень полезным. Это позволяет избавиться от отдельных cron-джобов или ETL оркестраторов типа Apache Airflow, они для таких целей излишни.
Для аналитиков, которые сталкиваются с самостоятельным выполнением инженерных задач, например автоматизировать свой код, описанный способ поможет не сталкиваться с настройкой отдельной виртуальной машины и использования командной строки) Еще больше таких решений буду описывать для аналитиков-инженеров, чтобы выдать вам максимальный багаж знаний на стыке аналитических и инженерных задач 😉
В видео кстати не рассказываю, как дальше сделать правильное хранение и обработку полученных данных, чтобы например не записывать одну и ту же статью несколько раз, получать уведомления об успешности парсинга и записи данных. Подумайте как это можно реализовать)
еще контент автора
еще контент автора
войдите, чтобы увидеть
и подписаться на интересных профи