Автоматизируем парсинг данных с сайта на Python

В видео рассматриваем 3 шага парсинга данных на примере получения статей с сайта techcrunch.com:

1️⃣ получение данных с сайта с помощью requests и beautifulsoup и преобразование в pandas dataframe 2️⃣ загрузка полученного датафрейма в таблицу базы данных PostgreSQL 3️⃣ автоматизация первых 2-х шагов с помощью Cloud Functions

Уверен, что большинство из вас раньше не слышали или не использовали Cloud функции для своих задач, поэтому 3️⃣ пункт из видео будет для вас очень полезным. Это позволяет избавиться от отдельных cron-джобов или ETL оркестраторов типа Apache Airflow, они для таких целей излишни.

Для аналитиков, которые сталкиваются с самостоятельным выполнением инженерных задач, например автоматизировать свой код, описанный способ поможет не сталкиваться с настройкой отдельной виртуальной машины и использования командной строки) Еще больше таких решений буду описывать для аналитиков-инженеров, чтобы выдать вам максимальный багаж знаний на стыке аналитических и инженерных задач 😉

В видео кстати не рассказываю, как дальше сделать правильное хранение и обработку полученных данных, чтобы например не записывать одну и ту же статью несколько раз, получать уведомления об успешности парсинга и записи данных. Подумайте как это можно реализовать)

▶️ YouTube ▶️ VK Video

repost

45

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь