Project manager в Lamoda
· 08.07Будни не программиста
Расскажу вам, как я парсил AMA-сессии в Сетке. Если вы искали кейс применения нейросетей — это он.
Важно проговорить, что за такое вас могут забанить, т.к. вы нагружаете инфраструктуру. Экологичность к коллегам — наше всё.
Вся реализация на чат-гпт 4о. При наличии полноценного веба задача резко упрощается, но у нас только апп + куцый веб.
Первой идеей было просто собрать все веб-ссылки на вопросы через «поделиться», открыть их скриптом в headless-браузере и забрать текст из нужного контейнера. Я как дурак копипастил ссылки 30 минут, повозился со скриптом, всё спарсил и собрал в аналитику, чтобы понять в конце, что Сетка не всегда отдает уникальную ссылку через «поделиться» 🙃
У меня получилось только 25% уникальных ссылок из 360. Мне показалась такая выборка недостаточной 💩
Следующие два пути были эмуляция или перехват трафика — Боже, храни андроид-приложения. Я остановился на NoxPlayer + OCR (Optical Character Recognition).
Оказывается, на питоне есть бесплатные библиотеки, которые извлекают текст с картинки. На всех сайтах за это просят денег — вот вам и первые герои на смерть от ИИ.
Всё просто. Запускаем в эмуляторе Сетку, открываем ленту по нужному хештегу и запускаем скрипт. Скрипт скроллит, делает скриншот, извлекает весь текст с картинки и записывает в один .md файл. На выходе получаем сырые данные с кучей ошибок и лишним текстом (имя автора, профессия, подписчики). Там же в чат-гпт собираем скрипт, который нам обработает эти данные по нашей логике. Еще немного чистим ручками и получаем уже 173 вопроса из 360. Такой выборки мне достаточно.
В начале года я спрашивал, как писать промты, а сегодня уже бундично парсю и обрабатываю контет из андроид-приложения, запущенном на эмуляторе. Вот вам и саморазвитие.
Как вам? Не вздумайте делиться своими кейсами в комментах — иначе лайк.
Всех обнял 💜
еще контент автора
еще контент автора
Project manager в Lamoda
· 08.07войдите, чтобы увидеть
и подписаться на интересных профи