Как парсить динамические web сайты в Python. Beautiful soup 4.

Sweet Coder

Просмотров 19 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 28 сен 2024
Парсить динамический web-страницы немного сложнее чем статические. Но и интересней. Давай посмотрим на некоторые нюансы.
• Как парсить статически... - парсинг статических сайтов
• Работа с HTTP в Python... - библиотека requests
#Python #парсинг #beautifulsoup #parse #курс

Комментарии • 54

@4nrishka 3 года назад ⁺⁹
Спасибо, очень полезный материал. Пожалуйста, не останавливайтесь )
@SweetCoder 3 года назад ⁺¹
спасибо за отзыв
@TravelSakh_bot 10 месяцев назад ⁺²
У меня просьба, меньше по памяти, больше на расжовывание. Контент очень интересный, перешёл на него с ПайтенХабСтудио и понимаю, что тут быстрее подача информации, но из-за скорости и иногда отсутствия параллельной перебежи мёду скриптом и сайтом приходится все останавливать и юзать назад
@snake-- 3 года назад ⁺¹⁰
Это не совсем динамическая страница) вернее для парсера это одно и тоже что на прошлом видео что на этом. Было бы крайне интересно посмотреть как грабаить страницы после выполнения на них javascript
@SweetCoder 3 года назад ⁺¹
это очень даже динамическая страница. ибо она формируется на стороне сервера из информации (предположительно из базы данных) и файла шаблона, который покрывает подобные отображения рейтингов игроков по разным критериям. Beautiful Soup не умеет запускать js скрипты, однако, в некоторых случаях это можно компенсировать исследовательской работой и шевелением мозгов. именно об этом данное видео
@snake-- 3 года назад ⁺¹
Я так понимаю, для выполнения js запросов обязательно нужен движок браузера? нет ли библиотеки, которая умеет это делать из коробки?
Вопрос возник не просто так - наткнулся на сайт, где для получения данных используется сложные post запрос с динамическим телом, и не хотелось бы пожизненно обслуживать такой парсинг.
@SweetCoder 3 года назад ⁺³
@@snake-- вопрос не праздный. действительно было бы круто иметь такой инструмент. это сократило бы очень много времени и нервов. не исключаю, что есть какие-то библиотеки, которые способны удерживать соединение и эмитировать работу браузера. но мне они не известны. пока что....
@_Rmmun 3 года назад ⁺³
@@snake-- Возможно тебе нужна библиотека selenium
@АлексейКомский 3 года назад ⁺¹
@@snake-- selenium умеет эмулировать запуск JavaScript кода, но селениум это не bs :)
@АлексейШевченко-д9ь 2 года назад ⁺⁴
А как сделать так, что бы парсить сообщения с чата? То есть как парсить сообщение которые уже есть я знаю, а вот как сделать, что бы оно в режиме реального времени парсило каждое новое сообщение?
@mervinkka 2 года назад
нашли ответ?
@Hacking-NASSA-with-HTML Год назад
Нашли ответ?
@Hacking-NASSA-with-HTML Год назад
Здравствуйте, я очень извиняюсь за возможно тупой вопрос, а может парсер - работать в режиме event listener🤔?
Чтобы "поселить" парсер на форум, и чтобы парсер сообщал о наиболее активных темах, типа "на ветке велосипеды за последний час появилось 9 сообщений". Как такое сделать 🤔?
@artsirenko7076 2 года назад
Специально удалил код с описания, чтобы больше просмотров было?
@mihail_sergeev 3 года назад ⁺³
Прочитал в заголовке парсинг динамического сайта и рассчитывал увидеть парсинг страниц подгружаемых с помощью javascript.
@SweetCoder 3 года назад
в принципе, в некоторых отдельных случаях при условии проведении глубокого анализа архитектуры приложения возможно и такое
@agilitytrade 3 года назад ⁺¹
Спасибо друже
@SweetCoder 3 года назад
на здоровье
@hackoffme 2 года назад ⁺⁵
Очень будет интересно увидеть материал по парсингу сайтов на ajax. Если есть опыт в этой области, запиши пожалуйста :)
@SweetCoder 2 года назад
по сути никаких отличий. запросы нужно будет отправлять на те эндпоинты, на которые отправляются ajax-запросы
@hackoffme 2 года назад ⁺²
@@SweetCoder попытался разобрать сайт днс. И чёт не получилось :) от него приходит только скрипт.
@himegood 2 года назад
@@hackoffme Здравствуйте. У меня такая же проблема. Только с магазином Ок. У вас получилось решить данную проблему?
@andrew_z. 3 года назад ⁺¹
а если в процессе обработки страниц данные в БД изменятся (например какая-то запись перейдёт с последней страницы на первую). как гарантировать обработку всех записей?
@SweetCoder 3 года назад
если коротко - то никак. для волатильных данных имеет смысл запускать считывание как можно чаще, учитывая предрасположенность данных к изменяемости
@andrew_z. 3 года назад
@@SweetCoder повторные считывания - это понятно. проблема в том что во время считывания можно пропустить данные: например если одна запись с первой страницы удалилась, при считывании очередной страницы мы потеряем одну запись (она сдвинулась на предыдущую страницу).
@SweetCoder 3 года назад
@@andrew_z. это понятно, но волшебных палочек ещё не придумали
@ТимофеевТима-й1к 3 года назад ⁺¹
У меня вопрос, а как сложно запарсить например алиэкспер, при этом получив url картинки товара, его описание и цену?
@SweetCoder 3 года назад
вообще не сложно. и картинки, и описание, и цена - всё парсится без проблем
@ТимофеевТима-й1к 3 года назад
@@SweetCoder прикол в том что после начала парсинга, меня перекидывает на страницу с капчей, такое чувство что Алик просто блокирует парсинг
@SweetCoder 3 года назад
ну у тебя два варианта: либо найти способ обойти капчу, либо сдаться
@ТимофеевТима-й1к 3 года назад
@@SweetCoder логично
@ВадимДейнека-х7с 3 года назад ⁺¹
Спасибо
@SweetCoder 3 года назад
на здоровье
@mcolegon 2 года назад ⁺¹
Это всё конечно хорошо, но никто не приводит примеров как парсить aspx сайты.
@SweetCoder 2 года назад
да ровно также, как и все остальные
@ЗахарИгнатьев-е3э 3 года назад ⁺⁴
Нда...
Моща...
Не по стесняюсь добавить, что от этой смеси мощи python + bs + знание как использовать html как дерево + CSS = у меня даже чуть привстал....
Очень круто.
Даже при параллельном написании кода ошибок наделал потрясающих и нашел решение.
Получил ответ на один вопрос. Это отлично.
И нашел еще 100 вопросов без ответа - а вот это ахуенно)))
Вы Молодец!!!
@SweetCoder 3 года назад
спасибо за отзыв и яркое описание впечатлений. но в следующий раз воздержись от использования нелитературных выражений. на канале иногда бывают женщины и дети
@cola_enjoyer_251 3 года назад ⁺⁵
классные уроки, очень понятно и приятно
@SweetCoder 3 года назад
спасибо за отзыв
@nikitaermolenko7813 Год назад
Как спарсить Яндекс Дзен?? Он бля особенный какой-то
@picassos3017 3 года назад ⁺¹
Спасибо. Но даже в многостраничных списках есть хоть какие-то признаки страниц. А как быть, если страница сразу не выходит, а появляется только часть? Остальная часть списка появляется только при скроллинге Например это видно на просмотре членов групп в "одноклассниках" и "вконтакне
@SweetCoder 3 года назад
никак. скрапер не может заскрапить то, чего ещё нет, что появляется после ajax-запроса отправленного после скролла страницы. в этом и заключается работа программиста... 😜
@f4ke543 2 года назад
через риквест можно такое организовать, просто менять значение оффсета
@tohachannel5621 2 года назад
если что ссылка на последнюю страницу тоже содержит номер последней страницы:)
@agilitytrade 3 года назад ⁺¹
Я думал только меня прет от парсинга))
@SweetCoder 3 года назад
иногда бывает очень полезно владеть таким навыком
@b2b2tery57 3 года назад ⁺¹
спасибо! Не подскажите а как парсить олх и авито??
@SweetCoder 3 года назад
на здоровье. парсинг барахолок, онлайн-магазинов да и вообще любых сайтов принципиально ничем не отличается. всё то же самое.
@b2b2tery57 3 года назад
@@SweetCoder наверное! Но вытащить из олх номер телефона не удается с помощью bs4 . Там какая то защита
@artsirenko7076 2 года назад
а какой дедлайн для следующего видео?
@Pivaaqee 3 года назад
Здравствуйте. А как парсить такие сайты? - ru.tradingview.com/chart/
В них нет возможности так легко прыгать, элементарно правая кнопка мыши работает по другому.
@SweetCoder 3 года назад ⁺¹
смотря какая информация нужна. конкретизируй вопрос.
"В них нет возможности так легко прыгать" - не уверен, что понимаю о каких прыжках идет речь.
"элементарно правая кнопка мыши работает по-другому" - а причем правая кнопка мыши к парсингу текстовых данных?

Следующие

Автовоспроизведение

База данных SQLite в Python. ORM, peewee #3 | Базовый курс. Программирование на Python