Веб-скрейпинг с помощью библиотек Selenium и Beautifulsoup

Поделиться
HTML-код
  • Опубликовано: 27 дек 2024

Комментарии • 23

  • @istories_workshop
    @istories_workshop  2 года назад +3

    ❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом.
    Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.

    • @kakw436
      @kakw436 2 года назад

      за что?

    • @ruslanvist9958
      @ruslanvist9958 11 месяцев назад

      По мне, так вы очень даже желательная организация. Так держать!

  • @oldlipton3443
    @oldlipton3443 3 года назад +4

    Смотрю видео уроки, и планирую продолжать смотреть, но после этого чаще обращаюсь к текстовой версии, как я заметил многим видео-туторы очень подходят, но отдельное спасибо, что не забываете про консерваторов которым нужны текст с изображениями!
    С наступающим годом дымчатого
    Питона🙂!

    • @istories_workshop
      @istories_workshop  3 года назад +3

      Как раз поэтому и делаем текстовый вариант, да! И вас с наступающим ❤️
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @hihi-hehe
    @hihi-hehe 3 года назад +4

    шикарно, молодец
    плашка про иностранного агента заставила меня не пройти мимо, и я не пожалел. очень грамотно обьяснено.

  • @enikeevevgeny
    @enikeevevgeny 3 года назад +4

    В целом такой подход (Selenium + Beautifulsoup) имеет место быть, но пример выбран не очень удачно. На странице карточек дел мосгорсуда информация во вклаках подгружается не динамически - она уже есть на странице в div id="tabs-3". Поэтому в данном случае оптимально применять Requests + Beautifulsoup.

  • @AntonHHO
    @AntonHHO Год назад +1

    Стрижка - класс ))

  • @ruslanvist9958
    @ruslanvist9958 11 месяцев назад

    Прическа зашла. Более аккуратно выглядите. Нравится ваша грамотная речь без искаверканных слэнгов.

  • @ruslanvist9958
    @ruslanvist9958 11 месяцев назад

    Лайк за активную гражданскую позицию!

  • @gavavas3182
    @gavavas3182 3 года назад +2

    Отличное видео. Очень пригодилось keys. А то каким-то костылем для прокрутки пользовался (но это где нужно прокрутить в конец страницы, чтоб подгрузились остальные данные). Реквестом же это тоже можно было сделать? Ведь ВСЕ данные пришли и без нажатия кнопки (дополнительно их не нужно подгружать).

    • @YntymakPlay
      @YntymakPlay 3 года назад +1

      Нужно исследовать дополнительно код страницы на наличие ajax/xhr запросов в инструментах разработчика во вкладке network

    • @gavavas3182
      @gavavas3182 3 года назад

      @@YntymakPlay так ссылка же есть. Я посмотрел. А Вам лень)

    • @gavavas3182
      @gavavas3182 3 года назад

      @@YntymakPlay хотя, я уверен, просто лень проверить)

    • @YntymakPlay
      @YntymakPlay 3 года назад +1

      @@gavavas3182 да мне лень

    • @gavavas3182
      @gavavas3182 3 года назад

      @@YntymakPlay ++))

  • @АлександрК-ш
    @АлександрК-ш 2 года назад

    Здравствуйте. Прошу подсказать, в какое место в коде подставлять click()
    # объеденяем 2 списка в словарь
    case_info = dict(zip(fields, info))
    print(case_info)
    case = {}
    case['case_info'] = case_info
    print(case)
    # ищем по тексту ссылки, но браузер видет это, но не может взять, так как не пролистнуто до туда
    element = driver.find_element_by_link_text('Судебные акты')
    # пролистываем к нужному элементу
    element.send_keys(Keys.END)
    soup = BeautifulSoup(driver.page_source, 'lxml')
    sf = soup.find('table', class_='custom_table mainTable').text
    print(sf)

  • @p_r_o_e_k_t_o_r
    @p_r_o_e_k_t_o_r 2 года назад

    Почему Selenium,а не Scrapy?

  • @ОлегСташков-х6з
    @ОлегСташков-х6з 2 года назад

    у кого есть ссылка на прошлый урок, дайте, пожалуйста

  • @alexeymendrin
    @alexeymendrin 3 года назад +1

    А помните ЦИК РФ сделал "шикарные" манипуляции с данными голосования и никто не мог их скопировать для анализа? Есть идеи, как решать такие умышленно созданные ситуации? Вряд ли кто-то будет снова так же портить данные, поэтому писать готовое решение едва ли имеет смысл, а вот о том, как в принципе можно решить вопрос - было бы интересно узнать.

    • @istories_workshop
      @istories_workshop  3 года назад +1

      Такое же было после выборов 2020 года. Мы в телеграме рассказывали, как активисты создавали зеркала и перетаскивали туда данные t.me/istories_workshop/15 Может будет полезно
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
      В целом же есть чаты журналистов и активистов, где они обсуждают данные выборов и работу с ними. Там все свежие лайфхаки по обходу капч и блокировок от ЦИКа

  • @SleepMashine
    @SleepMashine Год назад

    Ты зачем усы сбрил)

  • @Мещерскаяаномалия
    @Мещерскаяаномалия 2 года назад

    Зачем ты постриглась то?...симпатичная, красивая девушка...