Скрейпинг сайтов с помощью библиотек Beautifulsoup и Requests на Python

Поделиться
HTML-код
  • Опубликовано: 9 сен 2021
  • ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
    ____________
    ❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом.
    Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.
    ____________
    На примере сайта Кинопоиск учимся скрейпить данные с помощью питоновских библиотек Beautifulsoup и Requests.
    🔹 Текстовая версия
    ➡️ istories.media/workshops/2021...
    🔹Подписаться на рассылку Мастерской «Важных историй»:
    ➡️ mailchi.mp/istories.media/wor...
    🔹Telegram-канал Мастерской
    ➡️ t.me/istories_workshop

Комментарии • 213

  • @istories_workshop
    @istories_workshop  2 года назад +27

    ❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом.
    Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.

    • @yarmik3d
      @yarmik3d Год назад +5

      Так называемы "программист\ка" решила учить, сама не особо понимая, что делает.

    • @user-lj7gz1uj9t
      @user-lj7gz1uj9t Год назад +4

      @@yarmik3d ахахах, любитель рУЗКОГО мира будет нам тут кукареть как правильно родину любить, иди грим смой, клоун😂

    • @yarmik3d
      @yarmik3d Год назад +6

      @@user-lj7gz1uj9t А ты любитель какого мира пишущего на русском языке?

    • @user-lj7gz1uj9t
      @user-lj7gz1uj9t Год назад +8

      @@yarmik3d я сторонник цивилизованного мира, основанного на демократии, свободе слова и верховенства права. И какая тебе разница на каком языке я пишу. Ты же наверняка не знаешь ни одного другого языка кроме русского

    • @yarmik3d
      @yarmik3d Год назад +5

      @@user-lj7gz1uj9t Все это ты мог выразить одним словом - ПРЕДАТЕЛЬ

  • @user-up4xx1ub7q
    @user-up4xx1ub7q Год назад +38

    Добрый день. Мне 60 лет, изучаю аналитику данных. Ваш урок - это СУПЕР. Все понятно, логично, доходчиво! Спасибо! Удачи Вам!

    • @Storks40
      @Storks40 8 месяцев назад

      Мне 66.Тоже подсел на эту тему) По этому видео сделал календарь культурных событий в нашей области. Очень хорошее объяснение.

    • @artur_alf
      @artur_alf 4 месяца назад

      Вы крутые!

  • @PapaBOSS
    @PapaBOSS 2 года назад +9

    Какая же ты молодец! Всё очень доходчиво и спокойно объяснила . Спасибо!

  • @clear1948
    @clear1948 2 года назад +32

    У меня всегда было предвзятое отношение к русскоязычным урокам. Всегда смотрю туториалы на английском, так как они проще все обьясняют. Но здесь, Алеся вы просто супер. Как же вы круто обьясняете, быстро и понятно без лишних слов. Вы мастерский учитель. Спасибо вам большое ❤

    • @istories_workshop
      @istories_workshop  2 года назад +1

      Спасибо большое за просмотр и такую оценку! Очень рады))
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @weik_gamecut
    @weik_gamecut 2 года назад +27

    Смотрел уроков 5 по парсингу и тяжело было уловить суть в какой последовательности и логике все делать, чтобы без подсказок самому делать потом. А здесь объяснение шикарное, у меня прям картинка прорисовалась в голове сразу, особенно хорошо, что сначала пишутся строки под один фильм, а уже когда понял это, показано как объединить строки чтобы получить все фильмы, а потом как и с каждой страницы. Так удобнее, спасибо!

    • @istories_workshop
      @istories_workshop  2 года назад

      Йее! Очень рады, что вам подошел наш подход (простите за тавтологию)
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

    • @LifterAndy
      @LifterAndy Год назад

      Начни лучше не с парсинга, а с решения олимпиадных задач и синтаксиса языка.

  • @Mr6epkym
    @Mr6epkym Год назад +2

    Это лучшие уроки по парсингу которые я когда-либо встречал!

  • @non5309
    @non5309 2 года назад +18

    первый дисклеймер это похоже новый знак качества )

  • @msv108
    @msv108 Год назад +2

    Огромное спасибо! С обработкой none нигде не могла найти решение. А вы так просто все объяснили! Лайк и подписка!

  • @nadiiaschmitz2306
    @nadiiaschmitz2306 Год назад

    Очень классное видео, прямо кристальная ясность наступает, спасибо огромное! 🌹🌹🌹

  • @an-rh8bp
    @an-rh8bp 2 года назад +2

    Держитесь, ребята, благодарю!

  • @almaz1839
    @almaz1839 Год назад +1

    Лучше пояснение! Спасибо, ты богиня!)

  • @vvitasikm3341
    @vvitasikm3341 Год назад +1

    Супер ! Спасибо тебе милая девушка😊

  • @user-wr5vt2gc3e
    @user-wr5vt2gc3e Год назад +2

    Спасибо вам большое за толковые и интересные видеоуроки

  • @eldardev
    @eldardev Год назад +1

    Супер! Спасибо за пример! Идеально взяли пример и объяснили кристально

  • @ThisIsGreenRoom
    @ThisIsGreenRoom 2 года назад +1

    Зачётно всё понятно и доступно 💢 спасибо

  • @user-zt3ff4mi9u
    @user-zt3ff4mi9u 11 месяцев назад +1

    Классно объясняет, не зная языка питона, немного разбираясь в пхп, после просмотра урока получилось решить свою задачу))
    Однозначно лайк и подписка, теперь пересмотрю все уроки 😂

  • @fghhna
    @fghhna 10 месяцев назад +1

    Шикарная подача информации. Крайне полезное видео.

  • @pervosled
    @pervosled 2 года назад +2

    Очень полезно, спасибо!

  • @maestr0G
    @maestr0G 11 месяцев назад

    Вы просто супер , объясняет очень хорошо. Спасибо вам большое за контент ❤❤❤

  • @user-em9ml7ee1s
    @user-em9ml7ee1s Год назад +1

    Супер урок! Спасибо!:)

  • @yauhenilamakin8495
    @yauhenilamakin8495 Год назад +1

    Спасибо большое. Все просто и понятно. И главное, что работает

  • @user-vl1el8bp7y
    @user-vl1el8bp7y 2 года назад +1

    Спасибо! Информация доходчивая и легко усваиваемая во всех видео на канале!

    • @istories_workshop
      @istories_workshop  2 года назад

      Спасибо, что смотрите :)
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @user-eh2su5ll1p
    @user-eh2su5ll1p Год назад +1

    УМНИЦА, очень круто объясняешь , спасибо тебе

  • @cosmonaut380
    @cosmonaut380 Год назад

    Этот канал - сокровище, которое лежало у меня под ногами, о котором я узнал благодаря Кацу. Полезность этого видео зашкаливает, спасибо огромное! Подписался

  • @shazplay8878
    @shazplay8878 2 года назад +6

    Большое вам спасибо за самые крутые уроки во вселенной! ❤️❤️❤️

    • @istories_workshop
      @istories_workshop  2 года назад +1

      Рады, что нравится, спасибо, что смотрите!
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @andreyandreyovich5454
    @andreyandreyovich5454 9 месяцев назад

    я загалом працюю в дотичній до іт галузі, але була потреба викростати скрейпінг, зазвичай теж дивлюся англійською, але ваші найкращі. дякую, все зрозуміло і по ділу

  • @user-jz4zq6bp6z
    @user-jz4zq6bp6z Год назад +6

    Как бывший преподаватель, работавший в SkillFactory, GeekBrains MailRu и других компаниях, подтверждаю - очень качественный контент, очень понравился ваш урок, со всеми разъяснениями. Понятно, что для того, чтобы точно всё понимать, без изучения азов вебверстки и самого языка python не обойтись. Однако, если вы уже знакомы со всеми этими технологиями, данный материал будет для вас максимально понятен и полезен. Всё даётся по пунктам, достаточно развёрнуто. Да, где-то приходится откатываться назад, чтобы пользователь понимал, откуда что берётся. Однако это не просаживает урок, всё очень динамично и не даёт уснуть. Спасибо!

  • @user-vf1wz3kz1b
    @user-vf1wz3kz1b Год назад +1

    очень доступно, понятно, круто

  • @user-lc6oj7vr4d
    @user-lc6oj7vr4d 2 года назад +14

    Алеся, какая же Вы молодец! Я собираюсь изучать пайтон, уже проплатил годовой онлайн курс. Мне 48 лет. Пробовал писать код по видео других авторов. Не получалось. Но по Вашему видео я дошол до конца. Все же прошол скрипт по всем страницам, спарсил все 250 фильмов и собрал все данные в файл. Вы дали возможность поверить в себя. Огромное Вам,Алеся,спасибо.

    • @istories_workshop
      @istories_workshop  2 года назад +1

      Очень приятно, спасибо и вам!
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

    • @glimmer5103
      @glimmer5103 2 года назад

      @@istories_workshop Что это значит "ДАННОЕ СООБЩЕНИЕ"... ?

    • @istories_workshop
      @istories_workshop  2 года назад +5

      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
      Что нас внесли в реестр СМИ-"иноагентов". Мы с этим не согласны и оспариваем через суд. Но т.к. мы живем в России и работаем в России, то вынуждены (пытаться) выполнять требования этого "закон об иноагентах". По нему мы должны вообще на все наши сообщения (тексты, видео, комментарии, репосты, ретвиты, и т.п.) ставить эту пометку. В противном случае наше юрлицо и главный редактор получат штраф. После нескольких штрафов главреду грозит уголовное преследование.

    • @user-ku4nn5pw8p
      @user-ku4nn5pw8p Год назад

      как успехи?)

    • @user-lc6oj7vr4d
      @user-lc6oj7vr4d Год назад +1

      @@user-ku4nn5pw8p Дается не легко, не скрою. Но безумно интеоесно. Взял академ, на работу вызвали. Остановился на ООП. Через 2 недели домой. Вахта заканчивается. Думаю летом будет защита. Думаю какой проект взять. Уже написал самостоятельно несколько программ. Так что, Иван, всё хорошо!

  • @vasiliyovchinnikov1731
    @vasiliyovchinnikov1731 2 года назад

    Спасибо огромное!

  • @user-rd2qw1xq8v
    @user-rd2qw1xq8v 8 месяцев назад +2

    кое как вырулил себе список ссылок с другого сайта, так как начинающий. Но все же у вас более доходчивое объяснение парсинга

  • @kirillsidorov6641
    @kirillsidorov6641 7 месяцев назад

    Просто отлично, лайк хоть можно поставить?

  • @Onixx616
    @Onixx616 2 года назад

    Очень позновательный видос

  • @user-vy8dj6br8v
    @user-vy8dj6br8v 6 месяцев назад

    Спасибо!

  • @name91fhghghg8
    @name91fhghghg8 2 года назад

    с возвращением из застенков

  • @larsthorleik2484
    @larsthorleik2484 Год назад +2

    Всё понятно, только сайт Кинопоиск блокирует парсинг-запросы. В первый раз запрос срабатывает и данные получаются, потом выскакивает ошибка. Приходится мучиться. Может нужен прокси, а может в Юпитере нет таких проблем как в Пайчарме, в котором я работаю.

  • @non5309
    @non5309 2 года назад +3

    следующий урок будет интересным, видимо там будет про user_agent и подобное

  • @chekito
    @chekito Год назад +1

    Просто поклон до земли за эти уроки! Только у вас понял технику. Но возник вопрос. При парсинге вылетает исключение 'requests.exceptions.ConnectTimeout:' Как его лечить? Что конкретно прописать в except?

  • @user-os8xp6zg5c
    @user-os8xp6zg5c Год назад +1

    Очень живо и понятно всё! Спасибо за урок!

  • @morinks
    @morinks 3 месяца назад

    Это лучшее обучение что я видел

  • @user-bt7wq5vi1i
    @user-bt7wq5vi1i 10 месяцев назад +1

    Иноагент - это знак качества в наше время.

  • @YAUHENNAUROTSKI
    @YAUHENNAUROTSKI 9 месяцев назад +1

    Здрастауйте ,а есть ли курсы при вашей поддержки по скрейпингу и анализу данных?

  • @rakhmanovtr
    @rakhmanovtr Год назад

    шикарно для новичка

  • @galievramil1169
    @galievramil1169 5 месяцев назад

    Отлично

  • @user-sx7xo8ul9g
    @user-sx7xo8ul9g Год назад

    Топ!!

  • @user-cv9pc9kw3c
    @user-cv9pc9kw3c Год назад

    очень доступно подан материал, но не понятны слова запустим. это print в pyCharm? какая программа стоит у вас для кода?

  • @user-or6wr9xg4d
    @user-or6wr9xg4d 2 года назад

    спасибо

  • @VitaliiTriboi
    @VitaliiTriboi 11 месяцев назад +2

    У меня не работает. Возможно потому что страница стала динамической. Я не получаю элементов с таким же классом как в браузере. можете пояснить?? Думаю многим будет интересно.

  • @drgg9368
    @drgg9368 10 месяцев назад +1

    Расскажите пожалуйста data science и скрейпинг это одно и тоже. Просто хотел купить книгу для изучения, а книга про скрейпинг 2016 года, я боюсь покупать т.к инфа может быть устарела . И я нашёл книгу про data science 2023 хорошую судя по отзывам и т.д. Вопрос такой мне нужна книга про то что говорится в видео . Подскажите пожалуйста какую взять накидайте вариантов буду очень благодарен. И ещё все таки data science и парсинг и скарпинг сайтов это одно и тоже?

  • @user-oq3np1ud8q
    @user-oq3np1ud8q 2 года назад +4

    Спасибо за курсы! А можно ссылку на репозитории с кодом для предыдущего проекта(бот) и по текущему проекту тоже?

    • @istories_workshop
      @istories_workshop  2 года назад +2

      Здравствуйте!
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
      Ссылка на код робота ждала вас под последним видео курса, вот она: github.com/iStoriesMedia/robot
      По текущему будет чуть позже - тоже под видео появится ссылка.

    • @user-oq3np1ud8q
      @user-oq3np1ud8q 2 года назад

      @@istories_workshop спасибо!

  • @daxorid
    @daxorid Год назад +1

    А это на какой версии пайтона? Просто я пробую парсить на 3.11 и у меня часть кода работает, а часть нет. Например: не работает .text, .get и др. Попробую установить более старую версию, например 3.10

  • @floki_spb8967
    @floki_spb8967 Год назад

    УМНИЦА!!!!!!

  • @karimjapparov5324
    @karimjapparov5324 5 месяцев назад

    thank you

  • @TheMrDivinsky
    @TheMrDivinsky 2 года назад

    Good soup 👌

  • @Dmitrijs.Skorohodovs
    @Dmitrijs.Skorohodovs Год назад

    Почему выдаёт ошибку
    raise FeatureNotFound(
    bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
    Даже если lmlx установлен?...

  • @forexmio
    @forexmio 6 месяцев назад

    иноагенту лайк!!!! три раза!!!

  • @user-uh7mf3iz5g
    @user-uh7mf3iz5g Год назад

  • @user-my9sg8we9h
    @user-my9sg8we9h 2 года назад

    Каждый что то подчерпнет в этом видео. Я вот узнал, что я оказывается дата-журналист. Пойду ХХ шерстить на вакансии )

    • @istories_workshop
      @istories_workshop  2 года назад

      День прошел не зря))
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @user-if7qx9ib8f
    @user-if7qx9ib8f 2 года назад +2

    здравствуйте! я +- разобралась в парсинге на реквестс, можете, пожалуйста, подсказать, как мне начать поиск по введенным данным пользователя (input) и вытащить первые 10 ссылок, которые находятся в браузере по этому запросу?

    • @istories_workshop
      @istories_workshop  2 года назад

      Здравствуйте! Здесь (ruclips.net/video/oqS-bR5m1bI/видео.html) рассказываем, как искать поле ввода и нажимать enter, чтобы поиск выполнился. И в этом же уроке есть пример того, как можно собрать первые 10 строк выдачи.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @patriziab6782
    @patriziab6782 2 года назад

    Здравствуйте, на предпоследнем шагу len(data) возвращает 0.
    Код вроде точь-в-точь, не пойму в чём проблема. Код вроде точь-в-точь, не пойму в чём проблема. Не могли бы вы подсказать, что может быть тому причиной, или опубликовать исходник? Спасибо, видео очень понравилось!

    • @istories_workshop
      @istories_workshop  2 года назад

      Здравствуйте! Видимо, все же не один в один...
      Попробуйте показать ваш код в нашем чате, постараемся помочь: t.me/istories_helloworld
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @user-yx9mi7xf6g
    @user-yx9mi7xf6g Год назад

    Здравствуйте, у меня есть 30 тыс ссылок и мне нужно из каждой ссылки собрать - артикул, описание и картинку. Заметила, что сайт не любит большое количество запросов. Есть ли способ обойти эту защиту используя прокси или что-то другое. Хотела купить прокси, но это дорого.

  • @valdemarvaldemar4734
    @valdemarvaldemar4734 2 года назад

    Добрый день! Огромная благодарность за видео и знания, которыми Вы делитесь! Прошу помощи! Сложил код, но работает странно: выбирает данные только из первых двух (из 5) страниц сайта. Остальные 3, 4 и 5 просто под номером принтит (согласно коду), но без результатов парсинга данных в файл. Цикл страниц задан верно (1-6). Но, увы и ах...

    • @istories_workshop
      @istories_workshop  2 года назад

      Здравствуйте. Попробуйте написать в наш чат t.me/istories_helloworld, не видя ваш код невозможно понять, в чем может быть проблема.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

    • @valdemarvaldemar4734
      @valdemarvaldemar4734 2 года назад

      @@istories_workshop Спасибо за обратную связь, к этому моменту я понял в чем проблема. После второй страницы на сайте появляется "капча". А значит Вашим урокам есть куда развиваться. Ждем предложений :)

    • @alex_grothendieck9701
      @alex_grothendieck9701 2 года назад +1

      @@istories_workshop у меня появляется капча ещё на первой странице, совсем не даёт ничего спарсить :(
      Причем пробовал и устройства менять, и сети подключения. Это можно как-то починить? Ну или возможно вы могли бы подсказать какой-то другой сайт вместо КиноПоиска со схожим устройством разделов, чтобы можно было на этом сайте потренироваться?

  • @Hacking-NASSA-with-HTML
    @Hacking-NASSA-with-HTML Год назад

    Здравствуйте, я очень извиняюсь за возможно тупой вопрос, а может парсер - работать в режиме event listener🤔?
    Чтобы "поселить" парсер на форум, и чтобы парсер сообщал о наиболее активных темах, типа "на ветке велосипеды за последний час появилось 9 сообщений". Как такое сделать 🤔?

    • @Hacking-NASSA-with-HTML
      @Hacking-NASSA-with-HTML Год назад

      Бэкэнд сайта сделан на node js.
      Как вот такое сделать 🤔? Чтобы парсер "слушал" двести веток форума одновременно.
      Объясните пожалуйста хотя бы в общих чертах, дальше я уже сам догуглю, ато я даже не знаю что пока гуглить 😁🤷

  • @picassos3017
    @picassos3017 Год назад

    Пробую повторить 2.01.2023. Названия классов сменились. Это как?

  • @Denmark1150
    @Denmark1150 Год назад +3

    Что-то у менявроде сначала все работало почти правильно, а потом перестало работать. Вроде с кодом все впорядке, но первый раз вывело не весь список, а потом и вовсе перестало выводить. Может ли быть такое, что кинопоиск мой айпишник из-за такой активности заблочил на какое-то время?
    В частности когда я по отдельности пытаюсь запустить запросы на один из пунктов(ссылка, название, страна и т.д.) выходит ошибка AttributeError 'NoneType' object has no attribute 'find'. Не мог же я наковырять во всех этих пунктах. Раньше они исправно работали
    UPD: заработало само через некоторое время, но почему-то выдало только 150. Но тоже не плохо😀
    Спасибо за видео, вы крутые

    • @user-xx4gf8ps9c
      @user-xx4gf8ps9c Год назад

      Руслан, у меня такая же история, в тч выдает другой скрипт страницы через некоторое время...А на последнем цикле выдает строго одну страницу, а в след раз просто пустой список О_о Магия какая-то, иначе не могу объяснить...

    • @timuryuldoshev1609
      @timuryuldoshev1609 Год назад

      @@user-xx4gf8ps9c это не магия, это защита от парсинга =) пробуйте внедрять в код "обманки".

  • @Arnur-wt3vd
    @Arnur-wt3vd Год назад +2

    А почему при парсинге вместо данных я получаю none?(

  • @user-ob3zd6yv9s
    @user-ob3zd6yv9s Год назад +3

    Подскажите, плиз, что не так после soup = bs(r.text, 'lxml') всё выходит в одну длинную строку. И потом при поиске soup.find('div', class_='styles_root__ti07r') ничего не находит

    • @sokatef
      @sokatef Год назад +2

      Контент динамически загружается, т.е. просто так нельзя получить, так как js код в процессе исполняется. Используйте selenium, чтоб получить html вид страницы и уже по видео обработку делайте.

  • @academy-mu6uh
    @academy-mu6uh Год назад

    У меня вопрос, а как быть со страницами на которых кодьнельзя просмотреть (resources page), нажимая а открывается тупа пустая страница?

  • @Dmitrijs.Skorohodovs
    @Dmitrijs.Skorohodovs Год назад +1

    Выдаёт ошибку - raise FeatureNotFound(
    bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
    Что делать?

    • @B1eka
      @B1eka 4 месяца назад

      Библиотеки надо сначало скачать и импотритовать

  • @moksggwp4195
    @moksggwp4195 Год назад +2

    Можете прикрепить готовый ipynb, py файл из этого видео? Буду очень рад если скинете!❤

  • @user-zz5qz2gz2n
    @user-zz5qz2gz2n 2 года назад

    так и не понял где до цикла определена "переменная" film использующася в цикле.... после переименования соуп в филм, пропадает подкрашивание синтаксиса find

    • @istories_workshop
      @istories_workshop  2 года назад

      Здравствуйте. Попробуйте написать в наш чат t.me/istories_helloworld, не видя ваш код невозможно понять, в чем может быть проблема.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @alexdixon2844
    @alexdixon2844 Год назад

    Скажите пожалуйста, почему вместо кода пишет результат None?

  • @garrig1925
    @garrig1925 Год назад +3

    Привет. При вводе soup = BeautifulSoup(r.text, "lxml") выводит ошибку FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? / Кое как запустил скрипт pycharm, выбрал как указали классы (но классы отличаются от ваших - время много прошло сайт поменялся), на выходе очень большой объем информации не получается уменьшить. Подскажите в чем ошибка

    • @yaroslavkuznetsov5016
      @yaroslavkuznetsov5016 Год назад +1

      нужно установить lxml так же как и BeautifulSoup - Pycharm - File - Settings - Python interpreter + ищешь и инсталируешь lxml

    • @user-xx4gf8ps9c
      @user-xx4gf8ps9c Год назад

      Также выводится огромный нечитаемый массив данных, а при установке lxml пишет requirement already satisfied(

  • @user-fd4il2gd4q
    @user-fd4il2gd4q 2 года назад

    Добрый день, мне просто стало интересно вы по паспорту Алеся? Или все таки это опечатка, на сколько мне известно данное имя пишется Олеся!

    • @istories_workshop
      @istories_workshop  2 года назад

      Нет, она Алеся) Вряд ли бы мы не научились правильно писать имя коллеги))
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @user-xx4gf8ps9c
    @user-xx4gf8ps9c Год назад

    Здравствуйте, кто-то может подсказать пожалуйста? Вот какая проблема. Делал все пошагово - работало. Ровно до тех пор, пока на попытался парсить все пять страниц. После этого мне вначале выдало исключительно 4ю страницу. А затем цикл просто стал выдавать пустой лист. Перешел к первым шагам, решил еще раз попробовать на одной странице и теперь request.get(url) с той же самой ссылкой выдает абсолютно другой скрипт страницы, как это происходит и что с этим делать?..

  • @dicloniusN35
    @dicloniusN35 2 года назад

    а как то же самое с мобильным приложением сделать?)

  • @gruzin01
    @gruzin01 Год назад +1

    Спасибо большое за ваши уроки. Вы знаете, что на сегодняшний день ваш урок потерял актуальность так как сайт скорее всего переписали и теперь в объект soup попадает нечитаемая ерунда. Хорошо было бы если бы вы сняли видео как бы продолжение и рассказали как теперь парсить этот сайт.

    • @lifenow6078
      @lifenow6078 10 месяцев назад

      да, тоже столкнулся с этой проблемой( смогли решить?

  • @gcodegsk9632
    @gcodegsk9632 2 года назад +1

    Искренне не понимаю, как с таким качеством контента у вас такое небольшое количество подписчиков, уверен, это временно конечно, но возможно, стоит сменить название канала на что-то более логически подходящее к формату ;)

  • @JohnDoe-hp5kw
    @JohnDoe-hp5kw 2 года назад

    У меня почему-то периодически выдает ошибку 'NoneType' object has no attribute 'find'
    С чем это может быть связано? Первый раз пишу print и все ОК, а на второй или 3 раз вылезает такая ошибка

    • @istories_workshop
      @istories_workshop  2 года назад

      Здравствуйте. Попробуйте написать в наш чат t.me/istories_helloworld, не видя ваш код невозможно понять, в чем может быть проблема.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @ambro4580
    @ambro4580 2 года назад

    Можно было rfind использовать, мне кажется, когда жанр искали

  • @osvab000
    @osvab000 Год назад

    На 9 минуте, после команды: soup.find('div', class_='desktop-rating-selection-film-item').find('a', class_='selection-film-item-meta_link') - выскакивает ошибка! У вас работает а у меня нет и не могу понять почему? Может это из-за Коллаба?

    • @istories_workshop
      @istories_workshop  11 месяцев назад

      Чтобы ответить на вопрос, нужно видеть текст ошибки. Там должно быть написано, почему код не может пройти дальше и в какой строке проблема. Если не получается найти самому, погуглите текст ошибки - на StackOverflow скорее всего уже будет ответ

  • @user-vo6tn6vu1h
    @user-vo6tn6vu1h 2 года назад

    Алеся крутая

  • @tengenuzui3907
    @tengenuzui3907 2 года назад

    У меня высвечивается None что делать

  • @sikirey4151
    @sikirey4151 Год назад +1

    код может работать но при следующем включении выдает ошибку:
    'NoneType' object has no attribute 'find'
    понимаю что ошибка связана с тем что какая-то деталь find() - None, но прикол в том что он код работал

    • @timuryuldoshev1609
      @timuryuldoshev1609 Год назад

      точно такая же проблема...второй атрибут .find и атрибут .get не признаёт. Может bs4 изменился?

    • @user-fn5es6vc1d
      @user-fn5es6vc1d Год назад

      Тоже столкнулся с такой проблемой. Код работает и при следующем запуске уже не работает поиск, так как исходник пустой. Как я понял, сайт блокает ваш запрос. Ведь сменив сайт и проделав всё тоже самое - таких проблем нет. Это при условии, что вы не ошиблись в самом коде

  • @user-hq3nl1yv7k
    @user-hq3nl1yv7k Год назад

    Скачал пайтон, запустил, открылась системная трока (чёрное окно). Как сделать такой же удобный интерфейс, как у вас?

    • @Arnur-wt3vd
      @Arnur-wt3vd Год назад

      у автора Jupyter Notebook

  • @Your.m.o.t.h.e.r
    @Your.m.o.t.h.e.r Год назад

    При добавлении этой строчки
    soup = BeautifulSoup(r.text, "lxml")
    Выдает ошибку
    File "C:\Users\thxmd\PycharmProjects\html_pars\venv\Lib\site-packages\bs4\__init__.py", line 248, in __init__
    raise FeatureNotFound(
    bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
    Что я делаю не так ?

    • @kos6036
      @kos6036 Год назад

      попробуй "lxml" в одинарные кавычки 'lxml'

    • @user-no3xn9wk8y
      @user-no3xn9wk8y Год назад

      Если актуально то обнови lxml (pip install --upgrade lxml), перезагрузи kernel и импортируй все библиотеки заново. У меня сработало.

  • @sg6630
    @sg6630 Год назад

    Подскажите как вытягивать из одинаковых тэгов инфу
    12,500.00
    12,721.97
    мне выдает первый тэг и все, остальные как?

    • @sg6630
      @sg6630 Год назад

      решил сам. Кому интересно. Мы ищем find_all все элементы, потом из списка выбираем то что нужно

  • @day_tradingnew
    @day_tradingnew Год назад

    Если для той страницы что я хочу спарсить требуется авторизация? Как быть в этом случае?

    • @B3CK0FF
      @B3CK0FF Год назад

      смотреть урок про парсинг с авторизацией) там вроде работа с куками и их сохранение...

  • @andrewhkh23
    @andrewhkh23 Год назад +2

    Ребята, а почему не в pycharm или vs code? там же приходится каждую строчку через print выводить, или же с другими манипуляциями. Новички, в таком случае, не будут понимать основ кодировки. Юпитер это конечно прикольно. Но теряется смысл понимания алгоритмики кода. На win 10 этот юпитер, если честно очень криво работает. Точнее не срабатывает запуск окна ссылками. Приходится через отдельное приложение его запускать. Баг как никак. Недоработка на мультисистемность.
    А так не плохие у вас видео. Но все же разработка, должна вестись по правилам программирования.

  • @alexeiiminailov560
    @alexeiiminailov560 Год назад

    soup=BeautifulSoup(r.text, "lxml") выскакивает ошибка
    NameError Traceback (most recent call last)
    Cell In[12], line 1
    ----> 1 soup=BeautifulSoup(r.text, "lxml")
    NameError: name 'BeautifulSoup' is not defined

    • @user-ur3dt8zd7d
      @user-ur3dt8zd7d Год назад

      Может у вас библиотека не импортирована?

  • @TiHbUA
    @TiHbUA 2 года назад

    Что делать если возвращает ошибку "'NoneType' object is not callable" , после вызова findall?

    • @istories_workshop
      @istories_workshop  2 года назад

      То же самое, что и при любой другой ошибке: гуглить ее и читать, как подобные ошибки решали другие. Потому что явно у кого-то было то же самое
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
      Т..к мы не видим ваш код, то, возможно, вам подойдет этот ответ. stackoverflow.com/questions/41614706/nonetype-object-is-not-callable-when-i-learn-web-scraping
      Если нет - нужно поискать еще)

  • @user-mc2lu2qb9c
    @user-mc2lu2qb9c Год назад

    print("Богиня")

  • @rikenbaker1
    @rikenbaker1 2 месяца назад +1

    Похоже что сайт стал динамическим и простыми запросами уже данные из него не получить.

  • @codywallker1208
    @codywallker1208 2 года назад +1

    Я вот Scraph делаю в VS и все правильно делаю но у меня выходит ошибка None object type Error и я не понимаю почему но я все правильно делаю

    • @codywallker1208
      @codywallker1208 2 года назад

      Только не скажите надо гуглить я ютублю а не гуглю ) и от вас хочу узнать проблему

    • @istories_workshop
      @istories_workshop  Год назад

      так если ошибка выходит, значит все-таки что-то неправильно делаете)) Но по комментарию в ютубе сложно понять, что пошло не так, надо видеть код ошибки и ваш код. У нас в описаниях к видео есть ссылка на чатик, куда можно задавать такие вопрос, если вы не хотите задавать их гуглу (мы, как видите, в комментариях отвечаем медленновато)

  • @alexeymendrin
    @alexeymendrin 2 года назад

    Подскажите, когда будет следующее видео?

    • @istories_workshop
      @istories_workshop  2 года назад +1

      Здравствуйте, планируем на понедельник.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

    • @alexeymendrin
      @alexeymendrin 2 года назад

      @@istories_workshop Спасибо! Очень интересные и познавательные видео. Буду ждать :)

    • @ThisIsGreenRoom
      @ThisIsGreenRoom 2 года назад

      @@istories_workshop 🤦‍♂ каждый комментарий должен быть сопровождён этой чушью про "шпионов"? в кремле вообще кукухой поехали, курсы кройки и шитья скоро будут иноагентами...

  • @vitojenoveze5516
    @vitojenoveze5516 Год назад

    а почему юпитер?

  • @yaroslav1892
    @yaroslav1892 Год назад +2

    Сначала все работало, а потом find перестал что-либо искать, словно кинопоиск поставил какую-то защиту типа капчи.

    • @sofiam2237
      @sofiam2237 Год назад

      Как решить эту проблему?

    • @user-fn5es6vc1d
      @user-fn5es6vc1d Год назад +1

      Допишите юзер агент после юрл. На первые пару запросов хватит. Но это значение нужно бдует менять постоянно. Советую найти другой сайт для практики

  • @alexdixon2844
    @alexdixon2844 Год назад +1

    "видим что теперь наш код упорядочен..." - только почему он в реальности выводится в одну строчку?)

  • @user-cn4dt7tk4i
    @user-cn4dt7tk4i 2 года назад

    21.04 Не запускается в ексель файле (Windows)

    • @istories_workshop
      @istories_workshop  2 года назад

      Попробуйте так: www.copytrans.net/support/how-to-open-a-csv-file-in-excel/
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @emrullahergun7318
    @emrullahergun7318 2 года назад

    Здравствуйте, я хочу извлечь данные с иностранного сайта. За плату. можете вы помочь мне?Пожалуйста, мне нужно срочно((