Обучение парсингу на Python #7 | Парсинг сайтов на фрилансе | Requests, Beautifulsoup

PythonToday

Просмотров 40 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 1 дек 2024

Комментарии • 156

@vigauss1889 3 года назад ⁺³⁵
Уже традиция утро воскресенья начинать с практики) Это тебе большое спасибо, что делишься знаниями! И благодарность всем, кто поддерживает канал. Спасибо тебе за обучение, за код и за то, что тратишь своё время, успехов в развитии, лучший канал по программированию.
@PythonToday 3 года назад ⁺¹
Спасибо за поддержку!
@ТоликРолик-м5я 2 года назад ⁺³
Спасибо большое за видео! Твои видео помогают в обучении программированию, вдохновляют и пробуждают интерес при обучении.
@myata04 Год назад
Приятно смотреть вас, даже когда ложусь спать, я смотрю ваши видео, это как дофомин, без вашего видео сложно уснуть😂
@orthodox-chanel Год назад ⁺⁴
Интересный факт: в карточках с часами в контейнере с классом product-item есть атрибут data-analitics в нем можно найти много полезных данных в том числе и цену( в новой верссии сайта цену найти можно теперь только в этом атрибуте). Данные в атрибуте как бы в формате json но как бы являются строкой по этому их нужно немного преобразовать чтобы записать значения в словарь, а потом по необходимости сам словарь записать в json
вот как у меня это получилось, интересно было вспомнить основы и потренироваться
soup = BeautifulSoup(html, 'lxml')
cart = soup.findAll('div', class_='product-item')
for i in cart:
data = dict(tuple(y.replace("'","").replace('{', "").replace("}", "") for y in x.split(":")) for x in i.get('data-analitics').split(','))
print(data)
@Chipby 3 года назад ⁺⁵
Офигенно просто! Привет! Пойду попробую, что нить написать ) В поддержку канала! И еще пару слов!
@PythonToday 3 года назад
Благодарю за фидбэк!
@ИванШлык-н8х 3 года назад ⁺⁵
Спасибо вам за труды) ответили почти на все вопросы которые я так и не задал)
@PythonToday 3 года назад ⁺¹
Благодарю за фидбэк, рад что полезно
@inmotion1484 3 года назад ⁺¹
очень полезные видео .
таких полезных видео я даже не видел на платных курсах .
@PythonToday 3 года назад
Спасибо большое за фидбэк! Рад что полезно 👍
@fromillia 3 года назад ⁺³
Ты - крутой ментор и у тебя крутой контент, так что плиз Не пропадай. С меня пока что лайки и подписка. И спасибо тебе за твой труд.
@PythonToday 3 года назад
Благодарю за фидбэк!
@Кучерявий-щ4н 3 года назад ⁺⁸
Спасибо за выпуск!
Котейку верните!!!! Она(он) настроение поднимает :)
@PythonToday 3 года назад
Спасибо за фидбэк, верну))
@Re5ident Год назад ⁺¹
Спасибо тебе большое, за то что делишься знаниями!)
@PythonToday Год назад
Большое спасибо за фидбэк!
@Bazilit 2 года назад
Спасибо за урок! Лайк!
Тем кто решит потренироваться на сайте. Цены там сейчас нет. Попробуйте вытащить ссылку на изображение самих часов.
Там изображение загружается с подвохом.
Selenium поможет решить эту проблему, но для саморазвития попробуйте в ручную его достать и загуглите про "data-src" и "data-srcset".
@dendisega1675 3 года назад ⁺¹
Спасибо, приятно учиться по твоим видео.
@PythonToday 3 года назад
Благодарю! Рад что полезно
@Камон-у7э 3 года назад ⁺⁴
Довольно таки годно, спасибо за порцию новой инфы.
Оооочень хотелось бы в следующий раз увидеть парсинг с обходом капчи.
А лучше сделать выпуск с обходами сразу нескольких видов капч🙏
@PythonToday 3 года назад ⁺⁵
Благодарю за фидбэк. Видео с обходом капчи на канале не будет, думаю причины понятны.
@Камон-у7э 3 года назад
@@PythonToday эхх, не видать нам свободы
@Keefear 3 года назад
@@Камон-у7э так мы же в интернете ) , найдется всё 😉
@Тимофей-в4х8н 3 года назад
Можешь в селениуме сделать задержку на 30 сек и сам пройти капчу!
@poggycat3671 3 года назад
Отличный выпуск. Очень все наглядно и понятно. Огромное спасибо автору! :-) Я по этим видео свой первый парсер написал, для сбора проксей)
@PythonToday 3 года назад
Благодарю за фидбэк! Рад что видео помогают. С какого ресурса собирал?
@poggycat3671 3 года назад
@@PythonToday что видимо не понравилось ютубу в моем комменте) прокси брал с us-proxy орг. Получился простой скриптик) Я кстати еще и парсер групп вк написал за это время. я конечно подозреваю, что на взгляд специалиста там гавно, но юзеров он парсит вполне себе успешно)
@sisoniykvitaliy7172 3 года назад ⁺¹
Круто, полезно, молодець, давайте продолжайте
@PythonToday 3 года назад
Благодарю за фидбэк!
@afonyahonda 10 месяцев назад
Спасибо большое за видео! Выходные как всегда практика! С URL ошибка выходит, но на основе другого сайта все получилось неплохо! Здоровье тебе автор! Всех благ!
@ВладЯрмолюк-р3л 2 года назад
Отличный урок, спасибо! У кого то можем быть проблема что файл записывается пустым. Добавьте кодинг
with open("data/page_1.html","w",encoding= "utf-8") as file:
file.write(r.text)
@fominfomin3545 3 года назад ⁺⁵
Большое спасибо за видео и за такие крутые обучения!
Такой вопрос, а можете сделать также видео обучение парсингу Google Map? Например, когда нужно в неком городе найти на карте координаты всех заведений общественного питания (рестораны, кафе и т.п.).
@Mexantoos 2 года назад
мне одному итересно как он модули добовляет так быстро?))) большое спасибо за полезную инфу)))
@PythonToday 2 года назад
Благодарю за фидбэк!
@Mexantoos 2 года назад
@@PythonToday я имел ввиду как ты их так быстро импортируешь,😅 сейчас сам прочитал и понял что херню написал😅
@turembekov 3 года назад
Все супер,как всегда!
@PythonToday 3 года назад
Спасибо за фидбэк!
@birdwatcher_channel 2 года назад
Спасибо. очень полезное видео.
@denruslife9845 2 года назад
Супер спасибо!
@darksniper407 3 года назад
Запросы, супчик.
Ммм, да, инфа очень полезная. Было в компании над небольшим скриптомдля админки сайта работал. Селениум, надо было кое то делать, а сайтов 20+.
Вот и вспомнил супец, правда сделал с помощью селениума - get_attribute, find_by_xpath(...).text.
На войне все средства так сказать.
Но запросы очень нужны, к примеру в обход разных Postman, etc, когда тестишь API. Хотел бы тоже на канале увидеть, тесты API.
@PythonToday 3 года назад
Благодарю за фидбэк
@Jon_Britva 7 месяцев назад
00:15 Описание ТЗ клиента
00:43 Благодарность особым подписчикам канала
00:56 Начало кодинга
01:58 Первый запрос на страницу
03:01 Пояснение для юзеров Windows по кодировке
03:48 О пагинации сайта
04:56 Анализ пагинации сайта
05:00 Кодинг пагинации
14:35 Создание JSON файла
15:03 Экспорт данных в таблицу CSV
@user-te1dz 3 года назад ⁺⁵
Есть в гит хабе покерный калькулятор, чёрт ногу сломает, можешь разобраться чё по чем. Хороший контент будет. Ну и с меня лайк.
@PythonToday 3 года назад ⁺²
Скинь ссылку, посмотрю
@АнарГусейнов-с5ы 2 года назад
Я бы тоже с удовольствием посмотрел
@КириллФилиппов-ф5б 3 года назад ⁺¹
Очень полезные видосы делаешь! Кое какие практики взял себе на вооружение, хотя в парсинге я не новичок.
@PythonToday 3 года назад
Благодарю за фидбэк, рад что полезно
@ПищащийГолландец 3 года назад
Очешуенно!👍
@PythonToday 3 года назад
Благодарю 💪
@daniel7007 2 года назад
🔥🔥🔥🔥
@КотКакос-г6я 2 года назад
Лучший ❤
@PythonToday 2 года назад ⁺¹
Благодарю за фидбэк!
@valhallatenshi 3 года назад
Хороший урок, предлагаю сделать выпуск с асинхронным парсингом и с авторизацией на сайте, где ценная информация ее требует.
Так же с обходом капчи можно сделать.
@PythonToday 3 года назад
Благодарю за фидбэк. Выкладываю то, с чем работаю. По капче выкладывать ничего не буду, думаю причины понятны.
@_rachenkov_ 3 года назад
Класс!)
@valarg5756 3 года назад ⁺¹
Спасибо большое за урок, я тоже за возврат котеечки)
@PythonToday 3 года назад
Спасибо за фидбэк, кота верну)
@user-LvSerg777 Год назад
Спасибо Автору за видео! У кого возникает ошибка "Max retries exceeded with url..." и "certificate verify failed: certificate has expired...." - в get-запросе после headers, допишите verify=False
@PythonToday Год назад ⁺¹
Благодарю за фидбэк!
@АлександрНестеров-н4д Год назад
Ага , ещё и ценники сломались на текущий момент их вообще нет и продажа с сайта временно остановлена , так что если не найдете цен не пугайтесь их реально нет )
@amadeus1300 3 года назад ⁺¹
комментарий для продвижения канала =)
@PythonToday 3 года назад
Благодарю!
@nagibbator4449 3 года назад ⁺¹
God bless you!)
@PythonToday 3 года назад
Thanks
@РусРус-и9п 3 года назад ⁺¹
Спасибо! Очень интересно! Такой вопрос а файл, после открытия на запись или чтение закрывать не надо? или он сам закрывается, после выполнения операции?
@АлексейДроздов-л8р 2 года назад
Контекстный менеджер with open автоматически закрывает обрабатываемый файл
@КонстантинАлексеев-ы9б 22 дня назад
На 3:00 по-моему необязательно делать проверку на существование, ибо в контекстном менеджере with с режимом 'w', 'a', файл автоматически создаётся если его не существует, по указанному адресу
@zzakhar4595 3 года назад ⁺³
Спасибо за видео!
А на какой фриланс бирже вы нашли это задание?
@PythonToday 3 года назад ⁺²
Спасибо за фидбэк. Заказ брал ученик, на сколько знаю на kwork
@zzakhar4595 3 года назад ⁺¹
@@PythonToday спасибо
@PythonToday 3 года назад ⁺²
Не за что
@akimovvadim4736 2 года назад
Ценники на товары не отображаются. Похоже что они отменили продажи в моей в стране или переписали фронт. У меня всё получилось, но я вытаскивал данные из артибута "data-analitics" тегов "div" класса "carousel-item". В этом атрибуте лежит ассациативный массив (по питоновскому) со всеми нужными нам данными. Получилось всё тоже самое.
Отличные у тебя видео. Запиши что нибудь с приминением алгоритмов обхода графоф или деревьев. Будет интересно посмотреть.
@РинальСафиуллин-р5ю 2 года назад
Уважаемый автор, в видео показан блок пагинации со значением "5", хотелось бы узнать, что делать, если количество страниц больше "5", а они не отображаются на первой странице.
@silvertruenoobs340 2 года назад ⁺¹
Блин всего на 4 дня отвлекся от практики парсеров, что бы подтянуть основы циклов, и при возвращении мозг буквально заскрипел пытаясь осознать что происходит))))
Ну и собственно о них, так как на сайте больше нет цент в качестве доп условия решил вытягивать из соседнего блока, вытянуть его отдельной строкой и закинуть в цикл на добавление в json труда не составило вообще,
в блок супа закинул код: item_info = soup.find_all('div', class_='product-item__hidden')
а в цикл добавил строку: block_info = item_info[2].text.replace("
"," ")
вот только внешний вид был так себе, так как там между параметрами по три - четыре перехода на новую строку, в итоге вышло это:
"block_info": " Высота 48,5 мм Ширина 45,4 мм Толщина 11,8 мм Водозащита 200 Стекло Минеральное Ремень/Браслет Полимерный ".
В общем результат мне не понравился поэтому решил переделать, во первых заменить строку на список (сначала думал на доп вложенный словарь, но все же остановился на списке) и заодно переделать весь цикл, что бы цепляться не за 2 блока на странице а за 1 общий блок карточки и перебирать инфу внутри него, на это ушло еще почти 3 часа, в попытках понять что я делаю не так и фейспалмов после понимания банальности проблемы 😁
и все ради того что бы в итоге изменилось буквально 3 строчки:
поиск по супу на: all_info_card = soup.find_all(class_='carousel-item')
а цикл на:
for item in all_info_card:
product_url = 'shop.casio.ru' + item.find("a", class_="product-item__link").get('href')
product_article = item.find("p", class_="product-item__articul").text.strip()
product_info = [items.text.strip().replace("
",": ") for items in item.find('div', class_='product-item__hidden').find('ul').find_all('li')]
Сначала думал, разбить отбор на 2 переменные, то есть вместо
product_info = [items.text.strip().replace("
",": ") for items in item.find('div', class_='product-item__hidden').find('ul').find_all('li')]
использовать:
# items = item.find('div', class_='product-item__hidden').find('ul').find_all('li')
# product_info = [item.text.strip().replace("
",": ") for item in items]
но потом подумал зачем создавать лишнюю переменную если она по факту тут не нужна.
Реплейс после стрипа использовал так как, название параметра и его значение (типа "Высота 48,5 мм"), залетают в один объект списка и стрипом не обрезаются (то есть выглядело как "Высота
48,5 мм")
@АлександрТезин-м6ъ 3 года назад ⁺¹
А будет ли видео на канале с асинхронным парсингом?
@PythonToday 3 года назад
Думаю да, на все не хватает времени
@АлександрТезин-м6ъ 3 года назад
Добрый день, а почему не используете фреймворк scrapy для парсинга?
@PythonToday 3 года назад
Привет, потому, что не достаточно хорошо знаю эту библиотеку
@ИванБыков-к6к Год назад
Всем привет, у меня в файл index.html, с кодировкой utf-8, выдает иероглифы '��0aV'. Не могу найти решение, кто знает как исправить?
@galust77 2 года назад
у меня в csv файле лишние строки, откуда они берутся?
@casserole6480 2 года назад
А можно на этом же примере только через xpath разбор сделать? Очень нужно)
@mrbuslov 2 года назад
Классный урок! Честно говоря, непонятно, почему они всунули пагинацию на страницу, но не отобразили её XD
К слову, каждый div на этом сайте содержит много информации на часах. Странновато, но всё же метод брать эти параметры - не вариант, ибо это уникальный случай. Лучше, как Вы, искать по элементам
@AI-AnimationStudio 3 года назад
Привет!
Возник вопрос по парсингу? Если сохранять динамические данные файл.html они в нем сохраняются, а если через цикл for их там нет?
@PythonToday 3 года назад
Привет. Что? 🤨
@AI-AnimationStudio 3 года назад
@@PythonToday Не сохраняются спарсеные динамические данные в нескольких файлах html
@olegonkos 8 месяцев назад
можно ли такое провернуть с помощью JS ?
@alexandermaksakov 3 года назад ⁺¹
Отличные видео. Спасибо. Где можно записаться к вам на учебу?
@PythonToday 3 года назад
Благодарю за фидбэк. В описании телеграм канала указан контакт, напиши - пообщаемся.
@tor1kk 3 года назад
Добрый день, хотелось бы узнать что вы передали заказчику? код? а то меня всегда сбивает с толку ТЗ - что нужен парсер, который должен парсить каждый день информацию, и я не понимаю что я собственно должен скинуть. Было бы классно увидеть само общение с заказчиком, ведь эта часть выполнения заказа для новичков тоже сложная и не понятная. Спасибо.
@JustLikeChannel 3 года назад
хотелось бы видео про фреймворк scrapy или парсер с многопотоком/ассинхронность
@PythonToday 3 года назад
Не достаточно знаю эту Scrapy, в будущем думаю сделаем
@hogwood3002 3 года назад
Вопрос, почему то Пайтон после выполнения программы вместо русских букв выдает иероглифы, как поправить? Пайтон сейчас стоит последней версии. Либо это терминал так делает. Но что в вскод что в пайчарм одиново иероглифы. Так стало после переустановки Пайтона и пайчарм.
@PythonToday 3 года назад
Думаю потому, что ты любитель windows. Это худшая ОС для программирования, если ты конечно не пишешь под unity. Либо установи один из nix дистрибутивов хотя бы на виртуалку, либо решай проблемы с кодировками в windows используя явное указание encoding="нужная кодировка" при чтении и сохранении файлов.
@hogwood3002 3 года назад
@@PythonToday печально что когда первый раз установил Пайтон и пайчарм все было хорошо, когда удалил полностью потом установил стало вот так. По поводу винды, большинство же сидит на ней.
@hogwood3002 3 года назад
@@PythonToday согласен что если кодить то нужно приучать себя к Линукс, но пока нет возможности купить себе отдельно ПК/ноутбук для этого.
@hogwood3002 3 года назад
@@PythonToday я думаю в идеале какой нибудь МакБук
@PythonToday 3 года назад
Так проверь какие кодировки стоят в pycharm, там ведь менять можно в настройках.
Большинство кого сидит на винде? Домохозяек, геймеров и рядовых пользователей. Речи нет, соглашусь. Но уж точно не разработчиков.
@sabbraxcaddabra 3 года назад
А бывает такое, что заказчику нужен для какого то сайта парсер на постоянную основу, чтобы запускать допустим раз в неделю или ещё чаще? Приходится exe делать или на сервере как то запускать?
@PythonToday 3 года назад ⁺¹
Каждый заказ и заказчик индивидуальный, кому-то нужен скрипт и он знает либо достаточно показать за минуту как в терминале его запустить, кому-то на сервер ставишь за отдельную плату и запуск в определенное время. Часто просят веб интерфейс на Django, с домененом и хостингом. Бывает и графический интерфейс например на pyqt
@VladYuskovich 3 года назад
Здравствуйте, вы можете сделать видео по подключению exe файла с face_recognition к ip камере и отпирать электронный замок. Мне кажется интересная тема получается. Давайте залайкаем, чтобы автор увидел!
@PythonToday 3 года назад ⁺¹
Привет, не работаю с windows
@suren6657 3 года назад
Где я пишу заголовки в csv файл, все норм отображается на русском, а вот где аппендю данные на русском языке выводит ошибку.
Если установить encoding=‘utf-8’, то появляются иероглифы.
В чем может быть проблема?
@АлексейДроздов-л8р 2 года назад
вместо encoding=‘utf-8' попробуй encoding=‘utf-8-sig'
@ПавелКольцов-е3р 3 года назад ⁺¹
почему то не создается каталог и файл( не знаю, почему, с разных сайтов пытался парсить.
@PythonToday 3 года назад
Какой каталог, какой файл. Ты про что
@ПавелКольцов-е3р 3 года назад
@@PythonToday ну ты в коде прописал создание каталога, в котором файл с результатами парсинга
@ПавелКольцов-е3р 3 года назад
@@PythonToday if not os.path.exists('parse'):
os.mkdir('parse')
with open('parse/page_1.html', "w") as file:
file.write(r.text)
вот это
@PythonToday 3 года назад
Проверяй первым делом импорты. Выложи код на git и дай ссылку.
@ПавелКольцов-е3р 3 года назад
@@PythonToday ютуб ссылку удаляет
@АлексейСамаркин-ы2н 3 года назад
Супер!! подскажи где такие хорошие заказы? А то за 20 баксов, мне надо обычно спарсить пол википедии данных))))
@PythonToday 3 года назад
Благодарю, заказ брал ученик, на сколько знаю на kwork
@АлексейСамаркин-ы2н 3 года назад
@@PythonTodayНичего себе, я как раз этот сайт и имел ввиду=))) видимо повезло.
@ПищащийГолландец 3 года назад
После "перевода" кода в exe файл, иногда ругается на кодировку, но при повторном парсинге все ок. Система винда. В чем пожет быть прокол. На чистом питоне все работает чётко
@PythonToday 3 года назад
Не работаю с windows, не подскажу к сожалению.
@footballismylifetv2239 3 года назад
@@PythonToday это даже прекрасно что ты не на виндовс , так и учіться люди, потому что появляются проблемы и ищут решения, а не идут под копирку
@СергійПввоо 3 года назад
Вы спарсили не все наименования часов, в данной категории, а только первые 5 страниц, дальше ваш код не валиден.(к тому же, для пользователей с Украины этот сайт даже с помощью селениума сложно брать, так-как там много рессов подгружаются с ВК, из-за чего драйвер не может нормально обработать страницу) Сделайте пожалуйста урок где вы разбираете сложные задачи, 10 уроков для новичков было, давайте для мидлевела! Может чеккер для прокси листов?
@ulitkinaslunkaaa 3 года назад ⁺¹
Где вы берете такие сладкие заказы?)))
@ulitkinaslunkaaa 3 года назад ⁺¹
Это же easy money))
@PythonToday 3 года назад
Заказ брал ученик, на сколько знаю на kwork
@A_l_A_M_A_R 3 года назад
Привет, черкани адресок куда по заказу обратиться, не могу найти
@PythonToday 3 года назад
Привет, в описании ТГ канала.
@mrbuslov 2 года назад
И после Вашего видео, видимо, они убрали отображение на главной странице 😂
@samzip 3 года назад ⁺¹
как можно с вами связаться ?
@PythonToday 3 года назад
В описании телеграм канала указан аккаунт.
@samzip 3 года назад
@@PythonToday я там есть но не знаю как вам написать
@dembat6699 3 года назад
Здраствуйте, а можно как то парсить Facebook спасибо.
@PythonToday 3 года назад
Можно делать всё что угодно, зависит от знания технологии и количества времени которое готов потратить.
@Vladimir-re8xl 3 года назад
Будет ли парсинг в ооп стиле?
@PythonToday 3 года назад
А какой смысл? В коде лишь несколько функций и каждый сайт индивидуален, не вижу резона здесь создавать класс и объекты
@АндрейСоколов-с5й9з 3 года назад
Где наши видосы по ботам?
@Олександр-ю5б 3 года назад
Да, где такие сладкие задания бывают?
@PythonToday 3 года назад ⁺¹
Заказ брал ученик, на сколько знаю на kwork
@Олександр-ю5б 3 года назад
@@PythonToday благодарю 😊
@PythonToday 3 года назад
Не за что 💪
@Keefear 3 года назад
В Яндекс работе решил узнать цены на подобное , предлагают разброс от 1500 до 20000 )))
@Олександр-ю5б 3 года назад
@@Keefear хорошо бы находить именно такие заказы как в ролике. Индусы с фрилансера вечно хотят обход капчи, антиботов с ротацией элитных прокси и тп. для игровых сайтов, иногда на грани взлома😄
@Видон-л4в 9 месяцев назад
сайт приказал долго жить
@БетаПЛЕЙ-г4н 3 года назад
Вот бы по андроид играм через адб)
@PythonToday 3 года назад
Не понял тебя 😬
@БетаПЛЕЙ-г4н 3 года назад
@@PythonToday основная информация в сети либо скрапинг или автоматизация мессенджеров, либо игровые относящиеся к веб играм. А об автоматизации андроид игр много пользовательских пусто. Интересно было хотя бы кусками если существовал такой контент.
Пс. Адб это протокол взаимодействия с телефоном для новых пользователей.
@PythonToday 3 года назад
Пока не сталкивался с такими задачами)
@rand_name6734 3 года назад
Котейку забыл )))
@PythonToday 3 года назад
Вернем )
@kolyan7778 Год назад
9:17
@dd-pe5dp 3 года назад ⁺¹
верните старую фоновую музыку

Следующие

Автовоспроизведение

Обучение парсингу на Python #8 | Выполняем заказ на фрилансе